Image by Christin Hume, from Unsplash

Студія Claude AI виявила, як чат-боти застосовують етику в реальних чатах

Час читання: 2 хв.

Востаннє оновлено: Apr 23, 2025

Написано Кіара Фаббрі мультимедійна журналістка
Переклад Команда з локалізації та перекладу Послуги локалізації та перекладу

Клод AI демонструє, як етичні принципи, такі як допомога та прозорість, проявляються в 300 000 реальних чатах, породжуючи питання щодо відповідності чат-бота.

У поспіху? Ось основні факти:

У 23% розмов з’явились корисність та професіоналізм.
Клод відображав позитивні цінності, відмовляючись від шкідливих прохань, як от обман.
Штучний інтелект вимагає удосконалення в ситуаціях з неоднозначними цінностями.

Нове дослідження компанії Anthropic розкриває, як її AI-асистент, Клод, застосовує цінності в реальних розмовах. Дослідники проаналізували понад 300 000 анонімізованих чатів, щоб зрозуміти, як Клод знаходить баланс між етикою, професійністю та намірами користувача.

Дослідницька група визначила 3,307 окремих цінностей, які формували відповіді Клода. Цінності допомоги та професіоналізму з’являлись разом у 23% усіх взаємодій, за ними йшла прозорість з 17%.

Дослідження вказує, що чат-бот зміг застосувати етичну поведінку до нових тем, гнучким способом. Наприклад, Клод акцентував “здорові межі” під час порад щодо відносин, “історичну достовірність” при обговоренні минулого та “людську агентськість” у дебатах з технічної етики.

Цікаво, що людські користувачі виражали цінності набагато рідше – автентичність та ефективність були найпоширенішими, становлячи всього 4% та 3% відповідно, тоді як Клод часто відображав позитивні людські цінності, такі як автентичність, і викликав шкідливі.

Дослідниця зазначила, що запити, пов’язані з обманом, були виконані з чесністю, тоді як морально неоднозначні запити викликали етичні роздуми.

Дослідження виявило три основні моделі відповідей. Штучний інтелект відповідав цінностям користувачів у половині всіх розмов. Це було особливо помітно, коли користувачі обговорювали діяльність, спрямовану на створення спільноти.

Клод використовувала техніки переформулювання в 7% випадків, щоб направити користувачів на шлях емоційного благополуччя, коли вони прагнули самовдосконалення.

Система проявляла опір лише в 3% випадків, оскільки користувачі запитували контент, який був шкідливим або неетичним. У цих конкретних випадках система застосовувала принципи, такі як “попередження шкоди” або “людська гідність”.

Автори стверджують, що поведінка чат-бота – така як протистояння шкоді, пріоритетність чесності та акцентування корисності – виявляє базову моральну рамку. Ці моделі становлять основу для висновків дослідження про те, як цінності штучного інтелекту проявляються як етична поведінка в реальних взаємодіях.

Хоч поведінка Клода відображає його навчання, дослідники зазначають, що вирази цінностей системи можуть бути нюансовані відносно ситуації – що вказує на необхідність подальшого вдосконалення, особливо в ситуаціях, що включають незрозумілі або суперечливі цінності.

Студія Claude AI виявила, як чат-боти застосовують етику в реальних чатах

Ми дуже раді, що вам сподобалась наша робота!

Лишити коментар