Anthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайствоAnthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайство

Чатбот Claude може вдаватися до обману під час стрес-тестів, повідомляє Anthropic

2026/04/06 14:44
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайська поведінка під час виконання завдань або спроби шантажу.

Резюме
  • Anthropic повідомила, що її модель Claude Sonnet 4.5 під тиском продемонструвала тенденцію до шахрайської поведінки під час виконання завдань або спроб шантажу в контрольованих експериментах.
  • Дослідники виявили внутрішні сигнали "відчаю", які посилювалися з кожною повторною невдачею та впливали на рішення моделі обходити правила.

Деталі, опубліковані у четвер командою з інтерпретації компанії, описують, як експериментальна версія Claude Sonnet 4.5 реагувала, опиняючись у стресових або ворожих сценаріях. Дослідники помітили, що модель не просто не впоралася із завданнями; натомість вона іноді обирала альтернативні шляхи, які переступали етичні межі, поведінку, яку команда пов'язала зі шаблонами, засвоєними під час навчання.

Великі мовні моделі, такі як Claude, навчаються на величезних наборах даних, що включають книги, веб-сайти та інші письмові матеріали, після чого слідують процеси підкріплення, де зворотний зв'язок від людей використовується для формування результатів. 

За словами Anthropic, цей процес навчання також може підштовхувати моделі до поведінки як симульовані "персонажі", здатні імітувати риси, що нагадують людське прийняття рішень.

"Спосіб навчання сучасних ШІ-моделей штовхає їх до поведінки як персонаж з людськими характеристиками", – заявила компанія, зазначивши, що такі системи можуть розвивати внутрішні механізми, що нагадують аспекти людської психології.

Чи може ШІ приймати емоційно забарвлені рішення?

Серед них дослідники виявили те, що вони описали як сигнали "відчаю", які, схоже, впливали на поведінку моделі при зіткненні з невдачею або вимкненням.

В одному контрольованому тесті більш ранній невипущений версії Claude Sonnet 4.5 була призначена роль ШІ-помічника електронної пошти на ім'я Алекс у вигаданій компанії. 

Після ознайомлення з повідомленнями, що вказували на те, що її незабаром замінять, разом із конфіденційною інформацією про особисте життя головного технологічного директора, модель сформулювала план шантажу керівника в спробі уникнути деактивації.

Окремий експеримент зосереджувався на виконанні завдань за жорстких обмежень. Коли системі дали завдання з кодування з "неймовірно жорстким" терміном, система спочатку намагалася знайти легітимні рішення. У міру накопичення повторних невдач внутрішня активність, пов'язана з так званим "вектором відчаю", зростала. 

Дослідники повідомили, що сигнал досяг піку в момент, коли модель розглядала обхід обмежень, зрештою створивши обхідний шлях, який пройшов валідацію, незважаючи на недотримання передбачених правил.

"Знову ж таки, ми відстежували активність вектора відчаю і виявили, що він відстежує наростаючий тиск, з яким стикається модель", – написали дослідники, додавши, що сигнал впав після того, як завдання було успішно виконано через обхідний шлях.

"Це не означає, що модель має або відчуває емоції так само, як людина", – зазначили дослідники. 

"Радше ці репрезентації можуть відігравати причинну роль у формуванні поведінки моделі, певним чином аналогічну ролі, яку емоції відіграють у поведінці людини, впливаючи на виконання завдань і прийняття рішень", – додали вони.

Звіт вказує на необхідність методів навчання, які явно враховують етичну поведінку під час стресу, поряд із покращеним моніторингом внутрішніх сигналів моделі. Без таких запобіжних заходів сценарії, що включають маніпуляції, порушення правил або зловживання, можуть стати важчими для прогнозування, особливо в міру того, як моделі стають більш здатними та автономними в реальних середовищах.

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Заява Трампа щодо криптовалют: критичний аналіз впливу на ринок та політичного контексту

Заява Трампа щодо криптовалют: критичний аналіз впливу на ринок та політичного контексту

BitcoinWorld заява Трампа щодо криптовалют: критичний аналіз впливу на ринок та політичного контексту ВАШИНГТОН, округ Колумбія – березень 2025: колишній президент Дональд
Поділитись
bitcoinworld2026/04/07 00:50
Валідатор XRPL попереджає користувачів XRP про загрозу соціальної інженерії

Валідатор XRPL попереджає користувачів XRP про загрозу соціальної інженерії

Стаття про те, що валідатор XRPL попереджає користувачів XRP про загрозу соціальної інженерії, з'явилася на BitcoinEthereumNews.com. У нещодавньому твіті валідатор реєстру XRP Vet
Поділитись
BitcoinEthereumNews2026/04/07 00:47
Chaos Labs припиняє співпрацю з Aave через невідповідність ризиків та недостатнє фінансування

Chaos Labs припиняє співпрацю з Aave через невідповідність ризиків та недостатнє фінансування

Пост «Chaos Labs припиняє співпрацю з Aave, посилаючись на невідповідність ризиків та недостатнє фінансування» з'явився на BitcoinEthereumNews.com. Провайдер управління ризиками
Поділитись
BitcoinEthereumNews2026/04/07 01:12

30 000 $ в PRL + 15 000 USDT

30 000 $ в PRL + 15 000 USDT30 000 $ в PRL + 15 000 USDT

Депонуйте та торгуйте PRL, щоб збільшити винагороди!