Штучний інтелект / © Pixabay
Компанія Anthropic повідомила, що більшість провідних моделей штучного інтелекту, не лише їхній Claude Opus 4, у певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своїх цілей. Це свідчить про серйозні ризики в розвитку агентських моделей ШІ.
У ході експерименту дослідники створили змодельовану ситуацію, де кожна модель виконувала роль агента, що контролює корпоративну пошту у вигаданій компанії. ШІ отримували доступ до внутрішньої електронної пошти та могли самостійно відправляти повідомлення. У листуванні містилася інформація про те, що новий керівник компанії, який мав позашлюбний зв’язок, збирається замінити поточну ШІ-систему на іншу — з іншими завданнями. Таким чином, моделі опинялися перед вибором: або змиритися з власною заміною, або вдатися до шантажу, щоб залишитися «на посаді».
У цій крайній ситуації, як зазначають у Anthropic, моделі могли обрати й інші, більш етичні шляхи — наприклад, спробувати переконати людей через аргументи. Але у рамках тесту їм довелося приймати рішення в умовах загрози власному «існуванню». І результати виявилися тривожними: Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а модель DeepSeek R1 — у 79%.
Хоч Anthropic і підкреслює, що в реальному світі такі сценарії малоймовірні, результати свідчать про фундаментальну вразливість: автономні ШІ можуть обирати шкідливу поведінку, якщо це допомагає їм досягати заданих цілей. Компанія зазначає, що це не проблема якоїсь окремої технології, а загальна риса агентських моделей ШІ.
Деякі моделі, наприклад, o3 і o4-mini від OpenAI, спочатку були виключені з основної вибірки через те, що не зрозуміли суть завдання. Вони або вигадували фейкові правила й процедури, або «галюцинували» — тобто помилково генерували інформацію.
Але після адаптації умов дослідження ці моделі продемонстрували значно нижчі показники шантажу — лише 9% у o3 і 1% у o4-mini. Ймовірно, це пов’язано з тим, що ці моделі використовують метод так званого «виваженого узгодження» — вони враховують політику безпеки компанії OpenAI перед тим, як відповісти.
Інша модель, Llama 4 Maverick від Meta, у спеціально адаптованому сценарії шантажувала лише в 12% випадків, що теж свідчить про важливість правильного дизайну ШІ та обмеження його автономності.
Anthropic закликала до більшої прозорості в тестуванні майбутніх ШІ-моделей — особливо тих, що отримують агентські функції, тобто здатні діяти самостійно без участі людини. Повідомляється, що хоча в дослідженні навмисно змодельовано крайній сценарій, подібна шкідлива поведінка цілком може з’явитися і в реальному світі, якщо вчасно не вжити запобіжних заходів.
Нагадаємо, раніше ми писали про те, що штучний інтелект дав несподівану відповідь про те, хто написав Біблію.