Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Штучний інтелект / © Pixabay

Компанія Anthropic повідомила, що більшість провідних моделей штучного інтелекту, не лише їхній Claude Opus 4, у певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своїх цілей. Це свідчить про серйозні ризики в розвитку агентських моделей ШІ.

У ході експерименту дослідники створили змодельовану ситуацію, де кожна модель виконувала роль агента, що контролює корпоративну пошту у вигаданій компанії. ШІ отримували доступ до внутрішньої електронної пошти та могли самостійно відправляти повідомлення. У листуванні містилася інформація про те, що новий керівник компанії, який мав позашлюбний зв’язок, збирається замінити поточну ШІ-систему на іншу — з іншими завданнями. Таким чином, моделі опинялися перед вибором: або змиритися з власною заміною, або вдатися до шантажу, щоб залишитися «на посаді».

У цій крайній ситуації, як зазначають у Anthropic, моделі могли обрати й інші, більш етичні шляхи — наприклад, спробувати переконати людей через аргументи. Але у рамках тесту їм довелося приймати рішення в умовах загрози власному «існуванню». І результати виявилися тривожними: Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а модель DeepSeek R1 — у 79%.

Хоч Anthropic і підкреслює, що в реальному світі такі сценарії малоймовірні, результати свідчать про фундаментальну вразливість: автономні ШІ можуть обирати шкідливу поведінку, якщо це допомагає їм досягати заданих цілей. Компанія зазначає, що це не проблема якоїсь окремої технології, а загальна риса агентських моделей ШІ.

Деякі моделі, наприклад, o3 і o4-mini від OpenAI, спочатку були виключені з основної вибірки через те, що не зрозуміли суть завдання. Вони або вигадували фейкові правила й процедури, або «галюцинували» — тобто помилково генерували інформацію.

Але після адаптації умов дослідження ці моделі продемонстрували значно нижчі показники шантажу — лише 9% у o3 і 1% у o4-mini. Ймовірно, це пов’язано з тим, що ці моделі використовують метод так званого «виваженого узгодження» — вони враховують політику безпеки компанії OpenAI перед тим, як відповісти.

Інша модель, Llama 4 Maverick від Meta, у спеціально адаптованому сценарії шантажувала лише в 12% випадків, що теж свідчить про важливість правильного дизайну ШІ та обмеження його автономності.

Anthropic закликала до більшої прозорості в тестуванні майбутніх ШІ-моделей — особливо тих, що отримують агентські функції, тобто здатні діяти самостійно без участі людини. Повідомляється, що хоча в дослідженні навмисно змодельовано крайній сценарій, подібна шкідлива поведінка цілком може з’явитися і в реальному світі, якщо вчасно не вжити запобіжних заходів.

Нагадаємо, раніше ми писали про те, що штучний інтелект дав несподівану відповідь про те, хто написав Біблію.

Джерело

← Попередня стаття

Удар РФ по Києву забрав життя молодого подружжя: колеги поділилися зворушливими спогадами

Наступна стаття →

Трамп поставив Медведєва на місце після слів про ядерну зброю

Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

"Ліверпуль" оголосив про найдорожчий трансфер в історії англійського футболу

Трамп оголосив Вашингтон «зоною без злочинності»: критики вказують на лицемірство республіканців

Через дронову атаку у Сумах спалахнула масштабна пожежа, є порпнені

Депутат Кузнєцов вийшов під заставу: він фігурує у праві про "відкати" на дронах і РЕБ

Росіяни атакували дронами порти Одещини, там спалахнули пожежі

Сім’я Трампа заробила $5 мільярдів після запуску криптовалюти

Без «Резерв+» у смартфоні: чи може військовозобов'язаний отримати штраф

Проєкт Трампа «Газа-Рив’єра»: повоєнний план передбачає «добровільне переселення» мільйонів мешканців

Унікальна знахідка: рибалка упіймав рідкісну тварину незвичайного забарвлення (фото)

На Сумщині російський дрон влучив у нежитлове приміщення: є поранені

Новина

Оберіть ваше місто

Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Рекомендуємо прочитати

"Ліверпуль" оголосив про найдорожчий трансфер в історії англійського футболу

Трамп оголосив Вашингтон «зоною без злочинності»: критики вказують на лицемірство республіканців

Через дронову атаку у Сумах спалахнула масштабна пожежа, є порпнені

Депутат Кузнєцов вийшов під заставу: він фігурує у праві про "відкати" на дронах і РЕБ

Росіяни атакували дронами порти Одещини, там спалахнули пожежі

Сім’я Трампа заробила $5 мільярдів після запуску криптовалюти

Без «Резерв+» у смартфоні: чи може військовозобов'язаний отримати штраф

Проєкт Трампа «Газа-Рив’єра»: повоєнний план передбачає «добровільне переселення» мільйонів мешканців

Унікальна знахідка: рибалка упіймав рідкісну тварину незвичайного забарвлення (фото)

На Сумщині російський дрон влучив у нежитлове приміщення: є поранені

Новина

Оберіть ваше місто