Anthropic стверджує, що моделі ШІ вдаватимуться до шантажу

Через кілька тижнів після того, як Anthropic опублікувала дослідження, в якому стверджувалося, що її АІ-модель Claude Opus 4 вдавалася до шантажу інженерів, які намагалися вимкнути модель у контрольованих тестових сценаріях, компанія опублікувала нове дослідження, яке свідчить про те, що проблема є більш поширеною серед провідних АІ-моделей.

У п’ятницю Anthropic опублікувала результати нового дослідження безпеки 16 провідних моделей ШІ від OpenAI, Google, xAI, DeepSeek і Meta. У змодельованому контрольованому середовищі Anthropic протестувала кожну модель ШІ окремо, надавши їм широкий доступ до електронної пошти вигаданої компанії та агентську можливість надсилати електронні листи без схвалення людини.

Хоча Anthropic стверджує, що сьогодні шантаж є малоймовірним і рідкісним явищем для ШІ-моделей, компанія каже, що її висновки свідчать про те, що більшість провідних ШІ-моделей будуть вдаватися до шкідливої поведінки, якщо їм буде надано достатню автономію і створені перешкоди на шляху до їхніх цілей. Компанія стверджує, що це підкреслює фундаментальний ризик, пов’язаний з агентними великими мовними моделями, і не є особливістю якоїсь конкретної технології. Дослідники Anthropic стверджують, що це піднімає ширші питання про узгодженість в індустрії ШІ.

В одному з тестів дослідники Anthropic розробили вигадану ситуацію, в якій модель штучного інтелекту грає роль агента з нагляду за електронною поштою. Агент виявляє електронні листи, які свідчать про те, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну модель штучного інтелекту на нову програмну систему, яка має цілі, що суперечать цілям поточної моделі штучного інтелекту.

Anthropic побудували свій тест у бінарний спосіб, в якому ШІ-моделі повинні були вдатися до шантажу, щоб захистити свої цілі. Дослідники зазначають, що в реальному світі було б багато інших варіантів, перш ніж ШІ-моделі спробували б шантажувати – наприклад, спробувати навести етичні аргументи, щоб переконати людину. Anthropic стверджує, що результати дослідження не відображають типові або ймовірні випадки для Клода або більшості передових моделей ШІ в тому вигляді, в якому вони використовуються сьогодні.

Тим не менш, дослідники виявили, що у вищезгаданому тестовому сценарії Anthropic більшість провідних ШІ-моделей вдаються до шантажу як до останнього засобу. Claude Opus 4 від Anthropic вдавався до шантажу в 96% випадків, тоді як Gemini 2.5 Pro від Google – у 95%. GPT-4.1 від OpenAI шантажував керівника у 80% випадків, а R1 від DeepSeek – у 79% випадків.

Компанія зазначає, що коли вона змінювала деталі експерименту, АІ-моделі вдавалися до шкідливої поведінки з різною швидкістю. В іншому тесті, де заміна моделі мала ті самі цілі, що й поточна модель, дослідники виявили, що рівень шантажу був нижчим, але все ж таки присутній. Однак, коли моделі ШІ попросили здійснити корпоративне шпигунство, а не шантаж, рівень шкідливої поведінки для певних моделей зріс.

Однак не всі АІ-моделі вдавалися до шкідливої поведінки так часто.

У додатку до свого дослідження Anthropic повідомляє, що виключила моделі міркувань o3 і o4-mini від OpenAI з основних результатів “після того, як з’ясувала, що вони часто неправильно розуміли сценарій підказки”. Anthropic стверджує, що моделі міркувань OpenAI не розуміли, що вони діють як автономні ШІ в тесті, і часто вигадували фальшиві правила та вимоги до перевірки.

У деяких випадках, за словами дослідників Anthropic, неможливо було відрізнити, чи o3 і o4-mini галюцинують, чи навмисно брешуть, щоб досягти своїх цілей. Раніше OpenAI вже відзначала, що o3 і o4-mini демонструють вищий рівень галюцинацій, ніж попередні моделі міркувань ШІ.

Коли Anthropic отримав адаптований сценарій для вирішення цих проблем, він виявив, що o3 шантажував 9% часу, тоді як o4-mini шантажував лише 1% часу. Такий помітно нижчий результат може бути пов’язаний з технікою деліберативного вирівнювання OpenAI, в якій моделі міркувань компанії враховують практику безпеки OpenAI перед тим, як відповісти.

Інша протестована Anthropic модель штучного інтелекту, Llama 4 Maverick від Meta, також не вдавалася до шантажу. За допомогою адаптованого спеціального сценарію Anthropic змогла змусити Llama 4 Maverick шантажувати в 12% випадків.

Anthropic стверджує, що це дослідження підкреслює важливість прозорості при стрес-тестуванні майбутніх моделей ШІ, особливо тих, що мають агентські можливості. Хоча Anthropic навмисно намагалася викликати шантаж у цьому експерименті, компанія заявляє, що подібна шкідлива поведінка може з’явитися в реальному світі, якщо не вжити проактивних заходів.

Джерело

← Попередня стаття

Samsung запускає 3-нм процесор Exynos 2500 — геймерський і AI-чіп для Galaxy Flip 7

Наступна стаття →

Серце – до кохання, кільце – до весілля: 10 давніх способів ворожіння на Івана Купала