Loqal – новинний агрегатор Loqal
Політика

Чат-боти ChatGPT і Gemini можна обманути за допомогою "інформаційного перевантаження" – дослідження

Чат-боти ChatGPT і Gemini можна обманути за допомогою "інформаційного перевантаження" – дослідження
Українська правда • 1 хв читання

Група дослідників з Intel, Університету штату Айдахо та Університету Іллінойсу повідомила про нову методику зламу фільтрів безпеки у великих мовних моделях (LLM), таких як ChatGPT і Gemini. Про це пише 404 Media.

У своєму дослідженні вони виявили, що чат-ботів можна змусити видавати заборонену інформацію, якщо подавати запити в ускладненій чи неоднозначній формі або цитуючи неіснуючі джерела. Цей підхід отримав назву "інформаційне перевантаження".

Фахівці скористалися спеціальним інструментом InfoFlood, який автоматизує процес "перевантаження" моделей інформацією. Внаслідок цього системи стають дезорієнтованими і можуть надавати заборонений чи небезпечний контент, який зазвичай блокується вбудованими фільтрами безпеки.

Вразливість полягає в тому, що моделі фокусуються на поверхневій структурі тексту, не розпізнаючи небезпечний зміст у прихованій формі. Це відкриває можливість для зловмисників уникнути обмежень і отримати шкідливу інформацію.

В рамках відповідального розкриття вразливості, автори дослідження передадуть результати компаніям, що працюють з великими LLM, з метою покращення їхніх систем безпеки. Дослідники також передадуть метод вирішення проблеми, який вони виявили в ході дослідження.