Нова загроза для ШІ: приховані атаки через зображення

Коротко

Команда Trail of Bits виявила нову загрозу для систем ШІ: prompt injection-атаки можуть бути приховані у звичайних зображеннях. Техніка полягає у вбудовуванні інструкцій у зображення, які стають видимими після стиснення під час завантаження до сервісів, таких як Gemini. У досліді було показано, що така атака може призвести до витоку конфіденційних даних користувача.

Команда з компанії Trail of Bits виявила нову загрозу для систем штучного інтелекту: prompt injection-атаки можна приховати у звичайних зображеннях. Техніка дозволяє вставляти інструкції, невидимі для людського ока, які «розкриваються» після стиснення картинки під час завантаження. Про це пише PCWorld.

Prompt injection — це спосіб непомітно «підсовувати» штучному інтелекту команди, яких користувач не бачить. Наприклад, у текст можна заховати фразу, зробивши її одного кольору з фоном: людина її не прочитає, але ШІ — розпізнає.

У новому варіанті атаки інструкції вбудовуються у зображення. Коли користувач завантажує картинку до сервісу (наприклад, у Gemini чи Android Circle-to-Search), система стискає файл для економії ресурсів. У процесі стиснення прихований текст стає доступним для інтерпретації й може активувати інструкцію.

У досліді Trail of Bits було показано, що зображення після завантаження в Gemini змушувало модель надіслати календарні дані користувача сторонній особі.

Важливо, що для успішної атаки необхідні:

Поки що немає доказів, що цей метод уже застосовується хакерами у реальних атаках.

Джерело

← Попередня стаття

Чоловік намагався стрибнути з мосту, але сталося "диво": як змінилося його життя

Наступна стаття →

Google DeepMind представила оновлену модель для редагування зображень