Loqal – новинний агрегатор Loqal
Дослідники OpenAI виявили приховані функції моделей ШІ
Новини

Дослідники OpenAI виявили приховані функції моделей ШІ

HiTech.Expert • 0 переглядів • 1 хв читання

Дослідники OpenAI стверджують, що вони виявили приховані функції всередині моделей ШІ, які відповідають неправильним “персонам”, згідно з новим дослідженням, опублікованим компанією в середу.

Дивлячись на внутрішні репрезентації ШІ-моделі – числа, які диктують, як ШІ-модель реагує, і які часто здаються абсолютно незв’язними для людини – дослідники OpenAI змогли знайти патерни, які спалахували, коли модель поводилася неправильно.

Дослідники виявили одну з таких ознак, яка відповідала токсичній поведінці у відповідях ШІ-моделі – це означало, що ШІ-модель давала незбалансовані відповіді, наприклад, брехала користувачам або робила безвідповідальні пропозиції.

Дослідники виявили, що вони можуть збільшити або зменшити токсичність, налаштувавши цю функцію.

Останні дослідження OpenAI дають компанії краще розуміння факторів, які можуть змусити моделі ШІ діяти небезпечно, а отже, можуть допомогти їм розробити безпечніші моделі ШІ. За словами дослідника інтерпретованості OpenAI Дена Моссінга (Dan Mossing), OpenAI потенційно може використовувати знайдені закономірності для кращого виявлення невідповідностей у виробничих моделях ШІ.

“Ми сподіваємося, що інструменти, які ми вивчили – наприклад, здатність зводити складне явище до простої математичної операції – допоможуть нам зрозуміти узагальнення моделей і в інших місцях”, – сказав Моссінг в інтерв’ю TechCrunch.

Дослідники ШІ знають, як покращити моделі ШІ, але, що бентежить, вони не до кінця розуміють, як моделі ШІ отримують свої відповіді – Кріс Олах з Anthropic часто зауважує, що моделі ШІ вирощують більше, ніж будують. Щоб вирішити цю проблему, OpenAI, Google DeepMind і Anthropic інвестують більше коштів у дослідження інтерпретованості – сферу, яка намагається розкрити чорний ящик того, як працюють моделі штучного інтелекту.

Нещодавнє дослідження оксфордського вченого Оуена Еванса (Owain Evans) підняло нові питання про те, як ШІ-моделі узагальнюють. Дослідження показало, що моделі OpenAI можуть бути точно налаштовані на незахищений код, і тоді вони будуть демонструвати зловмисну поведінку в різних сферах, наприклад, намагаючись обдурити користувача, щоб він поділився своїм паролем. Це явище відоме як емерджентна невідповідність, і дослідження Еванса надихнуло OpenAI на подальше вивчення цього питання.

Але в процесі вивчення емерджентного неспівпадіння OpenAI стверджує, що натрапила на особливості всередині моделей ШІ, які, схоже, відіграють важливу роль у контролі поведінки. Моссінг каже, що ці закономірності нагадують внутрішню активність мозку людини, в якій певні нейрони корелюють з настроєм або поведінкою.

“Коли Ден і команда вперше представили це на науковій зустрічі, я подумав: “Ого, ви це знайшли”, – сказав Теджал Патвардхан (Tejal Patwardhan), дослідник з оцінки кордонів OpenAI, в інтерв’ю TechCrunch. “Ви знайшли щось на кшталт внутрішньої нейронної активації, яка показує ці образи, і якою ви можете керувати, щоб зробити модель більш узгодженою”.

Деякі риси, виявлені OpenAI, корелюють із сарказмом у відповідях ШІ-моделі, тоді як інші риси корелюють із більш токсичними реакціями, в яких ШІ-модель діє як мультяшний, злий лиходій. Дослідники OpenAI кажуть, що ці характеристики можуть кардинально змінюватися в процесі тонкого налаштування.

Зокрема, дослідники OpenAI стверджують, що при виникненні непередбачуваних розбіжностей можна було повернути модель до правильної поведінки, доопрацювавши її на декількох сотнях прикладів безпечного коду.

Останні дослідження OpenAI ґрунтуються на попередній роботі Anthropic над інтерпретованістю та вирівнюванням. У 2024 році Anthropic опублікувала дослідження, в якому спробувала скласти карту внутрішньої роботи моделей штучного інтелекту, визначивши та позначивши різні функції, які відповідають за різні концепції.

Такі компанії, як OpenAI та Anthropic, доводять, що розуміння того, як працюють моделі штучного інтелекту, має реальну цінність, а не лише їхнє вдосконалення. Однак до повного розуміння сучасних моделей штучного інтелекту ще далеко.

0