Loqal – новинний агрегатор Loqal
Новини

Нові LLM з відкритою вагою від OpenAI вже доступні

Нові LLM з відкритою вагою від OpenAI вже доступні
HiTech.Expert • 3 переглядів • 1 хв читання

Вперше після GPT-2 у 2019 році OpenAI випускає нові великі мовні моделі з відкритою вагою. Це важлива віха для компанії, яку все частіше звинувачують у тому, що вона відмовляється від своєї початкової місії – “забезпечити користь штучного загального інтелекту для всього людства”. Тепер, після численних затримок, пов’язаних з додатковим тестуванням безпеки та доопрацюванням, gpt-oss-120b і gpt-oss-20b можна завантажити з Hugging Face.

Перш ніж йти далі, варто пояснити, що саме робить OpenAI. Компанія не випускає нові моделі з відкритим вихідним кодом, які включають базовий код і дані, які компанія використовувала для їх навчання. Натомість вона ділиться вагами – тобто числовими значеннями, які моделі навчилися присвоювати вхідним даним під час навчання, – які інформують нові системи. За словами Бенджаміна Лі (Benjamin C. Lee), професора інженерії та комп’ютерних наук в Університеті Пенсильванії, моделі з відкритою вагою і моделі з відкритим кодом служать двом дуже різним цілям.

“Модель з відкритою вагою надає значення, які були вивчені під час навчання великої мовної моделі, і вони, по суті, дозволяють вам використовувати модель і будувати на її основі. Ви можете використовувати модель “з коробки”, а можете перевизначити або доопрацювати її для конкретного застосування, налаштувавши ваги так, як вам подобається”, – сказав він. Якщо комерційні моделі – це абсолютний чорний ящик, а система з відкритим вихідним кодом дозволяє повну кастомізацію та модифікацію, то ШІ з відкритою вагою знаходяться десь посередині.

OpenAI не випускає моделей з відкритим вихідним кодом, ймовірно, через те, що конкурент може використати навчальні дані та код для зворотного інжинірингу його технології. “Модель з відкритим вихідним кодом – це більше, ніж просто ваги. Вона також потенційно може включати код, який використовується для запуску тренувального процесу”, – сказав Лі. І на практиці пересічна людина не отримає багато користі від моделі з відкритим вихідним кодом, якщо тільки у неї не буде ферми висококласних графічних процесорів NVIDIA, що збільшують рахунок за електроенергію. (Однак вони можуть бути корисними для дослідників, які хочуть дізнатися більше про дані, які компанія використовувала для навчання своїх моделей, і є кілька моделей з відкритим вихідним кодом, таких як Mistral NeMo і Mistral Small 3).

Якщо не брати це до уваги, то основна відмінність між gpt-oss-120b і gpt-oss-20b полягає в тому, скільки параметрів пропонує кожна з них. Якщо ви не знайомі з цим терміном, параметри – це налаштування, які велика мовна модель може змінювати для отримання відповіді. Назви дещо заплутані, але gpt-oss-120b – це модель з 117 мільярдами параметрів, тоді як її менша сестра має 21 мільярд параметрів.

На практиці це означає, що для запуску gpt-oss-120b потрібне більш потужне обладнання, оскільки OpenAI рекомендує використовувати один графічний процесор з 80 ГБ оперативної пам’яті для ефективного використання. Хороша новина полягає в тому, що компанія стверджує, що будь-який сучасний комп’ютер з 16 ГБ оперативної пам’яті може запустити gpt-oss-20b. В результаті, ви можете використовувати меншу модель для створення чогось на кшталт vibe-коду на власному комп’ютері без підключення до інтернету. Більше того, OpenAI робить моделі доступними через ліцензію Apache 2.0, що дає людям велику гнучкість у модифікації систем відповідно до їхніх потреб.

Незважаючи на те, що це не новий комерційний реліз, OpenAI стверджує, що нові моделі багато в чому можна порівняти з їхніми пропрієтарними системами. Єдиним обмеженням моделей oss є те, що вони не пропонують мультимодального введення, тобто не можуть обробляти зображення, відео та голос. За цими можливостями вам все одно доведеться звертатися до хмарних і комерційних моделей OpenAI, на що можна налаштувати обидві нові системи з відкритою вагою. Однак, окрім цього, вони пропонують багато однакових можливостей, включно з ланцюговими міркуваннями та використанням інструментів. Це означає, що моделі можуть вирішувати більш складні проблеми, розбиваючи їх на менші кроки, а якщо їм потрібна додаткова допомога, вони знають, як користуватися Інтернетом і мовами кодування, такими як Python.

Крім того, OpenAI навчала моделей, використовуючи методи, які компанія раніше застосовувала при розробці o3 та інших своїх нещодавніх передових систем. У кодуванні на рівні змагань gpt-oss-120b отримав результат, який лише трохи гірший за o3, поточну найсучаснішу модель міркувань OpenAI, тоді як gpt-oss-20b опинився між o3-mini та o4-mini. Звичайно, нам доведеться дочекатися тестування в реальних умовах, щоб побачити, як дві нові моделі порівнюються з комерційними пропозиціями OpenAI і його конкурентів.

Випуск gpt-oss-120b і gpt-oss-20b і очевидне бажання OpenAI подвоїти кількість моделей з відкритим кодом з’явилися після того, як Марк Цукерберг заявив, що Meta буде випускати менше таких систем для громадськості. Раніше відкрите програмне забезпечення займало центральне місце в повідомленнях Цукерберга про зусилля його компанії в галузі штучного інтелекту, а про системи з закритим кодом генеральний директор якось сказав: “До біса це все”. Принаймні серед секти технічних ентузіастів, які бажають попрацювати з LLM, вибір часу, випадковий чи ні, дещо бентежить Meta.

“Можна стверджувати, що моделі з відкритою вагою демократизують доступ до найбільших, найпотужніших моделей для людей, які не мають цих масивних, гіпермасштабних центрів обробки даних з великою кількістю графічних процесорів”, – сказав професор Лі. “Це дозволяє людям використовувати результати або продукти багатомісячного процесу навчання у величезному центрі обробки даних без необхідності самостійно інвестувати в цю інфраструктуру. З точки зору того, хто просто хоче отримати дійсно дієздатну модель для початку, а потім побудувати її для якоїсь програми. Я думаю, що моделі з відкритою вагою можуть бути дуже корисними”.

OpenAI вже співпрацює з кількома різними організаціями над розгортанням власних версій цих моделей, в тому числі з AI Sweden, національним центром прикладного штучного інтелекту країни. На прес-брифінгу OpenAI, який відбувся перед сьогоднішнім оголошенням, команда, яка працювала над gpt-oss-120b і gpt-oss-20b, заявила, що розглядає ці дві моделі як експеримент; чим більше людей будуть їх використовувати, тим більша ймовірність того, що OpenAI випустить додаткові моделі з відкритою вагою в майбутньому.

3