Протягом багатьох років керівники великих технологічних компаній рекламували бачення штучного інтелекту, який може самостійно використовувати програмне забезпечення для виконання завдань для людей. Але спробуйте сьогоднішні споживчі програми штучного інтелекту, будь то ChatGPT Agent від OpenAI або Comet від Perplexity, і ви швидко зрозумієте, наскільки обмеженою все ще є ця технологія. Щоб зробити програми штучного інтелекту більш надійними, можуть знадобитися нові методи, які галузь ще тільки відкриває.
Однією з таких технологій є ретельне моделювання робочих просторів, де агенти можуть бути навчені виконувати багатоетапні завдання — це так звані середовища підкріплювального навчання (RL). Подібно до того, як марковані набори даних стали рушійною силою останньої хвилі розвитку штучного інтелекту, середовища RL починають виглядати як критично важливий елемент у розробці агентів.
Дослідники, засновники та інвестори у сфері штучного інтелекту розповідають, що провідні лабораторії штучного інтелекту зараз потребують більше середовищ RL, і не бракує стартапів, які сподіваються їх надати.
«Усі великі лабораторії ШІ створюють середовища RL власними силами», — сказала Дженніфер Лі, генеральний партнер Andreessen Horowitz, в інтерв’ю TechCrunch. «Але, як ви можете собі уявити, створення цих наборів даних є дуже складним, тому лабораторії ШІ також шукають сторонніх постачальників, які можуть створити високоякісні середовища та оцінки. Усі звертають увагу на цю сферу».
Попит на середовища RL породив новий клас добре фінансуваних стартапів, таких як Mechanize і Prime Intellect, які прагнуть лідирувати в цій сфері. Тим часом великі компанії з маркування даних, такі як Mercor і Surge, заявляють, що інвестують більше в середовища RL, щоб йти в ногу з переходом галузі від статичних наборів даних до інтерактивних симуляцій. Великі лабораторії також розглядають можливість значних інвестицій: згідно з The Information, керівники Anthropic обговорили можливість витратити понад 1 мільярд доларів на середовища RL протягом наступного року.
Інвестори та засновники сподіваються, що один із цих стартапів стане «Scale AI для середовищ», маючи на увазі потужну компанію з маркування даних вартістю 29 мільярдів доларів, яка сприяла розвитку ери чат-ботів.
Питання полягає в тому, чи справді середовища RL просунуть межі прогресу ШІ.