Компанія Google DeepMind презентувала Genie 3 — свою найновішу світову модель, яка може стати ключовим кроком на шляху до створення AGI (Artificial General Intelligence) — універсального штучного інтелекту, здатного до людськоподібного навчання й мислення. Про це повідомляє TechCrunch.
Genie 3 — це перша інтерактивна модель світу загального призначення в режимі реального часу, яка генерує фотореалістичні, уявні або комбіновані 3D-середовища за текстовим запитом. На відміну від попередніх моделей, вона не обмежується вузькими сценаріями: користувач може створювати цілі світи на кілька хвилин, у роздільній здатності 720p, зі швидкістю 24 кадри на секунду.
“Genie 3 йде далі за інші моделі — вона не прив’язана до конкретного середовища”, — зазначив Шломі Фрухтер, директор з досліджень DeepMind.
Однією з ключових інновацій є здатність моделі пам’ятати попередньо згенероване, що забезпечує фізичну послідовність подій у часі. Такий ефект не було прямо запрограмовано, а він став емергентною властивістю моделі. Genie 3 створює кожен кадр поетапно, озираючись на те, що було раніше — як людина, що аналізує події у динаміці.
Це дозволяє моделі інтуїтивно розуміти фізику — наприклад, що предмет, який завис на краю, ось-ось впаде.
Genie 3 створює потенційно ідеальне середовище для тренування агентів загального призначення. Вона не використовує жорстко задані фізичні движки, а самостійно навчається, як об’єкти падають, рухаються і взаємодіють.
Такі симуляції можуть змусити агентів адаптуватися, експериментувати та вчитися на помилках, подібно до того, як це відбувається у реальному житті.
На сьогодні Genie 3 все ще має обмеження: