У понеділок дослідники DeepSeek випустили нову експериментальну модель під назвою V3.2-exp, розроблену для значного зниження витрат на інференцію при використанні в операціях з довгим контекстом. DeepSeek оголосив про випуск моделі в публікації на Hugging Face, а також опублікував пов’язану з нею наукову статтю на GitHub.
Найважливішою особливістю нової моделі є DeepSeek Sparse Attention, складна система, детально описана на схемі нижче. По суті, система використовує модуль під назвою «lightning indexer» для визначення пріоритетності конкретних уривків з контекстного вікна. Після цього окрема система під назвою «fine-grained token selection system» вибирає конкретні токени з цих уривків для завантаження в обмежене вікно уваги модуля. У сукупності вони дозволяють моделям Sparse Attention працювати з довгими частинами контексту з порівняно невеликим навантаженням на сервер.
Для операцій з довгим контекстом переваги системи є значними. Попереднє тестування DeepSeek показало, що ціна простого виклику API може бути знижена майже наполовину в ситуаціях з довгим контекстом. Для більш надійної оцінки необхідні додаткові тестування, але оскільки модель є відкритою і вільно доступною на Hugging Face, незабаром сторонні тести зможуть оцінити твердження, викладені в статті.
Нова модель DeepSeek є однією з низки останніх проривів у вирішенні проблеми витрат на інференцію — по суті, витрат на сервер для роботи попередньо навченої моделі ШІ, на відміну від витрат на її навчання. У випадку DeepSeek дослідники шукали способи зробити фундаментальну архітектуру трансформатора більш ефективною — і виявили, що можна досягти значних поліпшень.
Компанія DeepSeek, що базується в Китаї, є незвичайною фігурою в бумі штучного інтелекту, особливо для тих, хто розглядає дослідження в цій галузі як націоналістичну боротьбу між США і Китаєм. На початку року компанія викликала сенсацію своєю моделлю R1, навченою переважно за допомогою підкріплювального навчання за значно нижчою вартістю, ніж її американські конкуренти. Однак, як і передбачали деякі, ця модель не спричинила глобальної революції в навчанні штучного інтелекту, і за останні місяці компанія відійшла від центру уваги.
Новий підхід «розрідженої уваги» навряд чи викличе такий же ажіотаж, як R1, але все ж може навчити американських постачальників деяких дуже потрібних прийомів, які допоможуть утримати низькі витрати на інференцію.