Нічний кошмар музичної індустрії здійснився у 2023 році, і звучав він дуже схоже на Дрейка.
“Heart on My Sleeve”, переконливо підроблений дует Дрейка та The Weeknd, набрав мільйони переглядів, перш ніж хтось зміг пояснити, хто його зробив і звідки він взявся. Трек не просто став вірусним – він зруйнував ілюзію, що хтось контролює ситуацію.
У гонитві за відповіддю непомітно формується нова категорія інфраструктури, яка створена не для того, щоб повністю зупинити генеративну музику, а для того, щоб зробити її відстежуваною. Системи виявлення вбудовуються у весь музичний конвеєр: в інструменти, що використовуються для навчання моделей, платформи, на які завантажуються пісні, бази даних, що ліцензують права, та алгоритми, що формують виявлення. Мета полягає не лише в тому, щоб відловлювати синтетичний контент постфактум. Завдання полягає в тому, щоб ідентифікувати його на ранніх етапах, позначити метаданими та керувати його переміщенням через систему.
“Якщо ви не вбудуєте ці речі в інфраструктуру, ви просто будете ганятися за своїм хвостом, – каже Метт Аделл, співзасновник Musical AI. “Ви не можете реагувати на кожен новий трек або модель – це не масштабується. Вам потрібна інфраструктура, яка працює від навчання до дистрибуції”.
Зараз з’являються стартапи, які вбудовують виявлення в робочі процеси ліцензування. Такі платформи, як YouTube і Deezer, розробили внутрішні системи для позначення синтетичного аудіо під час завантаження та визначення того, як воно з’являється в пошуковій видачі та рекомендаціях. Інші музичні компанії, зокрема Audible Magic, Pex, Rightsify та SoundCloud, розширюють функції виявлення, модерації та атрибуції в усіх сферах – від навчальних наборів даних до дистрибуції.
Результатом є фрагментована, але швидко зростаюча екосистема компаній, які розглядають виявлення контенту, створеного штучним інтелектом, не як інструмент правозастосування, а як інфраструктуру для відстежування синтетичних медіа.
Замість того, щоб виявляти музику зі штучним інтелектом після її розповсюдження, деякі компанії створюють інструменти для її тегування з моменту створення. Vermillio та Musical AI розробляють системи для сканування готових треків на наявність синтетичних елементів і автоматичного позначення їх у метаданих.
Система TraceID від Vermillio йде глибше, розбиваючи пісні на складові – такі як вокальний тон, мелодійні фрази та ліричні патерни – і позначаючи конкретні сегменти, згенеровані штучним інтелектом, що дозволяє правовласникам виявляти мімікрію на рівні складових, навіть якщо новий трек запозичує лише окремі частини оригінального твору.
Компанія заявляє, що вона зосереджена не на вилученні, а на проактивному ліцензуванні та автентифікованому випуску. TraceID позиціонується як заміна таким системам, як Content ID на YouTube, які часто пропускають тонкі або часткові імітації. За оцінками Vermillio, автентифіковане ліцензування на основі таких інструментів, як TraceID, може зрости з 75 мільйонів доларів у 2023 році до 10 мільярдів доларів у 2025 році. На практиці це означає, що правовласник або платформа можуть прогнати готовий трек через TraceID, щоб перевірити, чи містить він захищені елементи, і якщо так, то система позначить його для ліцензування перед випуском.
Деякі компанії йдуть ще далі – до самих навчальних даних. Аналізуючи те, що входить до моделі, вони мають на меті оцінити, скільки запозичень згенерований трек має від конкретних виконавців чи пісень. Така атрибуція може уможливити більш точне ліцензування, з роялті, заснованим на творчому впливі, а не на суперечках після релізу. Ця ідея перегукується зі старими дебатами про музичний вплив – як-от позов “Blurred Lines” – але застосовує їх до алгоритмічної генерації. Різниця полягає в тому, що ліцензування може відбуватися до релізу, а не через судовий процес постфактум.
Musical AI також працює над системою виявлення. Компанія описує свою систему як багаторівневу, що охоплює споживання, генерацію та розповсюдження. Замість того, щоб фільтрувати вихідні дані, вона відстежує походження від початку до кінця.
“Атрибуція повинна починатися не тоді, коли пісня закінчена – вона повинна починатися тоді, коли модель починає навчатися, – каже Шон Пауер, співзасновник компанії. “Ми намагаємося кількісно оцінити творчий вплив, а не просто ловити копії”.
Deezer розробив внутрішні інструменти для позначення повністю згенерованих штучним інтелектом треків під час завантаження та зменшення їхньої видимості як в алгоритмічних, так і в редакційних рекомендаціях, особливо коли контент виглядає як спам. Директор з інновацій Орельєн Еро (Aurélien Hérault) каже, що станом на квітень ці інструменти виявляли приблизно 20 відсотків нових завантажень щодня як повністю згенеровані штучним інтелектом – це більш ніж удвічі більше, ніж у січні. Знайдені системою треки залишаються доступними на платформі, але не просуваються. Еро каже, що Deezer планує почати маркувати ці треки безпосередньо для користувачів “через кілька тижнів або кілька місяців”.
“Ми зовсім не проти штучного інтелекту, – каже Еро. “Але багато з цього контенту використовується недобросовісно – не для творення, а для експлуатації платформи. Ось чому ми приділяємо цьому так багато уваги”.
DNTP (протокол відмови від навчання) Spawning AI підштовхує виявлення ще раніше – на рівні набору даних. Протокол відмови дозволяє художникам і правовласникам позначати свої роботи як такі, що не підлягають навчанню на моделях. У той час як візуальні митці вже мають доступ до подібних інструментів, світ аудіо все ще наздоганяє їх. Поки що немає єдиної думки щодо того, як стандартизувати згоду, прозорість чи ліцензування в масштабах. Можливо, врешті-решт це питання вирішиться завдяки регулюванню, але поки що підхід залишається фрагментарним. Підтримка з боку великих компаній, що займаються навчанням ШІ, також була непослідовною, і критики кажуть, що протокол не набуде популярності, якщо він не буде регулюватися незалежно і не отримає широкого розповсюдження.
“Протокол відмови повинен бути некомерційним, контролюватися кількома різними суб’єктами, щоб йому довіряли, – каже Драйхерст. “Ніхто не повинен довіряти майбутнє згоди непрозорій централізованій компанії, яка може збанкрутувати – або статися набагато гірше”.