Штучний інтелект від Google перетворює текст на музику

Дмитро Сизов

Дослідники Google створили штучний інтелект, який може генерувати хвилинні музичні твори з текстових підказок і навіть перетворювати наспівану мелодію на музичний твір, подібно до того, як такі системи, як DALL-E, створюють зображення з письмових підказок (через TechCrunch). Модель називається MusicLM, і хоча ви не можете пограти з нею самі, компанія завантажила купу семплів, створених за допомогою цієї моделі.

STK093_Google_01.webp (7 KB)

Приклади вражаючі. Є 30-секундні фрагменти того, що звучить як справжні пісні, створені з абзацних описів, які визначають жанр, атмосферу та навіть певні інструменти, а також п’ятихвилинні твори, створені з одного чи двох слів, як-от «мелодійне техно». » Можливо, моїм улюбленим є демонстрація «історійного режиму», де моделі фактично надається сценарій для трансформації між підказками. Наприклад, це підказка:

електронна пісня у відеогрі (0:00-0:15)

пісня для медитації, яка грає біля річки (0:15-0:30)

вогонь (0:30-0:45)

феєрверк (0:45-0:60)

В результаті аудіо ви можете прослухати тут .

Можливо, це не для всіх, але я цілком бачив, як це було створено людиною (я також слухав це в циклі десятки разів, коли писав цю статтю). На демонстраційному сайті також представлено приклади того, що створює модель, коли її просять згенерувати 10-секундні кліпи інструментів, таких як віолончель або маракаси (останній приклад – це той, де система виконує відносно погану роботу), восьмисекундні кліпи певний жанр, музику, яка б відповідала втечі з в’язниці, і навіть те, як звучатиме піаніст-початківець порівняно з просунутим. Він також містить тлумачення таких фраз, як «футуристичний клуб» і «акордеонний дез-метал».

MusicLM може навіть імітувати людський вокал, і, хоча він, здається, правильно відтворює тон і загальне звучання голосів, є в них певна якість. Найкраще, як я можу це описати, це те, що вони звучать зернистою або статично. У наведеному вище прикладі ця якість не така чітка, але я думаю, що цей досить добре це ілюструє .

Це, до речі, результат того, що його попросили створити музику, яка звучала б у спортзалі. Можливо, ви також помітили, що слова є нісенітницею, але таким чином, що ви не обов’язково вловите, якщо не звернете увагу — ніби ви слухаєте, як хтось співає симліш або ту пісню, яка має звучати як Англійська, але не є такою .

Я не буду прикидатися, що знаю, як Google досягла цих результатів, але вона опублікувала дослідницьку статтю , у якій докладно це пояснює, якщо ви з тих людей, які зрозуміють цю цифру:

На малюнку показано частину процесу MusicLM, який включає SoundStream, w2v-BERT і MuLan.
Малюнок, що пояснює «ієрархічне завдання послідовного моделювання», яке дослідники використовують разом із AudioLM, іншим проектом Google .
 Діаграма: Google

Музика, створена штучним інтелектом, має довгу історію, що сягає десятиліть; існують системи, яким приписують створення поп-пісень , копіювання Баха краще, ніж людина в 90-х , і супровід живих виступів . Одна з останніх версій використовує механізм створення зображень AI StableDiffusion, щоб перетворювати текстові підказки на спектрограми , які потім перетворюються на музику. У статті йдеться, що MusicLM може перевершувати інші системи з точки зору «якості та дотримання субтитрів», а також того факту, що він може приймати аудіо та копіювати мелодію.

Ця остання частина, можливо, одна з найкрутіших демонстрацій, які випустили дослідники. Сайт дозволяє відтворювати вхідний аудіо, коли хтось наспівує або насвистує мелодію, а потім дає змогу почути, як модель відтворює це як електронний синтезатор, струнний квартет, гітарне соло тощо. З прикладів, які я прослухав, він керує завдання дуже добре.

Подібно до інших набігів на цей тип штучного інтелекту, Google ставиться до MusicLM значно обережніше , ніж деякі його аналоги з аналогічною технологією . «На даний момент ми не плануємо випускати моделі», — підсумовує документ, посилаючись на ризики «потенційного незаконного привласнення творчого вмісту» (читай: плагіату) і потенційного культурного присвоєння або спотворення.

Завжди можливо, що технологія колись з’явиться в одному з веселих музичних експериментів Google , але наразі єдині люди, які зможуть використати дослідження, — це інші люди, які створюють музичні системи ШІ. Google заявляє, що публічно оприлюднює набір даних із приблизно 5500 пар музика-текст, які можуть допомогти під час навчання та оцінки інших музичних ШІ.