Stability AI, стартап, відомий своїм штучним інтелектом для генерації зображень Stable Diffusion, представив відкриту модель ШІ для створення звуків та музичних композицій, яка, як стверджується, була навчена виключно на безкоштовних записах.
Нова генеративна модель під назвою Stable Audio Open приймає текстові описи (наприклад, "Рок-біт, зіграний у професійній студії з використанням акустичної барабанної установки") і створює аудіозаписи тривалістю до 47 секунд. Модель навчалася на базі приблизно 486 000 семплів з безкоштовних музичних бібліотек FreeSound і Free Music Archive.
Згідно з заявами Stability AI, цю модель можна використовувати для створення барабанних біті́в, інструментальних ри́фів, навколишніх звуків та "виробничих елементів" для відео, фільмів та телешоу. Вона також може "редагувати" існуючі композиції або застосовувати стиль однієї пісні до іншої (наприклад, змішування плавного джазу з іншою мелодією).
"Ключова перевага цієї відкритої версії в тому, що користувачі можуть точно налаштовувати модель на основі своїх власних аудіоданих", — зазначає Stability AI в корпоративному блозі. "Наприклад, барабанщик може налаштувати модель на основі своїх власних записів, щоб створювати нові біти".
Однак у Stable Audio Open є свої обмеження. Вона не здатна створювати повноцінні пісні, мелодії або вокальні партії на високому рівні якості. Stability AI заявляє, що модель не оптимізована для таких завдань і пропонує користувачам, які потребують цих функцій, скористатися преміальною версією сервісу Stable Audio.
Крім того, Stable Audio Open не призначена для комерційного використання; умови обслуговування забороняють це. Модель також не однаково добре працює з різними музичними стилями та культурами, а також з описами іншими мовами, крім англійської, через обмеження навчальних даних.
"Джерело даних може не охоплювати все різноманіття культур, і не всі культури рівномірно представлені в наборі даних", — пише Stability AI в описі моделі. "Зразки, створені моделлю, будуть відображати ці обмеження навчальних даних".
Stability AI, яка довгий час намагалася стабілізувати свій бізнес, нещодавно опинилася в центрі уваги через розбіжності щодо навчання моделей ШІ на творах, захищених авторським правом. Віце-президент компанії з генеративного аудіо, Ед Ньютон-Рекс, подав у відставку, не погоджуючись з позицією компанії про "чесне використання" таких творів. Випуск Stable Audio Open, ймовірно, є спробою Stability AI покращити свою репутацію, одночасно рекламуючи свої платні продукти.
Зростання популярності музичних генераторів, таких як продукти Stability AI, привертає увагу до питань авторського права. У травні Sony Music, що представляє артистів, таких як Біллі Джоел, Doja Cat та Lil Nas X, направила попередження 700 компаніям, що працюють у сфері ШІ, проти несанкціонованого використання її контенту для навчання генераторів звуків. У березні в Теннессі було прийнято перший у США закон, спрямований на запобігання зловживанням ШІ в музиці.