OpenAI представляє технологію AI, яка відтворює людські голоси

Дмитро Сизов 31 марта 2024 09:45

OpenAI запропонував інструмент, який дозволяв людям створювати цифрові зображення, просто описуючи те, що вони хотіли бачити. Потім він створив подібну технологію, яка створювала повноцінне відео, схоже на голлівудський фільм.

Тепер він представив технологію, яка може відтворити чийсь голос.

Стартап зі штучним інтелектом заявив, що невелика група компаній тестує нову систему OpenAI, Voice Engine, яка може відтворити голос людини з 15-секундного запису. Якщо ви завантажуєте запис себе та абзац тексту, він може прочитати текст за допомогою синтетичного голосу, схожого на ваш.

Текст не обов’язково має бути вашою рідною мовою. Наприклад, якщо ви розмовляєте англійською, він може відтворити ваш голос іспанською, французькою, китайською чи багатьма іншими мовами.

OpenAI не поширює цю технологію ширше, оскільки все ще намагається зрозуміти її потенційну небезпеку. Як і генератори зображень і відео, генератор голосу може сприяти поширенню дезінформації в соціальних мережах. Це також може дозволити злочинцям видавати себе за людей в Інтернеті або під час телефонних дзвінків.

Компанія заявила, що особливо стурбована тим, що така технологія може бути використана для зламу голосових автентифікаторів, які контролюють доступ до онлайн-банківських рахунків та інших особистих програм.

«Це делікатна річ, і важливо зробити це правильно», — сказав в інтерв’ю менеджер із продуктів OpenAI Джефф Гарріс.

Компанія вивчає способи позначення водяними знаками синтетичних голосів або додавання елементів керування, які не дозволять людям використовувати цю технологію з голосами політиків чи інших видатних діячів.

Минулого місяця OpenAI застосував подібний підхід, коли представив свій відеогенератор Sora. Він продемонстрував технологію , але не оприлюднив її публічно.

OpenAI є однією з багатьох компаній, які розробили нове покоління технології ШІ, яка може швидко та легко генерувати синтетичні голоси. Серед них такі технологічні гіганти, як Google, а також стартапи, такі як ElevenLabs із Нью-Йорка. (The New York Times подала до суду на OpenAI та її партнера Microsoft за позовами про порушення авторських прав, пов’язаних із системами штучного інтелекту, які генерують текст.)

Підприємства можуть використовувати ці технології для створення аудіокниг, передачі голосу онлайн-чат-ботам або навіть створення автоматизованої радіостанції ді-джея. З минулого року OpenAI використовує свою технологію для забезпечення версії ChatGPT, яка розмовляє . І він уже давно пропонує підприємствам низку голосів, які можна використовувати для подібних програм. Усі вони були побудовані з кліпів, наданих акторами озвучення.

Але компанія ще не запропонувала загальнодоступний інструмент, який би дозволив окремим особам і компаніям відтворювати голоси з короткого кліпу, як це робить Voice Engine. Можливість відтворити будь-який голос таким чином, сказав пан Харріс, робить цю технологію небезпечною. За його словами, технологія може бути особливо небезпечною в рік виборів.

У січні жителі Нью-Гемпшира отримали повідомлення автоматичного виклику, які відмовили їх від голосування на праймериз у штаті голосом, який, швидше за все, був штучно створений, щоб звучати як президент Байден . Пізніше Федеральна комісія зв'язку заборонила такі дзвінки .

Пан Гарріс сказав, що OpenAI не має найближчих планів заробляти гроші на цій технології. Він сказав, що інструмент може бути особливо корисним для людей, які втратили голос через хворобу або нещасний випадок.

Він продемонстрував, як ця технологія була використана для відтворення голосу жінки після того, як рак мозку пошкодив його. Тепер вона може говорити, сказав він, після короткого запису презентації, яку вона колись робила, будучи старшокласницею.