Програма створює реалістичні відео з однієї фотографії та аудіозапису
Дослідники з Наньянгського технологічного університету в Сінгапурі розробили комп'ютерну програму, яка створює реалістичні відео, що відображають міміку і рухи голови людини, що говорить, використовуючи тільки аудіозапис і фотографію обличчя.
Ця програма, названа DIRFA (Diverse yet Realistic Facial Animations), заснована на штучному інтелекті та здатна створювати 3D-відео з реалістичною та послідовною анімацією особи, синхронізованою з аудіозаписом.
DIRFA покращує існуючі підходи до анімації цифрових аватарів, які мають труднощі з варіацією поз та зображенням емоцій. Команда навчила програму на більш ніж мільйон аудіовізуальних кліпів від 6000 осіб, взятих з відкритої бази даних VoxCeleb2 Dataset. Тепер вона може передбачати мовні сигнали та пов'язувати їх із мімікою та рухами голови.
Дослідники кажуть, що створення реалістичних лицьових виразів на основі аудіо – це складне завдання. Для кожного аудіосигналу може бути багато відповідних виразів обличчя та їх кількість збільшується, якщо таких сигналів багато, і вони послідовні. Один і той же текст можна вимовляти серйозно, а можна іронічно і кривляючись. Ми отримуємо точну інформацію про наміри співрозмовника з його міміки, але програмне забезпечення для анімації цифрових аватарів часто упускає це.
Мова тісно пов'язана з рухами губ, а на другому місці за важливістю - вираз обличчя і положення голови. Тому команда зосередилася на анімованих аватарах з точними рухами губ, різноманітною мімікою та природними рухами голови, що відповідають аудіо.
Вчені зазначили, що DIRFA можна використовувати у додатках для різних сфер життя, включаючи охорону здоров'я. Вона дозволить створювати більш складних і реалістичних віртуальних помічників і чат-боти, покращуючи користувальницький досвід. Вона також буде корисною для людей з порушеннями мови або лицьової міміки, допомагаючи їм передавати думки та емоції через виразні аватари.