Искусственный интеллект смог предсказать жесты ведущего шоу по его голосу

24 июня 2019 11:20

«Каждый раз, когда вы говорите, ваше тело движется синхронно, будь то взмах руки, прищур или другие жесты», — отметили исследователи, которые разработали искусственный интеллект и представили его на конференции CVPR, посвященной компьютерному зрению. ИИ знает, как человек будет двигаться, основываясь исключительно на звучание его голоса.

Исследователи собрали 144 часа видео выступлений десяти человек, в том числе монахини, учителя химии и пяти ведущих телешоу — Конана О’Брайена, Эллен Дедженерес, Джона Оливера, Джона Стюарта. Они использовали существующий алгоритм для получения фигур, предоставляющих положение тела, рук и кистей спикеров. Затем они обучали собственный алгоритм работе с данными, чтобы он мог предсказывать жесты, основываясь на звучании голоса.

Сгенерированные жесты были лучше, чем у похожего алгоритма, изначально предназначенного для того, чтобы предвидеть движения рук пианистов и скрипачей. Жесты ведущих шоу же были более уникальными, сообщили исследователи на конференции. В случае, когда ученые пытались обучить ИИ предсказанным жестам и добавить их в алгоритм, это привело к неточным результатам.

Следующим шагом команды ученых является прогнозирование жестов, основанных не только на аудиозаписях, но и на расшифровке. Потенциальные области применения включают в себя автоматическое создание анимированных персонажей.

Источник: hightech.fm