Нейросеть предсказала движения человека по видео

17 августа 2019 18:00

Американские разработчики создали алгоритм, который, получая видео с действиями человека, предсказывает его следующие действия в виде анимированной 3D-модели. К примеру, он достаточно точно предсказывает, как будет происходить бросок мяча, увидев только начало замаха руки, рассказывают авторы препринта, опубликованного на arXiv.org. Доклад о разработке будет представлен на конференции ICCV 2019.

Увидев человека, совершающего какое-либо действие, к примеру, идущего по улице, мы можем в общих чертах представить себе, что он будет делать дальше и как это будет выглядеть. Для компьютерных алгоритмов эта задача достаточно нетривиальна. Разработчики начали решать эту проблему давно и в этой области уже есть некоторые наработки, но они имеют ограничения. К примеру, некоторые алгоритмы работают только с одним кадром и не учитывают предыдущие состояния человека, а также не создают полноценную анимированную 3D-модель.

Группа разработчиков из Калифорнийского университета в Беркли под руководством Джитендры Малика (Jitendra Malik) создала алгоритм, способный по последовательности кадров напрямую предсказать будущее поведение человека в виде 3D-модели.

Алгоритм состоит из нескольких частей и этапов, но в нем можно выделить два ключевых этапа. В качестве исходных данных он получает последовательность кадров с двигающимся человеком. Для каждого кадра остаточная сверточная нейросеть ResNet-50 создает вектор, описывающий текущее состояние человека. На основе последовательности этих векторов нейросетевой кодировщик создает единое представление, которое описывает движения человека с начала ролика до текущего кадра.

56efa4c74d7bad1b2510c0b11ef807d1.jpg (50 KB)

Схема работы алгоритма

Затем еще одна нейросеть создает на основе множества таких представлений до текущего кадра представление для следующего кадра. Затем этот процесс повторяется, но в качестве исходных данных уже используются не только настоящие представления, но и спрогнозированные. Каждое из этих представлений отдается нейросети, которая выдает 82 параметра, описывающих 3D-модель. Одно из следствий использования 3D-модели заключается в том, что она позволяет увидеть будущие действия человека с любого ракурса.

Разработчики обучили алгоритм на четырех публично доступных датасетах, в том числе Human3.6M, содержащем пары из видео и сопоставленных анимированных 3D-моделей. В основном эти датасеты содержали данные о спортивных действиях, к примеру, бросках мячей. В результате авторам удалось обучить алгоритм достаточно точно предсказывать движения людей, хотя некоторые расхождения с реальными видео все же есть.

В прошлом году другие американские разработчики создали нейросеть, способную предугадывать движение 3D-модели собаки по видео от первого лица на пять кадров вперед.

Источник: nplus1.ru