Зачем искусственный интеллект учат играть в видеоигры

Ирина Фоменко

Что побуждает вас продолжить видеоигру? Простое объяснение – любопытство. Как выяснилось, именно оно является ключевым эффективным мотиватором при обучении искусственного интеллекта игре в видеоигры, пишет The Verge.

Исследование OpenAI объясняет, как ИИ благодаря любопытству превзошел своих предшественников, игравших в классическую игру 1984 года "Месть Монтесумы". Победа в этой игре, конечно, не равна победе в Go или Dota 2, но все же довольно значима. В отчете DeepMind 2015 года сообщалось, что ИИ, пройдя несколько игр Atari и используя глубокое обучение, в "Мести Монтесумы" не набрал ни одного очка.

Причиной сложности игры является несоответствие между геймплеем и методом обучения искусственного интеллекта. Обычно агенты ИИ полагаются на обучение с подкреплением при освоении видеоигр: они "погружаются" в виртуальный мир, получают вознаграждения за некоторые достижения (например, очки) или наоборот, их наказывают (потеря жизни). Таким образом, агент учится играть путем проб и ошибок. Обучение с подкреплением часто рассматривается как ключевой метод для создания более интеллектуальных роботов.

11.jpg (35 KB)

Проблема с "Местью Монтесумы" заключается в том, что в игре нет регулярных вознаграждений для агента ИИ. Это пазл-платформер, где игроки должны исследовать подземную пирамиду, уклоняться от ловушек и врагов, собирая ключи, которые открывают двери и специальные предметы.

Если вы тренировали агента ИИ, чтобы победить в игре, вы могли бы вознаградить его за то, что он остался жив и собирал ключи, но как вы научите его сохранять определенные ключи для определенных предметов и использовать их для преодоления ловушек и завершения уровня?

Ответ простой: через любопытство.

В исследовании OpenAI агент был вознагражден не только за прыжки через ямы с шипами, но и за изучение новых деталей в пирамиде. Это привело к улучшению производительности, а бот получил средний балл 10 000 (по сравнению со средним человеческим счетом в 4 000).

"Впереди еще много работы. Но то, что у нас есть на данный момент, - это система, которая может исследовать множество комнат, получать вознаграждения и иногда преодолевать первый уровень. Уровни похожи между собой, поэтому прохождение целой игры – просто вопрос времени", - заявил Харрисон Эдвардс из OpenAI.

22.jpg (50 KB)

Борьба с "шумом ТВ"

Исследователи использовали концепцию любопытства как мотивацию на протяжении десятилетий. Интерес, основанный на прогнозах, полезен только при обучении для определенных типов игр, например, Super Mario.

Еще одна проблема – "шум ТВ", где агенты ИИ, запрограммированные на поиск нового опыта, "пристрастились" к случайным шаблонам, таким как статический шум ТВ. Агенты воспринимают "интересное и новое" как то, что связано с их способностью прогнозировать будущее. Прежде чем ИИ предпримет определенное действие, он предскажет, как будет выглядеть игра потом. Если догадка верна, скорее всего, он уже видел эту часть игры. Этот механизм известен как "ошибка прогнозирования".

Но поскольку статический шум непредсказуем, любой агент ИИ, столкнувшийся с таким ТВ, становится загипнотизированным. OpenAI сравнивает проблему с людьми, пристрастившихся к игровым автоматам – они не могут оторваться, потому что они не знают, что произойдет дальше.

33.gif (88 KB)

Исследователи OpenAI обошли проблему, поменяв то, как ИИ предсказывает будущее. Точная методология, Random Network Distillation, сложна, но Эдвардс и его коллега Юрий Бурда сравнивают это со скрытием тайны для ИИ. Тайна случайна и бессмысленна – что-то вроде "какой цвет в левом верхнем углу экрана?", но он мотивирует агента исследовать, оберегая его от ловушки "шума ТВ".

Что еще более важно, этот мотиватор не требует большого количества вычислений. Такие методы обучения с подкреплением основаны на огромных объемах данных. "Метод, который они используют, на самом деле довольно прост и, следовательно, неожиданно эффективен", - прокомментировал инженер-программист Unity Артур Джулиани. – "Учитывая сходство между различными уровнями в "Мести Монтесумы", работа OpenAI, по сути, эквивалентна решению игры. Но тот факт, что ИИ пока не может пройти полностью первый уровень, означает, что остались определенные вопросы".

44.png (420 KB)

Важность любопытства

Какова польза от любопытного искусственного интеллекта? Любопытство помогает компьютерам учиться самостоятельно. Большинство подходов к компьютерному обучению на сегодняшний день можно поделить на две части: во-первых, машины учатся, изучая данные, разрабатывая шаблоны, которые они могут применять к аналогичным проблемам; во-вторых, они "погружаются" в нужную среду и получают вознаграждения за определенные достижения с помощью обучения с подкреплением.

Оба этих подхода эффективны в решении конкретных задач, но также требуют большого количества человеческого труда. Предоставляя ИИ неотъемлемый стимул исследовать, люди тратят меньше времени на его обучение.