Ученый из Пекинского университета недавно опубликовал препринт научной статьи, в которой подробно описана система, основанная на видеоиграх, предназначенная для обучения носителей ИИ возможности уходить от преследования.

Большинство исследований в жанре «преследование-избегание» в области ИИ и теории игр связаны с обучением машин исследованию пространства. Поскольку в большинстве случаев обучение ИИ предполагает систему, которая вознаграждает машину за достижение цели, разработчики часто используют геймификацию в качестве стимула для обучения.

Другими словами, нельзя просто засунуть робота в комнату и сказать «делай то-то». Вы должны дать ему цели и причину для их достижения. Поэтому исследователи разрабатывают ИИ, который по своей природе стремится к вознаграждению.

Традиционная среда обучения разведке ставит перед агентом ИИ задачу манипулировать цифровыми моделями, чтобы исследовать пространство, пока он не выполнит свои цели или не найдет вознаграждение. Это напоминает Pac Man: ИИ должен перемещаться по окружению до тех пор, пока не съест все гранулы с вознаграждением.

С тех пор как системы ИИ компании DeepMind освоили шахматы и го, SCII стала основной тренировочной средой для состязательного ИИ. Это игра, в которой игроки, ИИ или комбинации игроков и ИИ естественным образом противостоят друг другу.

Но, что более важно, DeepMind и другие исследовательские организации уже проделали тяжелую работу по превращению исходного кода игры в игровую площадку для ИИ с несколькими мини-играми, которые позволяют разработчикам сосредоточиться на своей работе.

Исследователь Сюнь Хуанг, вышеупомянутый ученый из Пекинского университета, задался целью изучить парадигму «преследование-уклонение» для обучения моделей ИИ. Но обнаружил, что модель SCII имеет некоторые сдерживающие ограничения: во встроенной версии игры «преследование-уклонение» управление преследователями можно поручить только ИИ.

Отличные новости: ученые обучили ИИ технике уклонения от преследования1

Основная схема включает в себя три преследующих персонажа (представленных солдатами из игры) и 25 персонажей-уклонистов (представленных пришельцами из игры). Существует также режим, использующий «туман войны» для затемнения карты, что затрудняет преследователю обнаружение и уничтожение уклониста, но, согласно исследованиям, это режим 1V1.

Забавно, но базовое поведение 25 уклонистов заключается в том, чтобы оставаться неподвижными, где бы они ни появились, а затем атаковать преследователей на месте. Поскольку преследователи намного сильнее уклоняющихся, это приводит к ожидаемому уничтожению каждого уклоняющегося сразу после обнаружения.

В статье Хуанга подробно описывается парадигма обучения ИИ в среде SCII, которая фокусируется на обучении ИИ уклоняться от преследователей. В их версии ИИ пытается скрыться в «тумане войны», чтобы избежать поимки и гибели.

Это увлекательное исследование с использованием видеоигр, которое может иметь огромные последствия для реального мира. Самые передовые военные организации мира используют видеоигры для обучения людей. А разработчики ИИ используют эти обучающие среды для подготовки мозгов ИИ к жизни внутри реального робота.

Чисто теоретически работа Хуанга кажется захватывающей. Но только представьте себе робота Boston Dynamics, наделённого способностью не просто бегать и прыгать по площадке, а целенаправленно уходить от преследования отрядом спецназа.

Иллюстрации: goodfon

Источник: gagadget.com