«Искусственный интеллект тратит 7 000 часов на прохождение первого зала в игре Pokemon Red, но всё равно не может найти второй зал после 50 000 часов»

«Искусственный интеллект тратит 7 000 часов на пройдение первого зала в игре Pokemon Red, но так и не находит второй зал даже после 50 000 часов»

Один программист проводил обучение модели искусственного интеллекта в течение 50 000 часов, чтобы она научилась играть в Pokemon Red. Результатом был алгоритм, способный исследовать игру и создать команду для победы над первым тренером гима, но не способный найти выход из вершины Горы Луны или уметь открывать умнее, чем покупать Magikarp. Это всё же интересный способ понять, как функционирует машинное обучение.

Как показывается в обширном видео Питера Уиддена, ИИ способен взаимодействовать с игрой с помощью обычных кнопок управления на эмуляторе. Он нажимает кнопку и смотрит на экран, чтобы увидеть, что произошло, так же, как и обычный игрок. Уидден провел учебные сеансы по два часа игрового времени каждый, но с помощью ускорения эмуляции эти сеансы можно было завершить за шесть минут реального времени. Процесс был ускорен еще больше благодаря запуску 40 тестовых сеансов одновременно.

Поскольку машинному алгоритму абсолютно не важно побить видеоигру, Уидден установил конкретные цели для вознаграждения ИИ. Чтобы поощрить исследовательский интерес, ИИ получал балл вознаграждения каждый раз, когда видел что-то новое, что измерялось заметно отличающимися пикселями на экране. Это имело неожиданные последствия – ИИ больше внимания уделял, например, небольшой анимации воды. Но в общем это позволило компьютеру стремиться перемещаться из Палет Тауна через Виридианский лес и далее до гима в Пьютер Сити, где проходит первый бой за гим против Брока.

Для ИИ также требуются дополнительные награды и наказания. Поскольку все награды были связаны с новыми открытиями, ИИ стремился двигаться только вперед, что означало, что ему было не важно сражаться или ловить покемонов, и поначалу он просто убегал от каждой встречи. Поэтому Уидден добавил систему, где ИИ вознаграждался в зависимости от общего уровня активных покемонов в его команде.

Это заставило ИИ сражаться за опыт и ловить покемонов, но также повлекло неожиданное последствие. При посещении Покемон Центра ИИ взаимодействовал с ПК и передавал нескольких покемонов туда. Это значительно снизило общий уровень команды, нарушив итоги всех наградных очков. Для ИИ это был что-то вроде травматического опыта, и он начал избегать Покемон Центров, отказываясь восстанавливать команду, пока Уидден не внес изменения в систему вознаграждения.

Поскольку ИИ в основном делает случайные действия, пока не найдет те, за которые получит вознаграждение, борьба против Брока оказалась особенной проблемой, так как нужно воспользоваться слабостями его покемонов-камней, чтобы нанести им значительный урон. Только благодаря тому, что у Squirtle случайным образом исчерпались все ПК, кроме Bubblebeam, алгоритм смог понять, как победить в гиме.

И все же, пока ИИ плохо справляется с тем, что для человека может быть дано естественным образом, он довольно быстро учится другим, намного более эзотерическим вещам. В определенный момент Уидден понял, что алгоритм всегда строит очень конкретный, кажущийся бессмысленным путь от Палет Тауна до первой встречи с диким покемоном. Причина этому была странная, пока не стало понятно, что эта последовательность действий гарантирует, что дикий покемон может быть пойман с помощью одного метания в Pokeball. Да, ИИ самостоятельно научился искусству контроля случайных событий, которое бегуны на время развивают годами.

Победа над Броком стала вполне естественной конечной целью проекта, но Уидден позволил ИИ работать дальше, чтобы посмотреть, что произойдет, и алгоритм смог дойти до самого внутри Горы Луны, но мрачные и однообразные уровни данжа были настолько отвратительными для ИИ, что он никогда не смог найти выход на другую сторону, и так никогда не смог найти второй гим в Городе Сироны.

Однако ИИ обожал покупать Magikarp. Подозрительный тип, который продает вам самого плохого покемона всех времен по смешной цене, на самом деле является шуткой, но для ИИ покупка этого Magikarp была быстрым способом получить пять дополнительных уровней покемона в его команде – самое выгодное предложение в игре! Оказывается, ИИ купил этого Magikarp более 10 000 раз.

О, и еще одна анекдотичная история о волшебстве случайных действий компьютера: в один момент ИИ поймал Rattata и назвал покемона «AI». Иногда жизнь устраивает целую сеть случайностей.

Искусственно-созданное искусство и письменные тексты вызывают чрезвычайно много споров, но некоторые опытные разработчики считают, что в игровой индустрии «деньги все еще будут двигать абсолютно всех» для использования машинного обучения.