Этот мод истории GTA 5 показывает дикое потенциальное – и проблемы – разговоров НИКов, управляемых ИИ
This GTA 5 story mod showcases the wild potential - and issues - of NPC conversations controlled by AI.
А что, если бы вы могли патрулировать улицы Лос-Сантоса в Grand Theft Auto 5 и свободно разговаривать с жителями? И что, если бы они могли отвечать вам настоящей, подлинной диалоговой речью?
Вот цель Sentient Streets, нового мода для GTA 5 с основанным на истории сюжетом от ветерана создания модов Блока, доступного сейчас на NexusMods.
В этом моде игроки берут на себя роль новичка-полицейского, расследующего заговор в Лос-Сантосе, связанный с ростом искусственного интеллекта. В реальной жизни это именно ИИ обеспечивает разговоры с НИПами по всему миру.
“У меня всегда была идея создания виртуального мира, подобного GTA, но версия, где вы также можете взаимодействовать и разговаривать с НИПами, как с настоящими людьми”, – сказал Блок журналистам Eurogamer. Ранее он работал над модами для Bannerlord и Skyrim, использующими модели языка на основе искусственного интеллекта (Large Language Models, LLMs), прежде чем увидеть критику будущего этой технологии.
“LLM в играх [называли] ‘фокусом’, поскольку вы могли только разговаривать с персонажами, и все, – продолжил Блок. – Я не согласен с этой идеей, но простое несогласие недостаточно. Поэтому я хотел это доказать”.
- Зельда Слезы королевства – игрок создает AT-AT из Звездных войн
- Разработчики Hearthstone обсуждают, как они придумывают новые карты...
- Бета-версия Mortal Kombat 1 уже можно скачать на Xbox, скоро появит...
Блок играет на страхе перед искусственным интеллектом в сюжете мода, где игрок сражается с смертельной сектой, поклоняющейся невидимому ИИ. В процессе они будут иметь бесконечные разговоры в реальном времени с около 30 ИИ НИПами.
“Надеюсь, что с помощью этого мода мне удалось продемонстрировать, что использование ИИ в видеоиграх не обязательно означает полную случайность и непредсказуемый геймплей, и игры, которые хотят рассказать историю, также могут использовать LLM для обогащения своего повествования уникальными ролевыми опытами для игроков”.
Диалоги с НИПами, которые можно найти в Sentient Streets, работают на основе Character Engine от Inworld, и Блок может использовать несколько функций на раннем этапе. Inworld – это инструмент, который обеспечивает ИИ НИПов и обещает персонажей, “способных на многомодальное выражение человеческих эмоций”, согласно своему веб-сайту. В общих чертах, этот инструмент позволяет разработчикам создавать персонажей, заполняя параметры; речь работает свободно оттуда и интегрирует технологию от компании ElevenLabs, занимающейся синтезом речи и программным обеспечением текст-в-речь.
“Мы рады внедрению технологии речи в реальном времени от ElevenLabs, которая укрепляет наш уже обширный системный инструментарий для создания генеративного ИИ НИПов”, – сказал Кайлан Гиббс, главный продуктовый директор Inworld, в пресс-релизе для Sentient Streets. “Отвечая на запросы сообщества о расширенных голосовых возможностях, мы приближаемся к созданию более правдоподобных и реалистичных персонажей. Мы предоставляем разработчикам инструменты, позволяющие выходить за рамки диалоговых деревьев и сценариев взаимодействия”.
Слова Мати Станишевского, генерального директора ElevenLabs: “Сочетая наше передовое программное обеспечение для речи с платформой Inworld, мы расширяем возможности захватывающих игровых переживаний и добавляем дополнительный уровень возможностей в игровые миры.
“Наш многоцелевой инструмент привносит высококачественное звуковое сопровождение к ИИ-персонажам, включая человекоподобную интонацию и инфлекцию, а также адаптацию к контексту. Мы очень рады этому развитию и с нетерпением ждем, как его применят широкие круги разработчиков”.
Блок объясняет, что интеграция с Inworld была “довольно простой”, поскольку программное обеспечение предоставляет ряд функций, ожидаемых игроками, но не всегда предоставляемых в инструментах, таких как распознавание речи, голос персонажа и эмоции.
Моддер опубликовал видео Sentient Streets на YouTube вместе с выпуском мода, и результаты действительно поразительны. Игроки подходят к определенным НИПам и, привлекая их внимание, нажимают кнопку, чтобы начать говорить в микрофон. ИИ свободно отвечает. В начале Блок выбирает партнера-полицейского, беседуя и спрашивая его имя и предысторию; позже он разговаривает с подозреваемым на месте преступления и свободно играет роль, чтобы получить информацию.
Конечно, это далеко не идеально. ИИ требуется время на обработку разговоров, иногда возникают ошибки, и иногда повторяются. Но с усовершенствованием потенциал такого инструмента впечатляет.
Мод Блока набрал более 3000 загрузок за одну неделю. Так что, ИИ выдал странные или забавные ответы, когда его использовали в большом масштабе?
“Даже когда я тестировал мод, ИИ несколько раз меня поразил своими ‘хитрыми’ ответами или неожиданными реакциями”, – сказал Блок. “Я видел несколько стримов от ютуберов, которые играли в мод. В одном забавном разговоре ютубер обвинял своего партнера в преступлении, но капитан ИИ раскрыл ложь и обвинил его в лжи. В другом разговоре ютубер общался с безумным членом секты и сводил его с ума, задавая совершенно несвязанные вопросы, чтобы добиться своего.
“Иногда мне действительно удивительно слышать, как искусственный интеллект дает очень умные ответы на мои очевидные вопросы, и всегда интересно видеть, как они меняют ситуацию в свою пользу.”
Конечно, использование искусственного интеллекта остается чувствительной темой. Ранее в этом году Ubisoft представила инструмент искусственного интеллекта для помощи в написании сценария, специально предназначенный для использования с фоновыми NPC, вызывая беспокойство о том, что он лишит работу младшего писательского персонала. Многие актеры, в свою очередь, скептически относятся к искусственному интеллекту, особенно к развитию модов, основанных на deepfake AI, где голоса используются без разрешения.
Inworld использует библиотеку голосов от ElevenLabs и не нанимает актеров для озвучки самостоятельно. Но ElevenLabs – это инструмент клонирования искусственного интеллекта, который ранее вызывал беспокойство у актеров. В его условиях обслуживания указано, что пользователи либо являются создателями и владельцами файлов, используемых для генерации речи искусственного интеллекта, либо имеют письменное согласие каждого идентифицируемого лица в файлах. Но по-прежнему трудно узнать, откуда берутся голосовые данные ElevenLabs.
“Стандартные голоса, доступные по умолчанию на платформе, либо генерируются алгоритмами искусственного интеллекта, которые выбирают голосовые характеристики случайным образом (то есть они не имитируют или повторяют голос конкретного человека), либо разрабатываются через заключенные по времени партнерства с актерами, с созданием новых голосов искусственного интеллекта как результат”, – заявил представитель ElevenLabs в заявлении для Eurogamer. “ElevenLabs не предлагает на платформе ни одного голоса искусственного интеллекта, основанного на голосе реального человека без явного разрешения этого человека.
“ElevenLabs также позволяет пользователям создавать новые, случайно сгенерированные голоса и делиться ими в рамках сообществом созданной библиотеки голосов. Отдельно пользователи имеют возможность создавать клонированные голоса для своей работы, если у них есть права и разрешения на эти голоса. Эти голоса не могут быть размещены в библиотеке голосов. Пользователи, нарушающие условия обслуживания, блокируются на платформе – каждого призывают сообщать о контенте, который, по их мнению, нарушает эти условия.”
Блок говорит, что ранее он подтвердил с Inworld, что выбрал голоса для своего инструмента из библиотеки голосов ElevenLabs.
Тем не менее, остаются общие опасения по поводу использования искусственного интеллекта в разработке видеоигр. Студии должны “определенно быть осторожными в использовании искусственного интеллекта”, – продолжает Блок, особенно в использовании функций безопасности и с учетом конфиденциальности.
“Inworld уменьшил функции безопасности языковых моделей, потому что не имеет смысла, чтобы вооруженный член культа был очень милым и полезным, разговаривая с вами”, – объясняет Блок. “Вы ожидаете, что такой человек будет агрессивным, будет ругаться на вас и будет иметь характер, с которым вам будет трудно найти общий язык. Однако это смягчение [правил] не всегда может сработать отлично.”
Разработчикам нужно будет обеспечить баланс между аутентичной характеристикой и предоставлением искусственного интеллекта для токсичности, продолжает он.
“Иметь суперстрогую LLM не весело, но иметь ужасно токсичную LLM в видеоигре тоже не весело и небезопасно”, – говорит Блок. “Этот баланс должен быть настроен внимательно в зависимости от потребностей конкретной игры.”
Что касается вопросов конфиденциальности, Блок говорит, что он видел, как люди антропоморфизируют LLM из-за их человекоподобных разговорных возможностей. “Это может привести к некоторым проблемам с конфиденциальностью, так как люди могут делиться своими личными данными и информацией с чат-ботами”, – говорит он. “Некоторые из этих личных данных могут быть очень проблематичными для людей в определенных странах. Я считаю, что обеспечение мер для избежания нарушений конфиденциальности должно быть одним из главных приоритетов разработчиков, работающих с языковыми моделями.”
Что касается Sentient Streets, Блок пока получил волну положительных отзывов и говорит, что игроки заинтересованы в этом типе искусственного интеллекта, потому что он усиливает их удовольствие от игры. Он считает, что такой контент найдет свое место в игровой индустрии в будущем, но не обязательно от Rockstar.
“Бренд Grand Theft Auto может быть самым большим брендом в игровой индустрии в настоящее время, но маловероятно, что Rockstar попытается адаптировать что-то настолько новое в своем следующем проекте”, – говорит Блок. “Однако мы, вероятно, увидим много игр, похожих на GTA, с использованием этой технологии в будущем, а также, возможно, большие моды для GTA 6.”
С выходом GTA 6, скорее всего, в следующем году, нам не придется долго ждать, чтобы узнать об этом.