联系我们

强化学习

育碧培训AI代理在赛车游戏中驾驶汽车

mm

已发表

 on

“ AI”一词在视频游戏的讨论中经常使用,但通常用于指代控制视频游戏中非玩家角色的逻辑,而不是指由计算机科学家认为是AI的任何系统。 。利用AI的实际应用 人工神经网络 在视频游戏行业中很少见,但 如VentureBeat报道 游戏公司育碧最近发布了 a paper 研究经过培训的AI代理的可能用途 强化学习.

尽管DeepMind和OpenAI等实体已经调查了AI在各种视频游戏中的表现,例如 星际争霸2 , Dota 2 我的世界 ,在游戏开发人员经常面临的特定约束下,关于AI使用的研究很少。 Ubisoft的原型制作部门Ubisoft La Forge最近发表了一篇论文,详细介绍了一种算法,该算法能够在商业视频游戏中执行可预测的动作。根据该报告,人工智能算法能够达到当前基准并可靠地执行复杂任务。

该论文的作者指出,虽然强化学习已在某些视频游戏的背景下发挥了巨大作用,但通常能与上述游戏的最佳人类玩家相提并论,但OpenAI和DeepMind创建的系统却很少对游戏开发人员有用。作者指出,缺乏可访问性是一个大问题,最令人印象深刻的结果是研究小组获得了大规模的计算资源,这些资源通常远远超出了普通游戏开发人员所能获得的资源。写给研究者:

这些系统在视频游戏行业中的使用相对较少,我们认为缺乏可访问性是其背后的主要原因。确实,令人印象深刻的结果……是由大型研究小组产生的,其计算资源远远超出了视频游戏工作室通常所能提供的。”

Ubisoft的研究小组旨在通过创建强化学习方法来解决其中的一些问题,该方法针对数据样本收集和运行时预算限制等问题进行了优化。育碧的解决方案改编自加利福尼亚大学伯克利分校的研究成果。加州大学伯克利分校的研究人员开发的Soft Actor-Critic模型能够创建一个模型,该模型可以有效地推广到新条件,并且比大多数模型具有更高的采样效率。 Ubisoft团队采用了这种方法,并使其适用于离散和连续动作。

育碧研究团队在三种不同的游戏上评估了其算法的性能。有两个用于测试算法的足球游戏,以及一个简单的平台式游戏。虽然这些游戏的结果比最新的行业结果稍差,但进行了另一项测试,其中算法的性能要好得多。研究人员使用驾驶视频游戏作为测试用例,让AI代理遵循给定的路径并在代理在培训过程中未曾见过的环境中协商障碍。有两个连续的动作,转向和加速,以及一个二进制动作(中断)。

研究人员在论文中总结了他们的研究结果,宣称在训练AI代理在市售视频游戏中以高速驾驶时,混合型Soft Actor-Critic方法是成功的。根据研究人员的说法,他们的培训方法可能适用于多种可能的交互方法。这些实例包括AI代理具有与玩家完全相同的输入选项的实例,这表明“这种算法在视频游戏行业中的实用性”。