联系我们

强化学习

人工智能代理在虚拟捉迷藏中展示新兴情报属性

mm

更新

 on

关于研究AI的有趣事实之一是,它通常可以执行动作并遵循使设计者感到惊讶的策略。这是在最近的虚拟捉迷藏游戏中发生的,其中多个AI代理人相互对抗。总部位于旧金山的AI公司OpenAI的研究人员惊讶地发现他们的AI代理 开始利用策略 在研究人员甚至不知道的游戏世界中都存在。

OpenAI已经训练了一组AI代理来玩捉迷藏游戏。 AI程序经过培训 强化学习,一种通过向AI算法提供反馈来从AI算法中引发所需行为的技术。 AI首先是采取随机行动,每次采取接近目标的行动时,代理商都会得到回报。 AI希望获得尽可能多的奖励,因此它将尝试查看哪些动作会获得更多奖励。通过反复试验,人工智能能够区分使他们取得胜利的策略,以及为他们带来最大回报的策略。

强化学习g在学习游戏规则方面已经取得了令人瞩目的成功。 OpenAI最近培训了一个AI团队来 玩MMORPG DOTA 2,而AI去年击败了一支世界冠军的人类选手队伍。 DeepMind对AI进行了游戏培训时,游戏StarCraft发生了类似的情况。强化学习也已被用来教AI程序与人一起玩Pictionary,学习解释图片并使用基本常识推理。

在研究人员创建的捉迷藏视频游戏中,多个AI代理相互对抗。结果就是种军备竞赛,每个特工都想超越对方,并获得最大的奖励积分。一个代理商采取的新策略将导致其对手寻求一种新策略来应对它,反之亦然。 OpenAI的研究员Igor Mordatch, 向IEEE Spectrum解释 实验表明,座席之间的反复试验过程“足以使座席自己学习令人惊讶的行为,就像孩子们在互相嬉戏一样。”

到底是什么令人惊讶的行为?研究人员有四种期望AI代理商学习的基本策略,他们很快就学会了这些策略,仅在2500万模拟游戏中就变得胜任了。游戏在充满坡道,街区和墙壁的3d环境中进行。人工智能特工学会了互相追击,移动积木以建立他们可以躲藏的堡垒以及移动坡道。 AI搜寻者学会了绕坡道进入藏身者的堡垒,而藏身者学会了尝试将坡道带入堡垒,以使搜寻者无法使用它们。

但是,围绕3.8亿游戏的基准,发生了一些意外事件。 AI代理学会了使用研究人员未曾想到的两种策略。搜寻人员发现,跳到箱子上并将箱子向附近的堡垒倾斜/骑行,他们便可以跳入堡垒并找到藏身箱。研究人员甚至没有意识到这在游戏环境的物理学中是可能的。藏匿者学会了如何通过将盒子拖入堡垒内的位置来解决这个问题。

虽然在这种情况下,通过强化学习算法训练的代理的意外行为是无害的,但确实引起了一些关于如何将强化学习应用于其他情况的潜在担忧。 OpenAI研究团队的成员Bowen Baker向IEEE Spectrum解释说,这些意外行为可能具有潜在的危险。毕竟,如果机器人开始以意想不到的方式表现呢?

“建立这些环境非常困难,”贝克解释说。 “代理商会提出这些意外行为,当您将它们放在更复杂的环境中时,这将是安全隐患。”

但是,贝克还解释说,强化策略可以导致针对当前问题的创新解决方案。经过强化学习训练的系统可以用我们甚至无法想象的解决方案解决各种各样的问题。