联系我们

深度学习

深心’新的AI能够在玩游戏时学习游戏规则

mm

更新

 on

Alphabet的子公司DeepMind最近开发了一种AI系统,该系统能够在玩游戏时学习游戏规则。尽管DeepMind创建了令人印象深刻的AI模型,可以以前掌握象棋,将棋,围棋和视频游戏等游戏,但必须事先为这些模型提供游戏规则。因此,DeepMind的新AI代表了对以前通过学习玩游戏的AI算法的显着改进 强化学习.

人工智能系统– MuZero

在纸上 最近发表在杂志上 性质,DeepMind详细介绍了他们的新AI系统如何运行。名为“ MuZero”的新AI可以通过“前瞻搜索”原理学习游戏规则。 据Engadget报道,MuZero使用前瞻搜索来根据对手最有可能的反应来确定应该执行哪些动作。

在考虑象棋等游戏中可能做出的所有动作时,MuZero可以进行优先级排序,将动作缩小到最可能和最相关的动作。然后,MuZero将从成功和不成功的演习中学习。它没有考虑所有可能的因素,而是仅考虑与当前决策最相关的因素。 MuZero基本上采用了可以考虑的众多潜在变量,并将其精简为最突出,最有影响力的功能。这些功能以基于树的搜索算法表示。然后将树中的可能性与基于测试环境特征的学习模型相结合。在确定了环境的最相关方面之后,进行预搜索。

为了做出最终决定,考虑了三个因素。

零会考虑上一个选择的结果,它当前所处的位置以及下一步可以采取的行动。这种方法击败了DeepMind以前使用的方法,包括基本的超前搜索和基于树的模型。事实证明,MuZero至少像AlphaZero一样擅长国际象棋,将棋和围棋,并且在玩Pac-Man女士游戏时,MuZero一次只能考虑大约六到七个动作。尽管存在此限制,但AI仍然能够表现出色。 DeepMind还通过限制MuZero在必须采取行动之前可以完成的模拟次数来对其功能进行试验。通常,程序花更多的时间考虑可能的动作,它的执行效果就更好。

深心的首席研究科学家David Silver 通过TechXplore进行了解释零是第一个能够生成自己的环境规则表示形式的AI模型,使用该表示形式来计划行动。

“实际上,这是我们第一次拥有一个系统,该系统能够建立自己对世界运作方式的理解,并利用这种理解来进行您所需要的这种复杂的预先计划’我以前看过象棋这样的游戏,” Silver said.  “(MuZero)可以从零开始,仅通过反复试验就可以发现世界规则,并使用这些规则来实现某种超人的表现。”

可能的应用

真正能够学习任务约束并在这些约束内操作的AI具有多种可能的应用。 MuZero可用于诸如视频压缩之类的任务,由于多种不同的可能的视频格式和压缩模式,MuZero历来难以使用AI进行自动化。 MuZero能够将压缩率提高约5%。这可能会对Google和YouTube托管的大量视频产生影响。除了视频之外,DeepMind还正在研究将相同的MuZero技术用于蛋白质结构设计和机器人编程。

根据南安普敦大学计算机科学教授Wendy Hall的说法,MuZero代表了强化学习算法的“重要一步”。但是,霍尔担心算法可能被滥用。例如,美国空军已经参考了涵盖MuZero的早期研究论文,以创建可以从U-2间谍飞机发射导弹的AI系统。尽管DeepMind的研究人员表示反对将其算法用于任何致命武器,但仍签署了《致命自主武器承诺》,主张任何致命技术都应在人类的控制之下,对此表示反对。

Silver解释说DeepMind展望未来,旨在开发与大脑一样强大和通用的算法。创建通用的,灵活的算法的第一步是了解系统智能化的意义,而智能与识别复杂环境的模式和规则的能力相关联。