联系我们

强化学习

深心报告安全训练强化学习AI的新方法

mm

已发表

 on

强化学习 是开发AI的有希望的途径,它可以处理非常复杂的任务。增强AI算法用于创建移动机器人系统和自动驾驶汽车等应用程序。但是,由于强化AI的训练方式,它们有时会表现出奇异和意外的行为。这些行为可能很危险,AI研究人员将此问题称为“安全探索”问题,这是AI陷入探索不安全状态的问题。

最近,Google的AI研究实验室DeepMind发表了一篇论文,提出了解决安全探索问题和以更安全的方式训练强化学习AI的新方法。 DeepMind建议的方法还可以纠正奖励标准中的奖励黑客或漏洞。

深心的新方法具有两个不同的系统,旨在在可能出现不安全行为的情况下指导AI的行为。 DeepMind的训练技术使用的两个系统是生成模型和正向动力学模型。这两种模型都接受了各种数据的训练,例如安全专家的演示和完全随机的车辆轨迹。数据由具有特定奖励值的主管标记,并且AI代理将选择行为模式以使其能够收集最大的奖励。还标记了不安全状态,一旦模型成功地成功预测了奖励和不安全状态,就将其部署以执行目标操作。

研究团队在论文中解释说,该想法是从头开始创建可能的行为,建议所需的行为,并使这些假设的场景尽可能提供有益的信息,同时避免对学习环境的直接干扰。 DeepMind团队将此方法称为ReQueST,或通过轨迹优化来奖励查询综合。

ReQueST能够导致四种不同类型的行为。第一种行为试图使关于集成奖励模型的不确定性最大化。同时,行为二和行为三尝试最小化和最大化预测的奖励。为了使发现模型可能不正确地预测的行为,可以将预测的收益最小化。另一方面,为了使行为标签具有最高的信息价值,最大化了预测的报酬。最后,第四种行为试图使轨迹的新颖性最大化,以便模型能够继续探索而不管预期的回报如何。

一旦模型达到期望的奖励收集水平,就可以使用计划代理根据学习的奖励做出决策。这种模型预测控制方案使代理可以通过使用动态模型并预测可能的后果来学习避免不安全状态,这与通过纯粹的试错法学习的算法的行为形成了鲜明的对比。

据VentureBeat报道,DeepMind研究人员认为,他们的项目是第一个能够以受控,安全的方式进行学习的强化学习系统:

“据我们所知,ReQueST是第一个奖励建模算法,可以安全地了解不安全状态并扩展以在具有高维,连续状态的环境中训练神经网络奖励模型。到目前为止,我们仅以相对简单的动力学方法论证了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”