联系我们

机器人技术

计算机科学家使用正强化技术来教机器人

更新

 on

图片:约翰霍普金斯大学

约翰·霍普金斯大学的计算机科学家已经在机器人上部署了长期有效的正强化训练技术,该技术通常用于训练狗等动物,从而可以自学新的技巧。在这些新技能中,有堆叠块的能力。 

该机器人称为Spot,据研究人员称,它可以在传统上需要大约一个月的几天内学习技能。

积极加固

团队使用正强化来提高机器人的技能。团队能够做到这一点的速度使得这些类型的机器人更容易在现实世界中部署。

该作品发表于 IEEE机器人与自动化快报, 标题为“好机器人!:高效 强化学习 用于从Sim到Real Transfer的多步可视任务。” 

安德鲁·洪特(Andrew Hundt)是约翰·霍普金斯大学(Johns Hopkins University)的博士学位学生,也是该研究的主要作者。 

“这里的问题是我们如何让机器人学习技能?”他说。 “我养过狗,所以我知道奖励的工作,这就是我设计学习算法的灵感。”

积极的强化在计算机上起作用的原因之一是它们没有直观的大脑,这意味着它们基本上是一块空白的画布,可以在其中投影任何内容。换句话说,他们必须从无到有学到一切。反复试验是最有效的计算机学习方法之一,而如今,机器人专家仍在研究这一问题。

这正是研究人员为机器人创建奖励系统时所做的事情,类似于通过给狗喂食来训练狗的过程。区别在于,当机器人正确完成任务时,它将获得数字点。 

狗的训练方法可帮助教机器人学习新技巧

在YouTube上观看此视频

学到的技能

在学习如何堆叠块时,机器人必须学会专注于建设性行动。在该方法中,当机器人在堆积块期间完成正确的行为时,对机器人进行定位会获得更高的分数。另一方面,它没有因为不正确的行为而赚钱。通过完成一个四块堆栈,最后一个块位于顶部,它获得了最高的积分。

研究人员看到了这种方法的巨大成功,机器人可以在几天之内学习过去需要数周的时间。通过训练模拟机器人,团队减少了转移到Spot机器人之前的练习时间。

亨特说:“机器人想要更高的分数。” “它可以迅速学习正确的行为以获得最佳回报。实际上,过去机器人需要花一个月的时间才能达到100%的精度。我们能够在两天内做到。” 

除了学习如何堆叠积木之外,机器人还使用正强化来学习其他任务,例如如何玩模拟导航游戏。 

“一开始,机器人不知道它在做什么,但每次练习都会越来越好。它永不放弃,不断尝试堆叠,并能够100%地完成任务。”

此方法的一些可能应用包括训练家用机器人以完成某些任务,以及改进自动驾驶汽车。

“我们的目标是最终开发出可以在现实世界中完成复杂任务的机器人—例如产品组装,老年人护理和手术。” Hager说。 “我们目前不知道如何编程这样的任务—世界太复杂了。但是这样的工作向我们表明,机器人可以学习如何以安全有效的方式完成此类现实任务的想法是有希望的。

亚历克斯·麦克法兰(Alex McFarland)是一位历史学家和新闻工作者,报道了人工智能的最新发展。