联系我们

机器人技术

机器人能够从很少的演示中学习复杂的任务

更新

 on

在机器人技术领域的最新发展之一中,南加州大学(USC)的研究人员开发了一种系统,机器人可以在很少的演示情况下学习复杂的任务。更令人印象深刻的是,某些示威活动可能并不完美。

这项研究在11月18日举行的机器人学习大会(CoRL)上进行了介绍“使用信号时序逻辑从演示中学习.”

系统

测量每个演示的质量,以便系统可以从其成功和失败中学习。与当前的方法需要至少100个演示来教授特定任务不同,新系统仅需要几个。这些机器人学习的方式很直观,类似于人类彼此学习的方式。例如,人类观看或向他人学习成功或不完美地完成任务。

Aniruddh Puranic是该研究的主要作者和博士学位。 USC维特比工程学院计算机科学专业的学生。

“Many 机器学习强化学习 系统需要大量数据和数百个演示–您需要人工来一遍又一遍地演示,这是不可行的,” said Puranic.

“而且,大多数人不’没有编程知识来明确说明机器人需要做什么,而人类可能无法展示机器人需要知道的一切,” he continued. “如果机器人遇到了它想要的东西怎么办’没见过吗?这是一个关键挑战。”

研究人员利用“信号时间逻辑”或STL来确定演示的质量,对演示进行相应的排名并产生内在的奖励。

研究人员决定使用STL的主要原因有两个:

  1. 通过演示学习,机器人可以发现缺陷,甚至发现不安全的行为和不良行为。
  2. 演示的质量可能会有所不同,具体取决于提供这些演示的用户,并且某些演示比其他示例更好地指示了所需的行为。

通过以这种方式开发系统,即使机器人不这样做,机器人仍然可以从不完美的演示中学习’满足逻辑要求。换句话说,它对准确性或成功做出自己的结论。

Stefanos Nikolaidis是合著者,也是南加州大学维特比分校的计算机科学助理教授。

“Let’s说,机器人会从不同类型的演示中学习(可能是动手演示,视频或模拟),如果我做的事情很不安全,则标准方法将执行以下两项操作之一:或者,他们将完全无视它,甚至更糟的是,机器人会学到错误的东西,” Nikolaidis says.

“相比之下,这项工作以一种非常聪明的方式,以逻辑形式使用了一些常识性推理,以了解演示的哪些部分是好的,哪些部分不是,” he continues. “本质上,这正是人类所做的。”

信号时序逻辑

机器人可以通过STL推理当前和未来的结果,STL是一种表达性的数学符号语言。在加入STL之前,研究主要依靠“线性时间逻辑。”

乔·德什穆克(Jyo Deshmukh)是前丰田汽车公司的工程师,也是南加州大学计算机科学的助理教授。

“当我们进入对时间至关重要的机器人和自动驾驶汽车等网络物理系统世界时,线性时序逻辑变得有点麻烦,因为它会导致变量的真/假值序列出现,而STL允许对物理值进行推理信号” Deshmukh says.

研究人员对该系统感到惊讶’s level of success.

“与在机器人应用中广泛使用的最新算法相比,您看到了需要进行多少次演示的数量级差异,” says Nikolaidis.

研究人员称,这些系统可以从驾驶模拟器以及最终的视频中学习。下一步是在真实的机器人上进行测试,因为初始测试是在游戏模拟器上完成的。该系统对于家庭环境,仓库和太空探索车等应用将非常有用。

“如果我们希望机器人成为优秀的队友并帮助他人,那么他们首先需要非常有效地学习并适应人们的喜好,” says Nikolaidis. “我们的方法可以做到这一点。”

亚历克斯·麦克法兰(Alex McFarland)是一位历史学家和新闻工作者,报道了人工智能的最新发展。