联系我们

人工智能

亚马逊的首席研究员Alexa认为图灵测试已过时

mm

更新

 on

亚马逊Alexa副总裁兼首席科学家Rohit Prasad 最近争论图灵测试长期以来一直用于衡量AI模型的复杂度的,应作为AI的基准退出。

计算机科学家和数学家Alan Turing最初介绍了 图灵测试 超过70年前图灵测试的目的是帮助回答机器智能问题,确定机器是否具有人类思维能力。为了回答这个问题,图灵争辩说,如果机器表现出如此复杂的对话行为,以致人类观察者无法分辨计算机的对话与人类的对话,则应该认为机器具有思考能力。

图灵测试限制

普拉萨德认为图灵测试在许多方面受到限制,图灵本人甚至对其中的一些局限性进行了评论 在他的初稿中。 Prasad认为,随着AI越来越融入我们生活的方方面面,人们越来越不在乎它与人类之间的区别,而越来越多地关注与AI的交互是无缝的。因此,应将图灵测试视为过时的,并以更有用的基准代替。

Prasad指出,许多早期的聊天机器人在设计时都考虑到了通过图灵测试的目的,并且近年来,一些聊天机器人始终设法欺骗超过三分之一的人类裁判(通过图灵测试所需的门槛)。但是,能够成功模仿人类的语音模式 并不意味着一台机器可以真正被认为是“智能”的。 AI模型在一个领域可能非常熟练,而在其他领域则非常缺乏,没有任何形式的一般情报。尽管如此,图灵测试仍然是聊天机器人和数字助理的常用基准,普拉萨德指出,企业领导者和记者不断询问Alexa何时能够通过图灵测试。

根据Prasad的说法,使用Turing测试评估机器智能的主要问题之一是,它几乎完全剥夺了机器查找信息和执行快速闪电计算的能力。 AI程序会注入人为的停顿,以响应复杂的数学和地理问题来欺骗人类,但它们几乎可以立即回答此类问题。除此之外,图灵测试没有考虑到AI使用外部传感器收集的数据的能力不断增强,而忽略了AI如何通过视觉和运动算法与周围的世界进行交互,而仅依靠文本通信。

创建新基准

普拉萨德认为,应该创建新的形式的衡量智力的方法,这些方法更适合于评估一般智力类型。这些测试应反映出AI在现代社会中的实际使用方式以及人们使用AI的目标。这些测试应该能够确定AI增强人类智能的程度以及AI如何改善人们的日常生活。此外,测试应了解AI如何表现出类似人的智力特征,包括语言能力,自我监督和“常识”。”

推理,公平,对话和感官理解等AI研究的当前和重要领域并未通过Turing测试进行评估,但可以通过多种方式对其进行评估。普拉萨德解释说,衡量智力的这些特征的一种方法是将挑战分解为组成任务。另一种评估方法是对人机交互提出大规模的现实挑战。

亚马逊创建Alexa奖时,创建了一个规则,要求社交机器人与人类对话20分钟。我们会评估机器人在各种主题(如技术,体育,政治和娱乐)上保持连贯对话的能力。客户负责在开发阶段对机器人进行评分,并根据与机器人再次聊天的愿望为他们分配分数。在最后一轮比赛中,独立评审负责使用5分制对机器人进行评分。法官使用的专栏文章依靠的方法可以使AI在适当的情况下展现出重要的人类属性,例如同情心。

最终,Prasad认为,像Alexa这样的以AI为动力的设备的日益普及代表了衡量AI进度的重要机会,但是我们需要不同的指标来利用这一新机会。

“这类AI必须成为大量不断增加的任务的专家,这只有借助更通用的学习能力而非特定于任务的智能才有可能,” Prasad explained.  “因此,在接下来的十年及以后的时间里,AI服务的实用性以及在环境设备上的对话和主动协助功能都是值得的测试。”