联系我们

自然语言处理

阻止AI欺骗测试的斗争

mm

更新

 on

来自中国大学的新研究发现提供了深入了解为什么生成的 自然语言处理 GPT-3等模型倾向于‘cheat’当被问到一个难题时,产生可能在技术上正确的答案,但没有任何真实的理解 为什么 答案是正确的;为什么他们展示很少或没有解释他们背后的逻辑的能力‘easy’答案。研究人员还提出了一些制造系统的新方法‘study harder’在培训阶段。

问题是双重的:首先,我们设计尝试快速实现结果的系统,并利用资源。即使在哪里,与GPT-3一样,资源也可能大约大于平均NLP研究项目能够集中,这种结果驱动优化仍然遍历方法,因为它已经占主导地位的学术公约。

因此,我们的培训架构奖励模型迅速收敛并产生对问题的响应,即使NLP模型随后无法证明其响应,或者证明它是如何得出的结论。

一个早期的性格欺骗

这是因为模型学习‘shortcut responses’训练中早些时候比它学会了更复杂的知识获取。由于提高准确性通常在整个训练中不分青红皂白地奖励,因此该模型然后优先考虑任何让它回答问题的方法‘glibly’,没有真正的洞察力。

由于快捷方式学习将不可避免地代表 第一的 在培训期间的成功,会议自然会倾向于获得有用和更完整的认识论角度的更加艰巨的任务,这可能包含更深层次和更有洞察力的归因和逻辑层。

喂食ai‘Easy’ Answers

第二个问题是,即使最近的研究举措也有 学习 AI’s tendency to ‘cheat’通过这种方式,并确定了现象‘shortcuts’,直到现在才努力分类‘shortcut’ - 在贡献的数据集中的素材是解决机器阅读理解(MRC)系统中可能被证明是一个基本建筑缺陷的逻辑第一步。

新的 ,北京大学王轩计算机技术研究所与北京大学计算语言学的MOE重点实验室之间的合作,测试各种语言模型 新注释的数据集 其中包括分类‘easy’ and ‘hard’解决可能的问题。

Source: //arxiv.org/pdf/2106.01024.pdf

Source: //arxiv.org/pdf/2106.01024.pdf

数据集使用解释为更复杂和深度答案的标准,因为是必要的语义理解,以便重新制定获得的知识。相比之下,‘shortcut’答案可以使用日期等令牌和其他封装关键字,以产生事实准确的答案,但没有任何上下文或推理。

注释的快捷组件具有问题字匹配(QWM)和简单匹配(SPM)。对于QWM,该模型利用从提供的文本数据和Jettisons上下文中提取的实体;对于SPM,模型识别在训练数据中提供的回答句子和问题之间的重叠,这两者都是在训练数据中提供的。

差不多的快捷数据‘Viral’在数据集中的影响

研究人员争辩说,数据集往往包含高比例的快捷问题,使训练有素的模型依赖于捷径技巧。

实验中使用的两种模型是 赤裸裸和Google’s -根据。研究人员遵守,即使在具有较高比例的数据集变化上培训‘difficult’问题,两种型号仍然在快捷问题上表现比更难的释义问题更好,尽管数据集中的示例少量。

这件礼物‘shortcut data’几乎在病毒的上下文中 - 在数据集中需要很少,以便在NLP中的传统标准和实践下采用和优先考虑培训。

证明作弊

研究用来证明快捷方式答案的脆弱性是如何替代的方法‘easy’一个异常词的实体词。在使用快捷方式方法的情况下,逻辑‘cheated’ response can’提供;但是,答案是从更深层次的上下文和语义评估提供更广泛的贡献文本的答案’系统可以解析错误并重建正确答案。

替代'Beyoncé' (a person) for 'America'(一个位置),揭示该模型是否有任何背景逻辑答案。

替代‘Beyoncé’ (a person) for ‘America’(一个位置),揭示该模型是否有任何背景逻辑答案。

由于经济势在必行导致的捷径

关于某些架构原因,为什么快捷方式在NLP培训工作流程中如此优先考虑,作者评论 ‘MRC模型可能会学习QWM,如QWM,计算资源较少,比理解挑战,如识别释义’.

然后,这可能是机器阅读理解的方法的标准优化和资源保存哲学的意外结果,以及在紧张时框架中获得有限资源的压力。

研究人员还注意到:

‘[自从]捷径诀窍可以用来正确地回答大多数训练问题,有限的未解决的问题仍然可能无法激励模型来探索需要具有挑战性技能的复杂解决方案。’

如果这篇论文’随后的结果被证实,似乎可能需要考虑的广阔而不断增长的数据预处理领域‘hidden cribs’在数据中作为要在长期寻址的问题,或者修改NLP架构以优先考虑更具挑战性的数据摄取的例程。