联系我们

自然语言处理

预防‘Hallucination’在GPT-3和其他复杂的语言模型中

mm

更新

 on

一个定义特征‘fake news’是,它经常在事实上纠正信息的背景下呈现虚假信息,通过一种文学渗透的不真实的数据来获得感知权威 - 令人担忧的展示半真半假的力量。

精致的生成 自然语言处理 (NLP)加工模型,如GPT-3也具有趋势 ‘hallucinate’ 这种欺骗性数据。部分原因是,因为语言模型需要能力进行重整和总结长期且经常迷住的文本,而没有任何架构约束’s能够定义,封装和‘seal’事件和事实使他们受到语义重建过程的影响。

因此,事实并非对NLP模型的神圣;他们很容易在上下文中得到治疗‘semantic Lego bricks’,特别是在复杂的语法或奥术源材料难以将离散实体与语言结构分离。

观察曲折 - 措辞源材料可以混淆复杂的语言模型,如GPT-3。资料来源:使用深增强学习的释义生成

观察曲折 - 措辞源材料可以混淆复杂的语言模型,如GPT-3。 来源: 使用深度加强学习的解释

此问题溢出基于文本 机器学习 进入 计算机视觉 研究,特别是在利用语义歧视来识别或描述对象的扇区。

幻觉和不准确的化妆品的重新诠释也影响了计算机视觉研究。

幻觉和不准确‘cosmetic’重新解释影响计算机视觉研究。

在GPT-3的情况下,模型可能会对它已经解决的主题的重复质疑变得沮丧。在最好的情况下,它将承认失败:

LINE与GPT-3基本Davinci发动机的最新实验。该模型在第一次尝试时获得了答案,但在第二次被问及问题时被讨论。由于它保留了以前答案的短期记忆,并将重复的问题视为拒绝该答案,但它承认失败。 Source: //www.scalr.ai/post/business-applications-for-gpt-3

LINE与GPT-3基本Davinci发动机的最新实验。该模型在第一次尝试时获得了答案,但在第二次被问及问题时被讨论。由于它保留了以前答案的短期记忆,并将重复的问题视为拒绝该答案,但它承认失败。 来源: //www.scalr.ai/post/business-applications-for-gpt-3

Davinci和Davinci指示(Beta)在这方面做得更好,而不是通过API可用的其他GPT-3型号。在这里,yie模型给出了错误的答案,而贝类模型在同样错误的答案上自信地扩展:

爱因斯坦从未说过的事情

征求GPT-3 DAVINCI指示引擎(目前似乎是最有能力的)对爱因斯坦的’s famous quote ‘上帝没有用宇宙骰子’,Davinci指示未能找到报价并引用非报价,继续幻觉三个相对合理的和完全不存在的报价(由爱因斯坦或任何人)以响应类似的查询:

GPT-3从Einstein生产四个合理的报价,其中没有一个完整的互联网搜索中的任何结果,尽管一些触发来自爱因斯坦的其他(真实的)引用的主题‘imagination’.

如果GPT-3在引用中始终是错误的,那么以编程方式更容易折扣这些幻觉。然而,越来越漫漫和着名的报价是,GPT-3的可能性越可能是右派:

GPT-3显然在贡献数据中所代表时发现正确的报价。

GPT-3显然在贡献数据中所代表时发现正确的报价。

当GPT-3时,第二个问题可以出现’s会话历史数据流出了一个新问题:

爱因斯坦可能被丑闻归于他归因于他。报价似乎是真实生活温斯顿丘吉尔的淫乱幻觉 格言。上一个问题在与丘吉尔(不是爱因斯坦)相关的GPT-3会话中,GPT-3似乎错误地使用了这次会议令牌来告知答案。

在经济上解决幻觉

幻觉是作为研究工具采用复杂的NLP模型的显着障碍 - 越多,因为这种发动机的输出从形成它的源材料高度抽象,因此建立引号和事实的真实性变得有问题。

因此,NLP中的一般性研究挑战是建立识别幻觉文本的手段,而无需想象完全新的NLP模型,该模型将其定义和验证事实作为离散实体(一系列更广泛的计算机中的长期,独立的目标)研究部门)。

识别和产生幻觉内容

一个新的 合作 Carnegie Mellon University之间的Carnegie Mellon大学和Facebook AI研究提供了一种新的幻觉问题的方法,通过制定鉴定幻觉的输出和使用合成幻觉文本来创建一个可以用作未来过滤器和机制的基准,可以将其作为最终变成的机制(可能最终成为基线)的方法NLP架构的核心部分。

来源: //arxiv.org/pdf/2011.02593.pdf

来源: //arxiv.org/pdf/2011.02593.pdf

在上面的图像中,源材料已经以每字进行了分段,其中‘0’标签分配给纠正单词和‘1’标签分配给幻觉的单词。下面我们看到了与输入信息相关的幻觉输出的示例,但是使用非真实数据增强。

该系统使用预先训练的去噪AutoEncoder’能够将幻觉的字符串映射回原始文本,从中生成损坏的版本(类似于上面的示例,互联网搜索揭示了虚假引号的出处,但具有编程和自动语义方法)。具体来说,Facebook’s 巴特 AutoEncoder模型用于生成损坏的句子。

标签分配。

标签分配。

将幻觉映射回源的过程,在高级NLP模型的共同运行中是不可能的,允许映射 ‘edit distance’,并促进识别幻觉内容的算法方法。

研究人员发现,当系统无法访问培训期间可用的参考资料时,该系统甚至能够概括,这表明概念模型是声音和广泛复制的。

徘徊 过度装满

为了避免过度拟合并获得广泛可部署的架构,研究人员从过程中随机丢弃令牌,并且还采用了释义和其他噪声功能。

机器翻译(MT)也是这种混淆过程的一部分,因为跨语言翻译文本可能会稳健地保持意义,进一步防止过度拟合。因此,在手动注释层中通过双语扬声器翻译并识别了幻觉并确定了该项目。

该倡议在许多标准扇区测试中实现了新的最佳结果,是第一个使用超过1000万令牌的数据获得可接受的结果的最佳结果。

项目的代码,题为 检测条件神经序列生成中的幻觉含量,已经 在GitHub上发布,并允许用户自己生成 合成数据 用来自任何文本语料库的巴特。还提供随后产生幻觉检测模型的规定。

自由作家和编辑,主要是机器学习,人工智能和大数据。 [email protected]