联系我们

自然语言处理

如何通过Google的开源BERT模型增强语言处理能力

mm

已发表

 on

伯特搜索增强

变压器的双向编码器表示,也称为BERT;是一种训练模型,已极大地提高了NLP模型的效率和效果。既然Google开源了BERT模型,它就可以改善所有行业的NLP模型。在本文中,我们将探讨BERT如何使NLP成为当今最强大,最有用的AI解决方案之一’s world. 

将BERT模型应用于搜索

Google的搜索引擎以其提供相关内容的能力而享誉世界,他们已经做到了这一点 自然语言处理 程序向世界开放。

随着世界成倍地产生新数据,系统读​​取和解释自然语言的能力变得越来越重要。 Google的词义,词组和表达相关内容的一般能力的库是OPEN SOURCE。除了自然语言处理之外,他们的BERT模型还具有从大量 非结构化数据 并可用于为任何库创建搜索界面。在本文中,我们将了解如何将该技术应用于能源领域。 

伯特(来自变压器的双向编码器表示)是由 Google AI语言 该小组旨在克服早期NLP模型的一个常见问题:缺乏足够的训练数据。

让我们详细说明一下,而不必太详细:

训练模式

低级(例如,命名实体识别,主题细分)和高级(例如,情感分析,语音识别)NLP任务需要特定于任务的带注释数据集。虽然它们很难获得并且组装起来很昂贵,但是标记数据集在浅层和深层神经网络模型的性能中都起着至关重要的作用。仅当有数百万甚至数十亿个带注释的训练示例可用时,才能获得高质量的推理结果。这是一个使许多NLP任务无法实现的问题。直到BERT被开发出来。

伯特是一种通用的语言表示模型,在大量未注释的文本上进行了训练。当模型暴露于大量文本内容时,它会 学习 理解上下文和句子中单词之间的关系。与以前的学习模型不同,后者仅在单词级别表示含义(银行 在“银行帐户”和“草木银行”中的含义相同),BERT实际上在乎上下文。也就是说,句子中单词之前和之后的内容。事实证明,上下文是NLP模型的主要缺失功能,直接影响模型性能。设计诸如BERT之类的上下文感知模型被许多人称为NLP新时代的开始。

在大量文本内容上训练BERT是一种称为 预训练。这意味着该模型的权重已针对一般的文本理解任务进行了调整,并且可以在其之上构建更细粒度的模型。当他们在11个NLP任务上使用基于BERT的模型并取得了最新成果时,作者已经证明了这种技术的优越性。

预训练模型

最好的事情是:经过预训练的BERT模型是开源的,并且是公开可用的。这意味着任何人都可以解决NLP任务并在BERT之上构建他们的模型。没有什么可以战胜的,对不对?哦,等等:这也意味着现在可以在较小的数据集上训练(微调)NLP模型,而无需从头开始训练。确实是一个新时代的开始。

这些经过预训练的模型可帮助公司减少内部或外部使用的NLP模型的部署成本和时间。虚拟团队文化建设公司teambuilding.com的首席执行官Michael Alexis强调了训练有素的NLP模型的有效性。 

“ NLP的最大好处是信息的可扩展且一致的推理和处理。”– Michael Alexis首席执行官 teambuilding.com

Michael指出了NLP如何应用于破冰船或调查等文化培育计划。通过分析员工的反应,公司可以获得对公司文化表现的宝贵见解。这不仅可以通过分析文本来实现,还可以通过分析文本的注释来实现。本质上,该模型还“在线条之间读取”,以推断出情感,感觉和整体外观。 BERT可以通过对模型进行预训练来为这种情况提供帮助,该模型具有指标基础,可以揭示语言的细微差别并提供更准确的见解。  

改善查询

上下文建模功能使BERT成为NLP英雄,并彻底改变了Google搜索本身。以下是来自Google搜索产品团队及其测试经验的报价,他们在调整BERT来了解查询的意图之后。

“以下示例展示了BERT理解您搜索意图的能力。这是“ 2019年赴美巴西游客需要签证”的搜索。 “ to”一词及其与查询中其他词的关系对于理解含义特别重要。这是关于巴西人前往美国的情况,而不是相反。以前,我们的算法不会’无法理解这种联系的重要性,因此我们返回了有关前往巴西旅行的美国公民的结果。有了BERT,Search就能掌握这一细微差别,并且知道非常常见的单词“ to”在这里实际上很重要,我们可以为该查询提供更相关的结果。”
前所未有地了解搜索,由Google研究员兼搜索副总裁Pandu Nayak撰写。

伯特搜索示例

伯特搜索示例,之前和之后。资源 博客

在最后一篇 NLP和OCR,我们已经说明了NLP在房地产领域的一些用途。我们还提到了“ NLP工具是理想的信息提取工具”。让我们看一下能源领域,看看像BERT这样的破坏性NLP技术如何实现新的应用程序用例。 

NLP模型可以从大量非结构化数据中提取信息

可以使用NLP模型的一种方法是从非结构化文本数据中提取关键信息。电子邮件,日记,便笺,日志和报告都是文本数据源的示例,它们是企业日常运营的一部分。这些文件中的某些文件可能对组织提高运营效率和降低成本的努力至关重要。 

旨在实施时 风力发电机的预测性维护, 失败报告 可能含有 有关不同组件行为的重要信息。 但是由于不同的风力涡轮机制造商具有不同的数据收集规范(即维护报告采用不同的格式,甚至使用不同的语言),因此手动识别相关数据项对于工厂所有者而言可能很快变得昂贵。 NLP工具可以从非结构化内容中提取相关的概念,属性和事件。 然后可以使用文本分析来查找不同数据源中的相关性和模式。这使工厂所有者有机会根据其故障报告中确定的定量措施实施预测性维护。

NLP模型可以提供自然语言搜索界面

同样,为石油和天然气公司工作的地球科学家通常需要查看许多与过去的钻井作业,测井和地震数据有关的文件。由于此类文档也采用不同的格式,并且通常散布在多个位置(物理位置和数字位置),因此它们浪费大量时间在错误的位置查找信息。在这种情况下,可行的解决方案是 基于NLP的搜索界面, 这将允许用户以自然语言查找数据。然后,NLP模型可以将数百个文档中的数据关联起来,并向查询返回一组答案。然后,工人可以根据自己的专业知识来验证输出,并且反馈将进一步改善模型。 

但是,部署此类模型也有技术方面的考虑。一方面是特定行业的行话会混淆传统的学习模型,这些学习模型没有适当的语义理解。其次,模型的性能可能会受到训练数据集大小的影响。这是经过预训练的模型(例如BERT)可以证明是有益的。上下文表示可以为适当的词义建模,并消除由行业特定术语引起的任何混淆。通过使用预训练的模型,可以在较小的数据集上训练网络。这样可以节省时间,能源和资源,而这些都是从头开始培训所必需的。

那你自己的事呢? 

您是否想到任何NLP任务可以帮助您降低成本并提高运营效率?

蓝橙色数字 数据科学 团队也很高兴为您的利益调整BERT!

乔什·米拉曼(Josh Miramant)是该公司的首席执行官和创始人 Blue Orange Digital,是一家顶级的数据科学和机器学习机构,在纽约市和华盛顿特区设有办事处。 Miramant是一位受欢迎的演讲者,未来主义者,并且是企业公司和初创公司的战略业务与技术顾问。他帮助组织优化和自动化其业务,实施数据驱动的分析技术,并了解人工智能,大数据和物联网等新技术的含义。