联系我们

自然语言处理

AI Startup Diffbot读取整个公共互联网以追求基于事实的文本生成

mm

已发表

 on

最近的进展 自然语言处理 和OpenAI通过其GPT-2和 GPT-3 语言模型给人留下深刻的印象,能够生成看起来像是真正由人类编写的文本。不幸的是,尽管这些模型擅长于写自然的文本,但它们不具备编写实际文本的能力。高级语言模型将上下文中最有意义的单词拼凑在一起的句子,而无需关注所生成文本中声明的准确性。 据麻省理工学院技术评论报道,一家名为 Diffbot 旨在通过让AI从互联网上提取尽可能多的事实来解决此问题。

Diffbot 是一家初创公司,希望使AI在诸如自动填充电子表格以及自动完成句子或代码之类的实际文本生成任务中更加有用。为了使AI生成的文本可靠,AI本身必须是可信任的,并且必须具有事实与虚构陈述的概念。 Diffbot为文本生成程序提供生成事实陈述的能力的方法,是从实际上从整个公共网络收集大量文本开始的。 Diffbot解析多种语言的文本,并将文本分成基于事实的三元组,并使用给定事实的主语,宾语和动词将一个概念链接到另一个概念。例如,它可能像这样代表关于比尔·盖茨和微软的事实:

比尔·盖茨是微软的创始人。微软是一家计算机技术公司。

Diffbot 提取所有这些简短的类事实并将它们结合在一起以创建知识图。知识图通常会创建概念之间的关系网,而推理机可帮助基于这些关系创建新结论。换句话说,知识图使用数据互连,它们可以帮助 机器学习 知识领域建模的算法。知识图实际上已经存在了几十年,许多早期的AI研究人员认为它们是使AI理解人类世界的重要工具。但是,知识图通常是手工创建的,这是一个艰难而艰苦的过程。自动化知识图的创建可以使AI对概念有更大的上下文理解,并生成基于事实的文本。

几年前,Google开始使用知识图来帮助搜索热门话题时提供信息摘要。知识图用于提取最相关的事实,并将其表示为摘要。 Diffbot希望对每个主题都做同样的事情,而不仅仅是最受欢迎的主题。这需要建立一个绝对庞大的知识图,通过爬网整个公共网络来编译,只有Google和Microsoft才能做到。 Diffbot每四到五天扫描一次整个网络并用新信息更新知识图,一个月的时间里,它会增加1亿到1.5亿个条目。

Diffbot 不会像普通的网络抓取工具那样阅读网站的文本,而是使用 计算机视觉 提取网页原始像素并从网页提取视频,图像,文章和讨论数据的算法。它遵循三部分的事实模型,识别网页的关键元素,然后提取各种语言的事实。

当前,Diffbot提供对其知识图的付费和免费访问。虽然研究人员可以免费访问该图,但DuckDuckGo和Snapchat等公司却使用它来汇总文本并提取趋势新闻的摘要。同时,耐克和阿迪达斯利用该平台找到销售假冒产品的站点,这是可能的,因为Diffbot能够确定哪些站点实际在销售鞋子,而不仅仅是进行讨论。

将来,Diffbot计划扩展其功能,并向平台添加自然语言界面,能够回答您提出的几乎所有问题,并使用源备份这些答案。理想情况下,Diffbot的功能应与功能强大的语言综合模型(如GPT-3)结合使用。

专门从事以下工作的Blogger和程序员 Machine Learning Deep Learning 话题。 Daniel希望帮助他人将AI的力量用于社会公益。