联系我们

自然语言处理

Facebook创建了可以直接在100种不同语言之间进行翻译的机器翻译模型

mm

已发表

 on

Facebook最近开发 新的机器翻译模型 可以在100种语言中的任何给定语言对之间翻译文本。当存在其他机器翻译系统时,大多数其他AI翻译系统的运行方式是先将文本翻译成英语,然后再从那里转换文本。  据Engadget报道,Facebook的AI翻译器无需使用英语作为中间人就可以运行,据报道能够达到大约90%的准确性。

Facebook的AI模型训练数据由大约75亿对句子组成,分布在100种不同的语言中。数据是使用一系列Web搜寻器从Web上编译的,而收集到的数据中存在的语言是使用称为FastText的语言模型进行标识的。收集数据后, 它是通过称为LASER 2.0的工具运行的 提取不同句子样本的含义,并根据其含义将不同语言的句子匹配在一起。 LASER 2.0由Facebook开发,拥有员工 无监督学习 创建嵌入的算法。句子嵌入包含基于诸如使用频率和句子彼此出现的程度等特征的不同句子之间关系的信息。然后,LASER 2.0可以创建具有高度相似含义的句子部分。

训练数据不仅仅是根据句子的含义进行配对。语言本身被组合在一起。该项目的目标是与Facebook的安吉拉·范(Angela Fan)共同设计一种不需要使用英语作为两种语言之间的中介的系统,他指出,全球许多地区都说两种非英语的语言。 Facebook工程师通过专注于通常会相互翻译的配对语言来进行培训。根据文化,语言相似性和地理等变量,创建了十四个不同的语言组。例如,研究人员创建的语言群体之一包含了整个印度最常见的语言,包括乌尔都语,泰米尔语,北印度语和孟加拉语。这样做是为了使通常配对的语言能够获得高质量的翻译。

以语言组为中心的培训方法产生了一些有趣的结果。发现对于某些语言配对,所得到的翻译模型比当前现有的模型具有更高的准确性。例如,当在英语和白俄罗斯语之间进行翻译时,由于白俄罗斯语与俄语在语言上有相似性,因此AI能够应用在翻译俄语时学到的某些模式。同样,西班牙语和葡萄牙语之间的翻译工作也得到了改善,因为西班牙语是第二广泛使用的语言,并且有大量的培训数据可用于该任务。

翻译系统尚无法涵盖大约六十种语言,在没有大量训练数据的情况下,需要提高模型的语言准确性,然后才能投入使用。东南亚和非洲的许多语言都缺乏训练可靠模型所需的数据量。研究团队将需要确定某种弥补这种数据不足的方法。研究团队还需要确定如何控制模型可能学到的任何种族主义,性别歧视或其他亵渎行为。尽管研究小组使用了亵渎性过滤器,但该过滤器主要对英语数据起作用。

机器翻译系统尚未在Facebook的社交媒体平台上使用。当前模型仅用于研究目的。但是,Facebook正在加紧设计类似的模型,并让它们处理该网站每天收到的大约200亿次翻译请求。