Facebook研究人员使用数学来获得更好的翻译

机器翻译工具的设计者仍然大多依靠字典来使外语易于理解。但是现在有了一种新方法:数字。Facebook研究人员说,将单词变成数字并利用语言之间的数学相似性是一个有前途的途径-即使“星际迷航”这样的通用传播者仍然遥不可及。强大的自动翻译是互联网巨头的首要任务。在世界范围内允许尽可能多的人交流不仅是无私的目标,而且还是一项好生意。Facebook,Google和Microsoft以及俄罗斯的Yandex,中国的百度等都在不断寻求改善其翻译工具的方法。Facebook在巴黎的一个研究实验室中聘用了人工智能专家。

Facebook研究人员使用数学来获得更好的翻译

欧洲社交网络基础AI研究的共同负责人Antoine Bordes说,Facebook目前使用多达200种语言。当前,自动翻译是基于具有两种语言的相同文本的大型数据库来工作的。但是对于许多语言对来说,没有足够的平行文本。这就是为什么研究人员一直在寻找另一种方法的原因,例如Facebook开发的系统可以创建单词的数学表示形式。每个单词在数百个维度的空间中成为一个“向量”。在该向量空间中,口语中具有紧密关联的单词也发现自己彼此接近。

从巴斯克到亚马孙?

“例如,如果您在语义上使用'cat'和'dog'一词,它们是描述相似事物的词,因此它们在向量空间上会非常紧密地结合在一起,”该系统之一的Guillaume Lample说。设计师。“如果您使用马德里,伦敦,巴黎等欧洲首都之类的话,那就是同一主意。”然后可以使用算法将这些语言映射相互链接-最初是粗略的,但最终会变得更加精致,直到可以匹配整个短语而没有太多错误为止。

兰普尔说,结果已经很有希望。

兰普尔说,对于英语-罗马尼亚语的语言对,Facebook当前的机器翻译系统比单词矢量系统“相等或可能更差”。他说,但对于Facebook-传统系统没有很多双语文本可供参考的英语-乌尔都语稀疏语言对来说,单词矢量系统已经很出色了。但是这种方法是否可以将巴斯克语翻译成亚马逊部落的语言?兰普尔说,从理论上讲,是的,但实际上,要映射该语言,需要大量书面文本,这是亚马逊部落语言所缺乏的。他说:“如果您只有成千上万个短语,它将无法正常工作。您需要成千上万个短语。”

圣杯

法国CNRS国家科学中心的专家表示,Lample为Facebook采取的方法可能会产生有用的结果,即使它不能带来完美的翻译效果。CNRS的莱迪思实验室的Thierry Poibeau也从事机器翻译的研究,他称向量向量法为“概念性革命”。他说“没有并行数据的翻译”(两种语言的词典或相同文档的版本)“是机器翻译的圣杯”。Poibeau说:“但是问题是,从单词向量法可以期望达到什么水平的性能”。

该方法“可以给出原始文本的想法”,但是每次都能提供良好翻译的能力仍未得到证实。CNRS的机械与工程科学计算机科学实验室的研究员Francois Yvon说,当语言之间的距离很远时,“语言的链接要困难得多”。他补充说:“用中文表示概念的方式与用法语完全不同。”伊冯说,然而,即使翻译不完美也可能有用,并且可以证明足以追踪仇恨言论,这是Facebook的首要任务。