机器学习算法可以通过少量训练发现隐藏的科学知识

当然,计算机可以用来玩大师级国际象棋,但是他们可以做出科学发现吗?美国能源部劳伦斯伯克利国家实验室的研究人员表明,没有材料科学培训的算法可以扫描数百万篇论文的文本并发现新的科学知识。

由伯克利实验室能源存储和分布式资源部门的科学家Anubhav Jain领导的团队收集了330万份已发表的材料科学论文摘要,并将其输入一个名为Word2vec的算法中。通过分析单词之间的关系,该算法能够提前几年预测新热电材料的发现,并建议尚未知的材料作为热电材料的候选材料。

“没有告诉任何有关材料科学的知识,它就学会了周期表和金属晶体结构等概念,”Jain说。“这暗示了这项技术的潜力。但也许我们发现的最有趣的事情是,你可以使用这种算法来解决材料研究中的差距,这是人们应该研究但到目前为止还没有研究过的东西。“

该研究结果发表在7月3日的“自然”杂志上。该研究的主要作者,“无监督的词汇嵌入材料科学文献中捕获潜在知识”,现为伯克利实验室博士后研究员Vahe Tshitoyan,现在在谷歌工作。与Jain一起,伯克利实验室的科学家Kristin Persson和Gerbrand Ceder帮助领导了这项研究。

“该文件确定科学文献的文本挖掘可以发现隐藏的知识,纯文本提取可以建立基本的科学知识,”Ceder说,他还在加州大学伯克利分校的材料科学与工程系任命。

Tshitoyan表示,该项目的动机是难以理解大量已发表的研究。“在每个研究领域都有100年的研究文献,每周都有数十项研究出现,”他说。“研究人员只能访问其中的一小部分。我们认为,机器学习可以做一些事情,以无人监督的方式利用所有这些集体知识 - 不需要人类研究人员的指导吗?“

“国王 - 女王+男人=?”

该团队从1922年至2018年间在1000多种期刊上发表的论文中收集了330万篇摘要.Word2vec在这些摘要中采用了大约500,000个不同的单词,并将每个单词转换为200维向量,或200个数字的数组。

“重要的不是每个数字,而是用数字来看看单词是如何相互关联的,”Jain说道,他领导一个小组,致力于发现和设计能源应用的新材料,使用理论,计算和数据挖掘。“例如,您可以使用标准矢量数学减去矢量。其他研究人员已经表明,如果你在非科学文本资源上训练算法并采用“王减女王”产生的矢量,你会得到与“男人减去女人”相同的结果。它没有你告诉任何事情就找出了关系。“

类似地,当在材料科学文本上进行训练时,该算法能够简单地基于摘要中的单词的位置以及它们与其他单词的共现来学习科学术语和概念的含义,例如金属的晶体结构。例如,正如它可以解决方程“王 - 王后+人”,它可以找出对于“铁磁 - 镍铁+ IrMn”等式,答案将是“反铁磁性”。

当每个化学元素的向量投影到两个维度时,Word2vec甚至能够学习元素周期表中元素之间的关系。

提前几年预测发现

因此,如果Word2vec如此智能,它能预测新型热电材料吗?良好的热电材料可以有效地将热量转换为电能,并且由安全,丰富且易于生产的材料制成。

伯克利实验室团队采用了该算法建议的顶级热电候选者,该算法根据其单词矢量与“热电”一词的相似性对每个化合物进行排序。然后,他们进行计算以验证算法的预测。

在前10个预测中,他们发现所有计算的功率因数略高于已知热电的平均值; 前三位候选者的功率因数高于已知热电材料的第95百分位数。

接下来,他们测试了算法是否可以“过去”进行实验,只给出2000年的摘要。同样,在最高预测中,后来的研究中出现了大量的数据 - 比材料多四倍刚刚被随机选中。例如,使用截至2008年的数据训练的前五个预测中的三个已被发现,其余两个包含稀有或有毒元素。

结果令人惊讶。“老实说,我没想到算法能够如此预测未来的结果,”Jain说。“我原本以为这个算法可能描述了人们以前做过的事情,但没有提出这些不同的联系。当我不仅看到预测而且看到预测背后的推理时,我感到非常惊讶,例如半赫斯勒结构,这是一种非常热的电热晶体结构。“

他补充说:“这项研究表明,如果这个算法早些时候到位,可以想象一些材料可以提前几年被发现。”随着研究,研究人员正在发布该算法预测的前50种热电材料。如果他们想要搜索更好的拓扑绝缘体材料,他们还将发布人们制作自己应用所需的嵌入词。

接下来,Jain表示,该团队正在开发一个更智能,更强大的搜索引擎,允许研究人员以更有用的方式搜索摘要。