谷歌开放源代码BERT一种最先进的自然语言处理前训练技术

自然语言处理(NLP)-人工智能(A I)的子类，跨越语言翻译、情感分析、语义搜索和几十项其他语言任务-说起来比做起来容易。获取足够大的多种数据集来训练文本解析AI系统对研究人员来说是一个持续的挑战；现代深度学习模型，它模仿人脑中神经元的行为，当对数百万甚至数十亿注释的例子进行训练时，就会。

一个流行的解决方案是预训练，它限制了在未标记文本上训练的通用语言模型来执行特定的任务。谷歌本周公开了其尖端技术——变形金刚双向编码器表示(BERT)——它声称，这使得开发人员能够在30分钟内在一个云T PU（张量处理单元、谷歌的云托管加速器硬件）或在一个图形处理单元上训练一个“最先进的”NLP模型。

该版本可在Github上获得，包括预先训练的语言表示模型（英文）和源代码，这些模型建立在山景公司的TensorFlow机器学习框架之上。此外，在Colab上有一本相应的笔记本，谷歌为AI开发者提供免费的云服务，

正如GoogleAI的研究科学家雅各布·德夫林和明伟昌所解释的那样，BERT是独一无二的，因为它既是双向的，允许它从过去和未来的方向访问上下文，也允许它在无监督的情况下访问上下文，这意味着它可以摄取既不分类也不标记的数据。这与传统的NLP模型(如Word2vec和Glove)相反，它们为词汇表中的每个单词生成一个单一的、无上下文的单词嵌入（一个单词的数学表示）。

Devlin和Chang写道，BERT通过对任何语料库都可以生成的任务进行预训练，学会了模拟句子之间的关系。它建立在Google的变压器上，这是一种基于自注意机制的开源神经网络体系结构，该机制是为NLP优化的。（在去年发表的一篇论文中，谷歌显示，变压器在英、德、英、法翻译基准方面的表现优于常规模型，同时需要较少的计算训练）

当在斯坦福问题回答数据集(SQUAD)上进行测试时，BERT获得了93.2%的准确率，优于以前最先进的和人类水平的分数分别为91.6%和91.2%。在通用语言理解评估(GLUE)基准上，这是一个用于培训和评估NLP系统的资源集合，其准确率达到80.4%。

在BERT发布之前，谷歌的AdaNet是一个开源工具，用于组合机器学习算法以获得更好的预测洞察力，而ActiveQA则是一个研究项目，该项目研究了如何使用强化学习来培训AI代理进行问答。

谷歌开放源代码BERT一种最先进的自然语言处理前训练技术

相关推荐

Cequence应用程序安全平台在2020年SC大奖中获得最佳Web应用程序荣誉

Blackboard Insurance在弗吉尼亚州获得批准

动画人物响亮的房

加利福尼亚州的租金负担能力法案即将举行

DeVry大学生在奥黑尔机场为旅行者创建数字游戏