微软训练了世界上最大的转换器语言模型

微软AI&;Research今天分享了它所称的最大的基于变压器的语言生成模型,并开放了一个名为DeepSpeed的深度学习库,使大型模型的分布式培训更容易。

在170亿个参数下,图灵NLG的大小是Nvidia的威震天的两倍,现在是第二大变压器模型,包含的参数是OpenAI的GPT-2的10倍。 图灵NLG在一系列NLP任务上取得了最先进的结果..

就像谷歌的Meena和GPT-2,最初图灵NLG可能只在私人演示中共享。

带有Transformer体系结构的语言生成模型预测下一个单词。 它们可以用来写故事,用完整的句子生成答案,总结课文。

来自AI领域的专家告诉Venture Beat2019是NLP模型使用变压器架构的开创性年份,这种方法导致了语言生成和GLUE基准领导者的进步,如Face book的RoBerta、Google的XLNet和微软的MT-DNN。

同样在今天:微软开源的深度速度,一个深度学习库,优化为开发人员提供低延迟,高通量推理。

深速度包含零冗余优化器(ZeRO),用于规模上具有1亿个或更多参数的训练模型,这是微软用来训练图灵NLG的。

微软A I研究应用科学家Corby Rosset今天在一篇博客文章中写道:“除了通过总结文档和电子邮件来节省用户时间外,T-NLG还可以通过向作者提供写作帮助和回答读者可能询问的问题来增强微软Office套件的体验。

深度速度和ZeRO都提供给开发人员和机器学习实践者,因为培训像那些使用变压器架构的大型网络可能是昂贵的,并且可能会遇到规模上的问题。

在其他自然语言AI新闻中,谷歌的“深度思维”今天发布了压缩变压器远程记忆模型和PG19,这是分析图书长度语言生成性能的基准。