环球门户网

脸书的人工智能无需额外训练就能加速自然语言处理

更新时间:2021-12-09 12:03:03

导读 自然语言模型通常必须解决两个问题:将句子前缀映射到固定大小的表示,并使用这些表示来预测文本中的下一个单词。在最近的一篇论文中,脸书

自然语言模型通常必须解决两个问题:将句子前缀映射到固定大小的表示,并使用这些表示来预测文本中的下一个单词。在最近的一篇论文中,脸书人工智能研究所的研究人员断言,第一个问题——映射问题——可能比预测问题更容易,这是他们基于“最近邻”检索机制扩展语言模型的假设。他们说,人工智能可以记住罕见的模式,并获得最新的复杂性分数(测量词汇和语法多样性),而无需额外的训练。

正如研究人员所解释的,语言模型为单词序列分配概率,这样它们就可以根据标签(如单词)的上下文序列来估计目标标签的分布(不同可能结果的概率)。该方法将上下文映射到由预先训练的语言模型计算的固定长度的数学表示。给定一个训练示例,定义一个键值对,其中键是上下文的数学表示,值是目标单词。

在测试过程中,kNN-LM获取输入上下文,并根据以下单词和上下文表示生成输出分布。它根据距离函数检索最近的邻居。此时,它会计算邻居的分布,并总结每个词汇项出现在检索到的目标中的所有概率。

研究人员指出,kNN-LM兼容任何产生固定大小上下文表示的语言模型。在这项研究中,这使我们能够在由基于维基百科文章的3亿个令牌组成的数据集上训练基于Transformer的模型,其中25万个令牌保留用于开发和测试。

实验中,kNN-LM显著优于测试中的基线,团队将其归因于其依赖于内隐相似性概念的语境表征功能。KNN-LM增加了一些计算开销——在单个处理器上缓存3亿个条目大约需要两个小时,而运行验证集大约需要25分钟。但该团队指出,并行化模型“简单”,不需要基于GPU的训练。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。