联系我们

深度学习

研究人员发现深度学习神经网络中的高效子网

更新

 on

深度学习 神经网络通常规模庞大,需要大量的计算能力,但是一项新发现证明了如何减少这种网络以更有效地完成任务。麻省理工学院的乔纳森·弗兰克勒(Jonathan Frankle)和他的团队提出了“彩票假设”,该假设说明了大型神经网络中如何存在更精简的子网络。这些子网可以用较少的计算能力来更有效地完成手头的任务,其中最大的挑战之一就是找到这些子网,或者赢得团队所指的彩票。

团队发现了BERT内的这些子网 机器学习 技术 自然语言处理 (NLP)。 NLP是人工智能(AI)的一个子领域,负责解密和分析人类语言,并且用于预测文本生成和聊天机器人等应用程序。

但是,BERT很大,并且需要超级计算能力,这对于大多数用户而言是无法访问的。随着这些子网的新发现,它可以打开该访问权限,使更多的用户可以利用该技术来开发NLP工具。

“我们正在达到必须使这些模型更精简,更高效的地步,” Frankle说。

他认为,这一发展可能会为NLP“减少进入壁垒”。

伯特–“过分昂贵”  

伯特 是Google搜索引擎之类的基础知识,自Google于2018年发布以来,便受到了广泛关注。它是一种创建神经网络的方法,并且经过多次尝试以填补空白。 BERT最令人印象深刻的功能之一就是其庞大的初始训练数据集。

然后可以由用户针对特定任务(例如客户服务聊天机器人)对其进行调整,但再次,它需要大量的处理能力,参数可能达到10亿个。

“如今,标准的BERT模型(花园品种)具有3.4亿个参数,” Frankle说。 “这简直太贵了。这远远超出了您或我的计算能力。”

得克萨斯大学奥斯汀分校的主要作者陈天龙表示,像BERT这样的模型“承受着巨大的网络规模”,但是由于这项新研究,“彩票假设似乎是一种解决方案。”

高效子网 

Chen和团队寻找了一个位于BERT内的较小模型,并将发现的子网的性能与原始BERT模型进行了比较。在各种不同的NLP任务上对此进行了测试,包括回答问题和在句子中填充空白词。

团队发现成功的子网比原始的BERT模型瘦了40%至90%,而实际百分比取决于任务。最重要的是,他们可以在特定于任务的微调之前识别它们,从而进一步降低了计算成本。另一个优点是,可以将为特定任务选择的某些子网重新用于其他任务。

弗兰克勒说:“我什至为这项工作感到震惊。” “这不是我想当然的事情。我期待比我们得到的结果更混乱。”

据Facebook AI Research的科学家Ari Morcos称,这一发现是“令人信服的”,“这些模型正变得越来越普遍。因此,重要的是要了解彩票假设是否成立。”

莫尔科斯还表示,如果这些子网可以使用大大减少的计算能力运行,那么“鉴于这些超大型模型当前运行成本非常高,这将非常有影响力。”

“我不知道使用这些超级计算机风格的计算可以得到多大的收益,”弗兰克尔补充道。 “我们将不得不减少准入门槛。”

他总结说:“希望这将降低成本,使每个人都可以使用它,……对于只有笔记本电脑的小家伙来说,”。

这项研究将在 神经信息处理系统会议.