首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

高胜山发布于2019-04-25 18:08 / 3568人阅读

摘要：得到的结果如下上图是门卷积神经网络模型与和模型在数据集基准上进行测试的结果。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络，尤其是的全面超越，但是，现在谈取代还为时尚早。

语言模型对于语音识别系统来说，是一个关键的组成部分，在机器翻译中也是如此。近年来，神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题，使得模型很难表征大型的文本，以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法，来解决这一难题。目前，语言建模的较好表现是基于长短记忆网络（LSTM，1997年由Hochreiter和Schmidhuber提出）的，它能对潜在的任意长期依存进行建模。

算法模型的突破意义在哪

Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用，是学术和产业都十分关注的技术，现在忽然出现了一种比它更好的模型，AI 圈内人士怎么看？

美国卡内基梅隆计算机系博士邓侃对新智元说：“这是 LSTM 的改进版，性能有所提高，但是方法论仍然沿用了 LSTM 的既有框架，并没有本质突破。”

国内语音技术专家贾磊也与新智元分享了他的观点。他说：“CNN有一个优点，就是通过共享权重由局部到整体，实现对输入‘whole picture’ 的建模；而LSTM是通过逐帧递推的方式来建模整体，而递推过程中引入“门机制”进行信息选择。”

他解释说：“通俗一点说，CNN更像视觉，天然具有二维整体性；而LSTM更像听觉和语音，总是通过串行的方式来理解整体。Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题，是对传统cnn技术很大的丰富和完善，文章具有很高的理论价值和实践意义。但是到目前为止，CNN是否会取代LSTM，即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM，形式还并不明朗。特别在一些高时效性的语音识别和语音交互问题上，由于严格的时效要求，LSTM这种随着时间的延展，逐步递推，逐渐遍及信号全貌的技术，还是有一定速度优势的。”

模型详情

图：用于语言建模的门卷积网络架构

统计学意义的语言模型评估的是词语序列的概率分布。这导致了倾向于根据正在处理的词语对下一个词语出现的概率进行建模的方法。目前，语言建模的主要方法都是基于递归神经网络的。Facebook AI 研究院提出了一个卷积的方法，来为语言建模。他们引入了一个新的门机制（gating mechanism），能够释放梯度传播，同时比Oord 等人在2016年提出的 LSTM 风格的 gating 性能上要好很多，并且还更加简单。

门（gating）机制控制着神经网络中的信息流动，在1997年时就被 Schmidhuber等人证明在递归神经网络中非常有用。LSTM通过一个由输入控制的多带带单元（cell）和forget gates来激活长期记忆，这能让信息在多个时间点可以无阻碍地流动。如果没有这些门的存在，信息在每一个时间点上的变化可能会导致消失的情况。相反地，卷积神经网络并不会存在梯度消失的问题，在实验中，我们发现，他们并不要求有forget gates。

在论文摘要中，他们写道：“在WikiText-103上，我们创造了新的记录。同时，在谷歌 Billion Word 基准上，我们也获得了单个 GPU 的较佳表现。在设置中，延迟非常重要，比起递归机制的基线，我们的模型获得了一个维度的加速，因为计算能够多次并行运行。据我们所知，这是此类的任务中，一个非递归性的方法首次在性能上超越了向来强大的递归模型。”

测试结果

研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word（GBW）进行测试，并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下：

上图是门卷积神经网络（GCNN）模型与LSTM和RNN 模型在 Billion Word（GBW）数据集基准上进行测试的结果。在单个GPU的情况下，GCNN的性能做到了较好。并且，据Facebook 研究者在论文中介绍，他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元，LSTM每层拥有1024个单元。在与多GPU 进行对比时，只有超大型LSTM模型在性能上比GCNN好。但是，超大型LSTM -2048 （代表层数）使用了32个GPU，训练时间为3周，GCNN只使用1个GPU，训练时间1周。

另一个横向对比是在WikiText-103 上进行的，这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符（tokens），另外，数据库中还包含了20万个单词的词汇表。

在这个数据集进行测试时，输入的序列是一篇完整的Wikipedia 文章，而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。

上图是WikiText-103（左）和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到，门线性单元（GLU,图中红线）在实现向更低的复杂性转换的过程是最快的。

被超越的 LSTM

LSTM 和递归神经网络能捕捉长期的依存性，在被提出后便以席卷之势迅速成为自然语言处理的奠基石。LSTM可以记忆不定时间长度的数值，区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。

LSTM 模型的基本架构，其中中间四个相互交互的层，是整个模型的核心

此外，由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解（NLU）上有着重要作用。

LSTM 目前在行业内有着广泛的应用，范围包括但不限于：不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别，2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。

研究者的自我评价

在论文的最后，研究者总结说，我们（Facebook）发布了一个卷积的神经网络，使用一个新的门机制来为语言建模。与递归神经网络相比，我们的方法建立了一个输入词语的层级表征，让它可以更好地捕获长距离的依存性（dependencies），这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层，并且是非线性的，这种相似的属性够产生学习。这和递归神经网不同，递归神经网络中，处理步骤的数量根据词在输入中的位置会有所不同。

结果显示，我们的门卷积神经网络在WikiText-103 上打破了记录，在更大型的谷歌Billion Word 基准中，单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。

不谈取代，我们谈谈优化

正如上文中专家的分析，在语言建模上，现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络，尤其是LSTM的全面超越，但是，现在谈取代还为时尚早。

算法模型的演进是不断优化的渐进过程，Facebook带来了一种新的思路，并且在研究中进行了验证，究其意义，正如作者在论文中介绍的那样：一个非递归性的方法首次在性能上超越了向来强大的递归模型。但是，算法模型到底只是工具，并不存在真正的“取代”之争。对于实际应用来说，还是要看效果。该模型对于整个产业应用的意义，目前来看还有待验证，毕竟LSTM现在已经得到了广泛的应用，并且效果还不错。

论文地址：https://arxiv.org/pdf/1612.08083v1.pdf

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器网络模型社交网络模型神经网络模型模型网络交换机

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4451.html

从图像到知识：深度神经网络实现图像理解的原理解析

摘要：本文将详细解析深度神经网络识别图形图像的基本原理。卷积神经网络与图像理解卷积神经网络通常被用来张量形式的输入，例如一张彩色图象对应三个二维矩阵，分别表示在三个颜色通道的像素强度。本文将详细解析深度神经网络识别图形图像的基本原理。针对卷积神经网络，本文将详细探讨网络中每一层在图像识别中的原理和作用，例如卷积层(convolutional layer)，采样层(pooling layer)，...

UnixAgain 2019-04-25 18:03 评论0 收藏0
将CNN与RNN组合使用

摘要：但是，有一些研究人员在同一个深度神经网络中巧妙地实现了二者能力的结合。一次读取并解释输入文本中的一个字或字符图像，因此深度神经网络必须等待直到当前字的处理完成，才能去处理下一个字。从有一些有趣的用例看，我们似乎完全可以将 CNN 和 RNN/LSTM 结合使用。许多研究者目前正致力于此项研究。但是，CNN 的研究进展趋势可能会令这一想法不合时宜。一些事情正如水与油一样，看上去无法结合在一起...

FuisonDesign 2019-04-25 18:30 评论0 收藏0
该放弃正在堕落的“RNN和LSTM”了

摘要：通过两年的发展，今天我们可以肯定地说放弃你的和有证据表明，谷歌，，等企业正在越来越多地使用基于注意力模型的网络。摘要：随着技术的发展，作者觉得是时候放弃LSTM和RNN了！到底为什么呢？来看看吧～ showImg(https://segmentfault.com/img/bV8ZS0?w=800&h=533); 递归神经网络（RNN），长期短期记忆（LSTM）及其所有变体：现在是...

Zoom 2019-06-26 18:25 评论0 收藏0
深度学习-LeCun、Bengio和Hinton的联合综述（下）

摘要：接上文深度学习和的联合综述上卷积神经网络卷积神经网络被设计用来处理到多维数组数据的，比如一个有个包含了像素值图像组合成的一个具有个颜色通道的彩色图像。近年来，卷积神经网络的一个重大成功应用是人脸识别。三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度学习领域的地位无人不知。为纪念人工智能提出60周年，的《Nature》杂志专门开辟了一个人工智能 +...

xorpay 2019-04-25 17:59 评论0 收藏0
达观数据特聘专家复旦大学黄萱菁教授带你了解自然语言理解中的表示学习

摘要：表示学习和深度学习的兴起是密切相关。自然语言处理中的深度学习在自然语言的表示学习中提及深度学习这是因为深度学习首要的用处就是进行自然语言的表示。图是深度学习在自然语言理解中应用描述。本文根据达观数据特聘专家复旦大学黄萱菁教授在达观数据举办的长三角人工智能应用创新张江峰会上的演讲整理而成，达观数据副总裁魏芳博士统稿一、概念 1 什么是自然语言和自然语言理解？自然语言是指汉语、英语、...

Rocture 2019-06-26 18:39 评论0 收藏0