资讯专栏INFORMATION COLUMN

关于Resnet残差网络的一些理解

antyiwei / 1984人阅读

摘要:在当前的背景下,卷积神经网络提出之后,深度成为人们要追求的目标。同时,残差网络也很好的解决了梯度下降中的梯度弥散的问题。经典网络目前最主经典的残差网络莫过于。

注:整理自各个博客,并且添加个人理解
随着卷积神经网络的发展和普及,网络深度和架构研究早已经成为人们常见的问题,所以,现在卷积神经网络的趋势发展趋势就是:足够深、足够广。足够深就是网络层数足够深,足够广就意味着不能从传统尺度来解决问题,而应该是多尺度,也就是multi-scale。
但是随着网络的深入,一些经典的问题也就随之出现,例如梯度弥散和梯度爆炸。这两种问题都是由于神经网络的特殊结构和特殊求参数方法造成的,也就是链式求导的间接产物。

梯度弥散:当使用反向传播方法计算导数的时候,随着网络的深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧地减小。结果就造成了整体的损失函数相对于最初几层的权重的导数非常小。这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于它们不能够从样本中进行有效的学习。这种问题通常被称为“梯度的弥散”。
梯度爆炸:差梯度在网络训练时被用来得到网络参数更新的方向和幅度,进而在正确的方向上以合适的幅度更新网络参数。在深层网络或递归神经网络中,误差梯度在更新中累积得到一个非常大的梯度,这样的梯度会大幅度更新网络参数,进而导致网络不稳定。在极端情况下,权重的值变得特别大,以至于结果会溢出(NaN值,无穷与非数值)。当梯度爆炸发生时,网络层之间反复乘以大于1.0的梯度值使得梯度值成倍增长。

这两个不良影响也常常困扰着卷积神经网络的设计者和使用者,也成为人们不得不思考的问题。但是所幸的是,一些网络的出现很好的解决了这些问题。最近学习的Resnet就有效的解决了这个问题。
Resnet在2015年提出之后,立马获得了当年的Image图像比赛第一名,并且准确率奇高。

最初Resnet的提出目的并不是为了解决梯度弥散,有效的消除梯度弥散可以说是无心之举。在当前的背景下,卷积神经网络提出之后,深度成为人们要追求的目标。但是随着层数增加,就出现了学习退化的问题。

本来随着网络深度增加准确率越来越好的网络出现了诡异的变化,随着后续的发现,发现问题主要来自于两个,第一个是恒等函数的问题,第二个就是来自于梯度爆炸和梯度弥散的问题。
深层网络应该优于浅层网络,可以说是所有人都认同的的事实,但是随着网络的加深,一些层通常是没有必要出现的,如果训练好参数随着后面的网络扰动,会被类似于白噪音的问题使参数重新偏移变差。因此,人们想到了恒等函数,也就是说,直接在后面几层使得F(x)=x,来进行等效传递。但是问题是,等效传递并不容易,更不用说Sigmoid函数等特殊函数曲线的存在。因此,利用残差块,可以完美的解决这个问题。

对于输出函数变为了H(x),并且H(x)=F(x)+x。此时,为了使得进行恒等变换,只用使F(x)足够小就可以了,此时,输出也就近似变成了H(x)=x。也就是说,假如优化目标函数是逼近一个恒等映射, 而不是0映射,那么学习找到对恒等映射的扰动会比重新学习一个映射函数要容易。
同时,残差网络也很好的解决了梯度下降中的梯度弥散的问题。当我们进行链式求导,来求得某个参数的偏导数的时候,在深层网络总会遇到偏导结果较小,从而导致参数更新过小的情况。
例如:

当网络足够深的时候,会出一下Loss函数:

从而使得偏导结果:

非常小,相当于原地踏步。因此,当进行残差块的增添之后,偏导结果如下所示:


此时,就不用再担心梯度下降的相关问题。并且与此同时,函数的拟合F(x)=0会比F(x)=x更加容易,后者对参数的变化会更加敏感。总的来说,残差学习再浅层的时候,学习是线性叠加,到深层后,F(x)会趋于零,从而使得残差块编程恒等映射,从而避免层数增加影响学习结果的情况。

经典Resnet网络

目前最主经典的残差网络莫过于Resnet v2。由于ResNet的结构有别于传统的卷积结构,使得信号的前向传播和梯度的反向传播变得更复杂。为了稳定训练时信号的前向传播和梯度的反向传播,从ResNet开始,网络普遍使用Batch Normalization,因此,Resnet v2也采用了BN算法。
BN算法:我们在训练深度学习模型的时候,经常会采用随机梯度下降的方式,每次随机选取训练数据中的一个小部分进行求训练模型,经过多步迭代后会逐渐手链,模型的loss会逐渐趋于稳定,但由于只是一部分数据进行训练,还是会有一定起伏,一般训练误差如下图所示。

随着神经网络的深度增加,也会出现梯度扩散和梯度爆炸的问题。

这里简单解释一下梯度扩散和梯度爆炸,随着神经网络深度增加,每层计算误差都会逐步缩小,这个主要跟我们选的激活函数有关,链式法则相乘之后,输出层的很大的误差,对前几层带来的影响会变得非常小,此时前几层的梯度修正会非常小,梯度会趋于零,使得训练无效,这就是梯度消失gradient vanish,相反的则是梯度爆炸gradient explode。

改变激活函数,比如说ReLu可以较好地避免梯度的问题,而这两篇作者提出的batch normalization也可以解决这个问题。

BN的主要思想就是对每层输入数据做标准化,使其以较小的方差集中在均值附近,具体方法如下图:

在正向传播的时候对输入数据进行标准化,求随机梯度下降的一个batch进行正规化可以大大减小计算量,同时作者为了避免数据整体影响,在最后还进行了一个规模和位置的线性转换,用以尽量保留原数据的方差与均值信息。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19718.html

相关文章

  • 一文简述ResNet及其多种变体

    摘要:一个简单的解释是,在论文和论文中,恒等映射的输出被添加到下一个模块,如果两个层的特征映射有着非常不同的分布,那么这可能会阻碍信息流。 在 AlexNet [1] 取得 LSVRC 2012 分类竞赛冠军之后,深度残差网络(Residual Network, 下文简写为 ResNet)[2] 可以说是过去几年中计算机视觉和深度学习领域最具开创性的工作。ResNet 使训练数百甚至数千层成为可能...

    suemi 评论0 收藏0
  • [ResNet系] 006 DPN

    摘要:和是两个非常重要的网络,它们显示了深层卷积神经网络的能力,并且指出使用极小的卷积核可以提高神经网络的学习能力。也有工作考察与的关系,与其相似,本文考察了与的关系。与的网络架构配置以及复杂度见表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

    plus2047 评论0 收藏0
  • 经典ResNet结果不能复现?何恺明回应:它经受住了时间考验

    摘要:大神何恺明受到了质疑。今天,上一位用户对何恺明的提出质疑,他认为何恺明年的原始残差网络的结果没有被复现,甚至何恺明本人也没有。我认为,的可复现性经受住了时间的考验。 大神何恺明受到了质疑。今天,Reddit 上一位用户对何恺明的ResNet提出质疑,他认为:何恺明 2015 年的原始残差网络的结果没有被复现,甚至何恺明本人也没有。网友称,他没有发现任何一篇论文复现了原始 ResNet 网络的...

    Ilikewhite 评论0 收藏0
  • [ResNet系] 004 WRN

    摘要:显示了残差连接可以加速深层网络的收敛速度,考察了残差网络中激活函数的位置顺序,显示了恒等映射在残差网络中的重要性,并且利用新的架构可以训练极深层的网络。包含恒等映射的残差有助于训练极深层网络,但同时也是残差网络的一个缺点。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe实现:https://github...

    hankkin 评论0 收藏0

发表评论

0条评论

antyiwei

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<