资讯专栏INFORMATION COLUMN

从贝叶斯角度,看深度学习的属性和改进方法

elliott_hu / 3261人阅读

摘要:而从贝叶斯概率视角描述深度学习会产生很多优势,即具体从统计的解释和属性,从对优化和超参数调整更有效的算法,以及预测性能的解释这几个方面进一步阐述。贝叶斯层级模型和深度学习有很多相似的优势。

论文地址:https://arxiv.org/abs/1706.00473

深度学习是一种为非线性高维数据进行降维和预测的机器学习方法。而从贝叶斯概率视角描述深度学习会产生很多优势,即具体从统计的解释和属性,从对优化和超参数调整更有效的算法,以及预测性能的解释这几个方面进一步阐述。同时,传统的高维统计技术:主成分分析法(PCA)、偏最小二乘法(PLS)、降秩回归(RRR)、投影寻踪回归(PPR)等方法将在浅层学习器(shallow learner)那一部分展示。这些传统降维方法的深度学习形式可以利用多层数据降维而令性能达到一个较大提升。随机梯度下降(SGD)通过训练、优化和 Dropout(DO)能选择模型和变量。贝叶斯正则化(Bayesian regularization)是寻找最优网络和提供最优偏差-方差权衡框架以实现良好样本性能的核心。我们还讨论了高维中构建良好的贝叶斯预测因子。为了证明我们的方法,我们对 Airbnb 首次国际预订的样本进行了分析。最后,我们讨论了该研究未来的方向。

1 引言

深度学习(DL)是一种使用分层隐含变量的机器学习方法。深度学习可以看作为一个概率模型,其中条件均值指定为广义线性模型的堆叠(sGLM)。

深度学习是一个非线性高维数据降维的方案,其理论基础来源于 Kolmogorov 将多元反应曲面(multivariate response surfaces)表征为单变量半仿射函数的叠加。深度学习自然上更是一种算法而不是概率模型,因此我们希望通过提供一个深度学习范式的贝叶斯视角来促进一些方面的理解与研究,如更快的随机算法、优化的调参方法和可解释性模型等方面。

从经验上来说,深度学习的改进主要来自三个部分:

新的激活函数,比如使用 ReLU 替代历来使用的 Sigmoid 函数

架构的深度和采用 dropout 作为变量选择技术

常规训练和评价模型的计算效率由于图形处理单元(GPU)和张量处理单元(TPU)的使用而大大加速

1.1 深度学习

机器学习在给定一个高维输入 X 的情况下训练一个得到输出 Y 的预测器。因此,一个学习器就是一种输入和输出之间的映射。其中输出 Y = F (X),而输入空间 X 是一种高维空间,即我们可以表示为:

因此,给定一定层级数量 L,我们的深度预测器就成为了复合映射:

简而言之,一个高维映射 F 可以通过单变量半仿射函数的叠加来建模。类似于经典的基础分解(basis decomposition),该深度方法使用单变量激活函数分解高维输入矩阵 X。为了选择隐藏单元(也称神经元)的数量 Nl,在每一层我们都会使用 dropout。偏置向量是必不可少的,例如我们使用不带常数项的 b 的函数 f (x) = sin(x) 甚至都不能逼近拟合像 cos(x) 那样的函数,而一个偏置项(即 sin(x + π/2) = cos(x))就很容易解决这样的问题。

现在定义 Z (l) 指代第 l 层神经网络,所以输入向量 X 就可以表示为 Z(0)。最终的输出是 Y,其可以是数值型(numeric)或分类型(categorical)。因此,深度预测规则就可以表达为:

其中,图 1 展示了深度神经网络常用的架构,即前馈网络、自编码器、卷积网络、循环网络、长短期记忆和神经图灵机。一旦系统训练得出了一个高阶非零权重矩阵,其中就暗含了一个神经网络结构。

图 1:深度学习最常见的建模架构

2 深度概率学习

2.1 对于模型和变量选择的 Dropout 

Dropout 是一种模型选择技术,其旨在避免在训练过程中出现过拟合现象,Dropout 的基本做法是在给定概率 p 的情况下随机移除输入数据 X 的维度。因此,探讨一下其如何影响潜在损失函数和最优化问题是有启发性的。

2.2 浅层学习器

几乎所有的浅层数据降维技术都可以视为由低维辅助变量 Z 和合成函数指定的预测规则所组成:

3 寻找好的贝叶斯预测器

图 2:树型核函数和随机森林核函数

图 3:50 维度的球体(50-dimensional ball)和蒙特卡罗抽样结果的二维图像

图 4:Y ~ U(Bp) 的边缘分布直方图,其中 p 为不同的维度数量。

图 5:由带有 ReLU 激活函数的三个神经元所定义的超平面。

图 6:由树型架构(顶行)和深度学习架构(底行)对三个不同数据集做所得的空间划分结果

4 算法问题

4.1 随机梯度下降


4.2 学习浅层预测器

传统的因子模型(factor model)才用 K 个隐藏因子 {F1 , F2 ,..., Fk } 的线性组合:

其中 l 等于 1 或 2,即可用 L1 范数或 L2 范数。现在我们最小化重构误差(即精度)并加上正则化罚项以控制其他样本预测的方差-偏差均衡。现有很多算法可以高效地解决这类问题,比如说如果采用 L2 范数和高效的激活函数就能将模型表征为神经网络模型。

5 应用:预测 Airbnb 预订

为了阐释这种深度学习范式,我们使用了一个由 Airbnb 提供给 Kaggle 比赛的数据集来进行我们的实验分析。实验目标是构建一个预测模型,使之能够预测一个新用户将会在哪个国家进行他或她的首次预订。

图 11:深度学习模型的预测准确度。(a) 给出了当仅使用预测的目的地时的预测准确度;(b) 给出了当预测国家是被预测列表中的前两位时,正确预测所占的正确比例;(c) 给出了当预测国家是被预测列表中的前三位时,正确预测所占的正确比例

图 12:由 XGBoost 模型识别出的 15 个最重要的特征

6 讨论

深度学习可被视为高维非线性数据降维方案。而基于深度学习的贝叶斯概率模型是一种叠加的广义线性模型(GLM)。因此,其成功地阐明了使用 SGD 训练深度架构,但同时 SGD 又是一种一阶梯度方法,所以寻找到的后验模式仍然是很高维度的空间。通过采用预测性的方法(其中正则化起到了很大的作用),深度学习取得了成功。

下面展示了许多贝叶斯深度学习以后可能会应用的领域:

通过将深度学习概率性地看作有 GLM 叠加的模型,我们打开了许多统计模型的思路,包括指数簇模型(exponential family model)和异方差误差(heteroscedastic errors)等。

贝叶斯层级模型和深度学习有很多相似的优势。贝叶斯层级模型包括额外的随机层,因此也提供额外的可解释性和灵活性。

另一个途径是组合近端算法(combining proximal algorithms)和 MCMC。

通过链式法则(即反向传播算法)可以很容易获得梯度信息,如今有很好的随机方法拟合现存的神经网络,如 MCMC、HMC、近端方法和 ADMM,它们都能大大减少深度学习的训练时间。

超参数调节

相比于传统贝叶斯非参数方法,在贝叶斯非参数方法中使用超平面应该产生良好的预测器。

深度学习在计算机软件有很好的应用,其可以用于贝叶斯计算(纯 MCMC 模型计算太慢)。

用于调整超参数和最优化有更好的贝叶斯算法。Langevin diffusion MCMC 、proximal MCMC 和哈密顿蒙特卡罗方法(HMC)可像 Hessian 信息那样用导数表示。

我们不会搜索整个价值矩阵而希望得到均方误差,但我们可以对这些参数进一步添加正则项罚项,并将其整合到算法中。MCMC 方法在过去 30 年中有很大的发展,在给定高性能计算下,我们现在可以在大数据集上实现高维后验推断,贝叶斯推断现在也有同样的优势。此外,我们认为深度学习模型在很多应用场景下有很大的潜力。例如在金融中,深度学习是一种非线性因子模型,每一层捕捉不同的时间尺度效应(time scale effects),时空数据(spatio-temporal data)也可以视为在空间—时间上的图像,深度学习就提供了一种用于恢复非线性复杂关系的模式匹配技术。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4574.html

相关文章

  • 贪心学院-图神经网络高级训练营

    摘要:百度网盘提取码最近一直关注贪心学院的机器学习训练营,发现这门课讲的很有深度,不仅适合职场也适合科研人员,加入行业拿到高薪仅仅是职业生涯的开始。 ​​百度网盘​​提取码:u6C4最近一直关注贪心学院的机器学习训练营,发现这门课讲的很有深度,不仅适合职场也适合科研人员,加入AI行业拿到高薪仅仅是职业生涯的开始。现阶段AI人才结...

    番茄西红柿 评论0 收藏2637
  • DeepMind、MIT等27位重磅论文,图网络让深度学习也能因果推理

    摘要:康纳尔大学数学博士博士后则认为,图神经网络可能解决图灵奖得主指出的深度学习无法做因果推理的核心问题。图灵奖得主深度学习的因果推理之殇年初,承接有关深度学习炼金术的辩论,深度学习又迎来了一位重要的批评者。 作为行业的标杆,DeepMind的动向一直是AI业界关注的热点。最近,这家世界最较高级的AI实验室似乎是把他们的重点放在了探索关系上面,6月份以来,接连发布了好几篇带关系的论文,比如:关系归...

    Wuv1Up 评论0 收藏0
  • 深度学习模型超参数搜索实用指南

    摘要:近日,发表了一篇文章,详细讨论了为深度学习模型寻找较佳超参数集的有效策略。要知道,与机器学习模型不同,深度学习模型里面充满了各种超参数。此外,在半自动全自动深度学习过程中,超参数搜索也是的一个非常重要的阶段。 在文章开始之前,我想问你一个问题:你已经厌倦了小心翼翼地照看你的深度学习模型吗?如果是的话,那你就来对地方了。近日,FloydHub Blog发表了一篇文章,详细讨论了为深度学习模型寻...

    nicercode 评论0 收藏0
  • 机器学习-积累与发现继续

    摘要:一机器学习基础概率论数据挖掘中所需的概率论与数理统计知识理解与之间的权衡是不同训练模型之间的差别,好比之中,如果不同模型之间差别很大大,也就是说他们都和自己的训练集与其他训练集不接近,所以,不同模型之间很大他们就都不是而如果很大,不用 一、机器学习 基础 概率论-wiki 数据挖掘中所需的概率论与数理统计知识 理解 Bias 与 Variance 之间的权衡//var是不同训练模型之间...

    vvpvvp 评论0 收藏0
  • 机器学习算法基础(使用Python代码)

    摘要:机器学习算法类型从广义上讲,有种类型的机器学习算法。强化学习的例子马尔可夫决策过程常用机器学习算法列表以下是常用机器学习算法的列表。我提供了对各种机器学习算法的高级理解以及运行它们的代码。决策树是一种监督学习算法,主要用于分类问题。 showImg(https://segmentfault.com/img/remote/1460000019086462); 介绍 谷歌的自动驾驶汽车和机...

    BenCHou 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<