资讯专栏INFORMATION COLUMN

lr 学习

huhud / 3032人阅读

摘要:牛顿法先说一句牛顿法一定比梯度下降快么是的因为二阶导数的相比一阶导数收敛的更快在点上进行二阶泰勒展开是的一阶导数。这里要收敛需要对进行求导。这里的就是矩阵共轭梯度法是三个哥们三位牛人。的思想是用近似的正定矩阵来模拟矩阵。

lr 学习 基本推导

这个很多地方都有....

梯度下降

梯度下降是利用了一阶导数的信息来加速收敛. 一阶导数,线性速度.

公式
$$
f(X_k + ad) = f(X_k) + ag_k^Td+ o(a) tag{1}
$$
这里解释下 $X_k$ 代表一个自变量, $a$ 代表你步长(实数), d是单位向量(|1|), $g_k^T = nabla f(X_k)$是在$X_k$这一点的梯度.$o(a)$是a的高阶无穷小. 参考下泰勒公式:
$$
f(x+h) = f(x) + f"(x)*h + o(h)
$$
是一样的.

要使(1)式收敛这里需要对,相当于$g^Td$ 取最小,也就是二者正交。

牛顿法

先说一句,牛顿法一定比梯度下降快么?

是的,因为二阶导数的相比一阶导数收敛的更快.

在$X_k$ 点上进行二阶泰勒展开:
$$
r_k(X)=f(X_k) + g_k^T(X-X_k) +1/2(X-X_k)^TG_k(X-X_k) tag{2}
$$
$g_k^T$是$f(x)$的一阶导数。$G_k=nabla^2 f(X_k)$ 是二阶导数。

这里要(2)收敛需要对进行求导。
$$
nabla r_k(X) = g_k + G_k(X-X_k) tag{3}
$$
$f(X_k)$ 常数。$g_K^T(X-X_k)$ 求导用乘法法则得到(3)。这里要(3)等于0.当$G_k$的逆矩阵存在,也即$G_k$为非奇异矩阵的时候则有:
$$
G_k^{-1}g_k + X-X_k=0 Rightarrow
X=X_k-G_k^{-1}g_k = X_k+d
$$
可得 $-G_k^{-1}g_k=d Rightarrow G_k d=-g_k$ 这里转换成这种形式主要是不知道$G_k^{-1}$是多少,所以需要去解后面这个方程,而这个过程其实和秋逆的过程差不多。这里的 $G_k$ 就是hesse 矩阵

共轭梯度法 bfp

BFP 是三个哥们(Davidon、Fletcher、Powell三位牛人)。BFP 的思想是用近似的正定矩阵来模拟 hesse矩阵。

bfgs

$$
min_{x in R^n }
$$

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18161.html

相关文章

  • [笔记]effective backprop

    摘要:不过对称函数的一个问题是在输入很小的时候,函数输出接近,接近此时可能无法前进。所以,可以选择这个函数它在取的点上,正好是二阶导数的极值点。所以说它是对二阶导数的近似。 翻译自effective backprop, Yann LeCun stochastic vs batch learning stochastic learning的优势 通常比batch更快。因为在训练数据中,可能有...

    sumory 评论0 收藏0
  • 如何将深度学习训练速度提升一百倍?PAISoar 来了

    摘要:概述近几年来深度学习发展迅速,图像处理语音识别等领域都取得了飞速发展。性能指标基于,深度神经网络模型的分布式训练性能提升明显。技术对于许多在大型数据集上训练的现代深度学习模型来说,基于数据并行的同步分布式训练是最合适的训练方法。 阿里妹导读:得力于数据规模增长、神经网络结构的演进和计算能力的增强,深度学习的图像处理、语音识别等领域取得了飞速发展。随着训练数据规模和模型复杂度的不断增大...

    Harriet666 评论0 收藏0
  • 如何将深度学习训练速度提升一百倍?PAISoar 来了

    摘要:概述近几年来深度学习发展迅速,图像处理语音识别等领域都取得了飞速发展。性能指标基于,深度神经网络模型的分布式训练性能提升明显。技术对于许多在大型数据集上训练的现代深度学习模型来说,基于数据并行的同步分布式训练是最合适的训练方法。 阿里妹导读:得力于数据规模增长、神经网络结构的演进和计算能力的增强,深度学习的图像处理、语音识别等领域取得了飞速发展。随着训练数据规模和模型复杂度的不断增大...

    cpupro 评论0 收藏0
  • 图像超分辨率重建概述

    摘要:多图像超分辨率重建算法根据重建过程所在域不同可分为频域法和空域法。单图像超分辨率单图像超分辨率输入的是一幅图像,仅利用一幅图像来重建得到图像。 1. 概念:         图像分辨率是一组用于评估图像中蕴含细节信息丰富程度的性能参数,包括时间分辨率、空间分辨率及色阶分辨率等,体现了成...

    MonoLog 评论0 收藏0
  • Caffe神经网络solver及其配备详细说明

      文中关键给大家介绍了Caffe神经网络solver及其配备详细说明,感兴趣的小伙伴可以参考借鉴一下,希望可以有一定的帮助,祝愿大家多多的发展,尽早涨薪  前言  solver算是caffe的最核心的关键,它融洽着全部建模运行。caffe程序执行必带的另一个主要参数就是solver环境变量。运行代码一般为  #caffetrain--solver=*_slover.prototxt  在Deep...

    89542767 评论0 收藏0

发表评论

0条评论

huhud

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<