吴恩达机器学习笔记-Logistic回归模型

doodlewind 发布于2019-06-26 16:05 / 1332人阅读

摘要：回归函数在逻辑回归模型中我们不能再像之前的线性回归一样使用相同的代价函数，否则会使得输出的结果图像呈现波浪状，也就是说不再是个凸函数。

回归函数

在逻辑回归模型中我们不能再像之前的线性回归一样使用相同的代价函数，否则会使得输出的结果图像呈现波浪状，也就是说不再是个凸函数。代价函数的表达式之前有表示过,这里我们把1/2放到求和里面来。

$$ J( heta) = frac{1}{m}sum_{i=1}^{m}frac{1}{2}(h_ heta(x^(i))-y^(i))^2 $$

这里的求和部分我们可以表示为：

$$ Cost(h_ heta(x(i)),y) $$

很显然，如果我们把在之前说过的分类问题的假设函数带进去，即$h_ heta(x) = frac{1}{1+e^{-z}}$，得到的结果可能就是上述所说的不断起伏的状况。如果这里使用梯度下降法，不能保证能得到全局收敛的值，这个函数就是所谓的非凸函数。因此我们需要找一个不同的代价函数，并且是个凸函数，使得我们可以使用好的算法并找到全局最小值。这个代价函数如下所示：

我们可以画出$J( heta)$的图像如下所示，分别为当y=1和y=0时的图像：

那根据图像我们可以得出结论：

$$ Cost(h_ heta(x),y) = 0 quad if quad h_ heta(x) = y Cost(h_ heta(x),y) ightarrow infty quad if quad y = 0 quad and quad h_ heta(x) ightarrow 1 Cost(h_ heta(x),y) ightarrow infty quad if quad y = 1 quad and quad h_ heta(x) ightarrow 0 $$

如果y的值为0，则当假设函数输出0时代价函数也为0，如果假设函数趋向于1，则代价函数趋向于无穷大；如果y的值为1，则当假设函数输出1时代价函数为0，如果假设函数趋向于0，则代价函数趋向于无穷大。

上述的代价函数可以简化成如下所示：

$$ Cost(h_ heta(x),y) = -ylog(h_ heta(x)) - (1-y)log(1-h_ heta(x)) $$

若y=1则第二项为0，若y=0则第一项为0，因此此等式和上述的分段描述的函数是等价的。
那么可以写出完整的代价函数：

用向量表示则是：

梯度下降

我们之前有讲过梯度下降算法的概念：

将公式带入进行导数计算后得到：

用向量法表示：

当然要注意这个算法和我们在线性回归中的方法一样，我们需要同步的更新所有的$ heta$的值。

高级优化

换个角度来看梯度下降的话，实际上就是我们有一个代价函数$J( heta)$，我们需要使它最小化。我们要做的就是编写代码来计算输入$ heta$时，得到$J( heta)$和$J( heta)$对$ heta_j$的偏导。梯度下降本质上就是不断重复这个过程来更新参数$ heta$。也就是说梯度下降就是编写代码计算出$J( heta)$和$J( heta)$的偏导带入梯度下降公式中，然后它就可以为我们最小化这个函数。实际上对于梯度下降而言，不是一定要计算出$J( heta)$的值，但如果为了能更好的监控到$J( heta)$的收敛性，需要自己编写代码来计算代价函数和偏导性。
除了梯度下降之外还有一些其他算法来优化代价函数。包括共轭梯度法BFGS和L-BFGS还有Conjugate gradient。这些算法相对梯度下降算法更高级但同时也是更加的复杂。这些算法都暂时不在当前学习的范畴内。不过这里可以简单说一下他们的特性：

不需要手动选择学习速率$alpha$

往往比梯度下降算法要快一点

但相对来说更加的复杂

我们可以通过写一个方法来计算$J( heta)$和$frac{partial}{partial heta_j}J( heta)$的值：

function [jVal, gradient] = costFunction(theta)
    jVal = [...code to compute J(theta)...];
    gradient = [...code to compute derivative of J(theta)...];
end

其中jVal就是我们代价函数的值，第二个就是梯度。下图就是一个简单的例子以及对应的octave的代码：

多类别分类问题

接下来我们来介绍多类别的分类问题，也就是说我们的类别可能不止两种。比如天气可能是晴天、阴天、雨天，或者邮件分类可能包括工作、朋友、垃圾邮件等等。那这个时候的y={0,1}就不再适用了，而是y={0,1,2...,n}。下图中，左边代表的是之前说的二元分类问题的数据集，有两种不同的符号表示；右边的是多类别分类问题，用三种不同的符号表示三个不同的类别中的样本。

我们要做的就是找到合适的算法来进行分类，在二元分类问题中我们知道了通过回归来解决分类问题，利用直线将数据分成正类和负类。利用一对多的思想我们同样可以将其应用在多分类问题上。下图为一个简单的有三种类别的分类问题。

我们可以创建一个新的数据集将类别1当做正类，类别2和3设定为负类，拟合出一个逻辑回归分类器$h^(1)_ heta(x)$。同样的对类别2和类别3也可以拟合出其他逻辑回归分类器$h^(2)_ heta(x)$和$h^(3)_ heta(x)$。总的来说就是$h^(i)_ heta(x) = P(y=i|x; heta) quad (i=1,2,3))$。即给定x和$ heta$时y=i的概率。当输入一个新的x时，我们要做的就是在这三个分类器中输入x，然后选择h最大的类别，即选出三个分类器中可信度最高的一个

以上，为吴恩达机器学习logistic regression章节的内容。

私有云混合云吴恩达 logistic回归 logistic回归代码机器学习回归

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/18456.html

吴恩达机器学习笔记-支持向量机

摘要：现在，我们就开始构建支持向量机。所以学习参数就是支持向量机假设函数的形式。支持向量机会选择图中黑色的这条线来作为决策边界，相对于其他的线来看要更合理些。以上，为吴恩达机器学习第七周支持向量机的课程笔记。优化目标之前的课程有学习过Logistic回归的假设函数： $$ h_ heta(x) = frac{1}{1+e^{- heta^Tx}} $$ 其图像如下： showImg(ht...

desdik 2019-06-26 16:09 评论0 收藏0
分享AI有道干货 | 126 篇 AI 原创文章精选（ML、DL、资源、教程）

摘要：值得一提的是每篇文章都是我用心整理的，编者一贯坚持使用通俗形象的语言给我的读者朋友们讲解机器学习深度学习的各个知识点。今天，红色石头特此将以前所有的原创文章整理出来，组成一个比较合理完整的机器学习深度学习的学习路线图，希望能够帮助到大家。一年多来，公众号【AI有道】已经发布了 140+ 的原创文章了。内容涉及林轩田机器学习课程笔记、吴恩达 deeplearning.ai 课程笔记、机...

jimhs 2019-06-26 18:57 评论0 收藏0
《DeepLearning.ai 深度学习笔记》发布，黄海广博士整理

摘要：在这堂课中，学生将可以学习到深度学习的基础，学会构建神经网络，包括和等。课程中也会有很多实操项目，帮助学生更好地应用自己学到的深度学习技术，解决真实世界问题。深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课。该专项课程最大的特色就是内容全面、通俗易懂并配备了丰富的实战项目。今天，给大家推荐一份关于该专项课程的核心笔记！这份笔记只能用两个字形容：全面！ showImg(...

wenhai.he 2019-06-26 18:56 评论0 收藏0
吴恩达机器学习笔记-过拟合

摘要：线性回归的正则化对于线性回归，我们在之前的内容中有说过两种算法，一种是基于梯度下降，一种是基于正规方程。以上，就是吴恩达机器学习第三周部分的课程笔记。概念假设我们有一组数据集如下图所示： showImg(https://segmentfault.com/img/remote/1460000016306911); 左边的图中，我们假设$y = heta_0 + heta_1x$，...

nicercode 2019-06-26 16:08 评论0 收藏0
吴恩达机器学习笔记-神经网络的代价函数和反向传播算法

摘要：代价函数在神经网络中，我们需要定义一些新的参数来表示代价函数。利用反向传播算法，在忽略正则化项时，我们可以得出。通过反向传播，可以计算出这些项进而计算出所有参数的偏导数项。代价函数在神经网络中，我们需要定义一些新的参数来表示代价函数。 L = total number of layers in the network $s_l$ = number of units (not co...

yeooo 2019-06-26 16:08 评论0 收藏0