资讯专栏INFORMATION COLUMN

机器学习(二)-基本概念

ymyang / 1884人阅读

摘要:数据集在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集,验证集和测试集。机器学习与人类学习有了机器学习,我们还需要人为经验的干预吗

1 数据集

在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来调超参数,测试集用来测试模型准确度。

1.1 训练集

训练集用来估计模型;

训练集占总样本的50%

1.2 开发集(验证集)

验证集用来确定网络结构或者控制模型复杂程度的参数

验证集占总样本的25%

1.3 测试集

测试集则检验最终选择最优的模型的性能如何

测试集占总样本的25%

1.4 简单的机器学习流程

2 常用的机器学习算法介绍

分类算法:有监督, 举例:猫狗分类

回归算法:有监督, 举例:房价预测

聚类算法:无监督, 举例:新闻分类

降维算法: 数据处理

模型选择算法: 算法的选择和参数调试所用到的技术

预处理算法: 特征提取和归一化

3 有监督机器学习和无监督机器学习 3.1 有监督机器学习

我们要教会计算机做某些事情

定义:我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案

有监督机器学习例子:分类

3.2 无监督机器学习

让计算机自己去做某些事情

定义: 我们给算法一个数据集,但是不给他正确答案,而让计算机自己去学习

无监督机器学习例子:聚类(预测鸢尾花卉)

Iris(鸢尾花)数据集是多重变量分析的数据集。每行数据包含4个属性:Sepal Length(花萼长度)、Sepal Width(花萼宽度)、Petal Length(花瓣长度)和Petal Width(花瓣宽度)。可通过这4个属性预测鸢尾花卉属于种类(Setosa,Versicolour,Virginica)中的哪一类。具体分为几类, 分析前是不知道的。

4 机器学习与人类学习

有了机器学习,我们还需要人为经验的干预吗?

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43598.html

相关文章

  • 什么是 AI、机器学习与深度学习

    摘要:机器学习就是用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项技术。显然,深度学习是与机器学习中的神经网络是强相关,神经网络也是其主要的算法和手段或者我们可以将深度学习称之为改良版的神经网络算法。 什么是 AI、机器学习与深度学习? 大家好,我是杨锋,作为一个大数据从业人员,相信大家整天都在被 AI、机器学习、深度学习等一些概念轰炸。有时候甚至有点诚惶诚恐,一方面作为一个业...

    qqlcbb 评论0 收藏0
  • 前馈神经网络开山鼻祖---一些概念

    摘要:下文主要讲述前馈神经网络这个值称之为损失,我们的目标就是使对所有训练数据的损失和尽可能的小。对于前馈神经网络中,这个有向图是没有回路的。反馈神经网络也是一类重要的神经网络。深度学习中的也属于一种反馈神经网络。 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等); 如果预测的变量是连续的,我们称其为回归。 反向传播算法(back propagation alg...

    MASAILA 评论0 收藏0
  • Deep Learning(深度学习学习笔记整理

    摘要:深度学习学习笔记整理系列作者声明该的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。但是自年以来,机器学习领域,取得了突破性的进展。 Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0  2013-04-08声明:1)该Deep Lea...

    Cheriselalala 评论0 收藏0

发表评论

0条评论

ymyang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<