资讯专栏INFORMATION COLUMN

机器学习之初步概念

imtianx / 901人阅读

摘要:基本概念机器学习的前提是数据,我们把数据的集合称为数据集,每条记录是一个样本,每个样本有若干个属性特征,对应的是其属性值属性组成的空间称作属性空间因此每个可以被称作一个特征向量属性个数称为样本的维数。

基本概念

机器学习的前提是数据,我们把数据的集合称为数据集"data set",每条记录是一个样本(sample),每个样本有若干个属性(attribute)or特征(feature),对应的是其属性值(attribute value),属性组成的空间称作属性空间(attribute space),因此每个sample可以被称作一个特征向量(feature vector).属性个数称为样本的维数。
从数据中学习模型的过程被称为学习(learning)或训练(traning),训练时使用的数据称为训练集。我们还需要训练样本的“结果”信息:标记"label",拥有了标记信息的"sample",被称作“样例”(example)。所有标记的集合被称作“标记空间”(label space)或输出空间。
对于预测离散值问题,称作“分类”(classification),如果预测离散值,称作“回归”(regression)。
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为预测样本(testing sample)
根据训练数据是否含有标记信息,学习任务可以被划分为两大类监督学习(supervised learning)无监督学习(unsupervised learning),分类和回归是前者代表,聚类是后者代表。
学得模型适用于新样本的能力,称为泛化(generalization)能力,具有强泛化能力的模型能很好的适用于整个样本空间。
独立同分布:通常假设样本空间中全体样本服从一个未知分布(distribution)D,我我们获取的每个样本都是独立的从这个分布上采样获得的。

模型评估和选择

学习器的实际预测输出与样本的真实输出之间的差异称为“误差(error)”,学习器在训练集上的误差称为训练误差(training error)or经验误差(empirical error),在新样本上的误差称为泛化误差(generalization error)
过拟合:学习器把训练集学得太好了,很可能把训练样本的一些特点当做了所有潜在样本都会具有的一些性质,导致泛化性能下降,称为过拟合(overfitting),相对的是欠拟合(underfitting)

参考书目:机器学习

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18236.html

相关文章

  • 爬虫习之基于Scrapy的网络爬虫

    摘要:不过不用担心,中有很多非常优秀的爬虫框架,比如我们接下来要学习到的。结合以上分析我们基本确定了本次爬虫的各个路线入口,接下来我们就开始通过程序来实现本次的目标。这里我们的目的是建立一种写爬虫的思路,而不在于怎么使用工具来爬数据。 概述 在上一篇文章《爬虫学习之一个简单的网络爬虫》中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是...

    BingqiChen 评论0 收藏0
  • 机器习之决策树算法

    摘要:决策树机器学习中,决策树是一个预测模型他代表的是对象属性与对象值之间的一种映射关系。从数据产生决策树的机器学习技术叫做决策树学习通俗说就是决策树。剪枝剪枝是决策树学习算法中对付过拟合的主要手段。 决策树(decision tree) 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶...

    raise_yang 评论0 收藏0
  • 阿里云大数据利器Maxcompute习之-假如你使用过hive

    摘要:摘要如果您是一个大数据开发工程师并且使用过的框架,那么恭喜您,阿里云的大数据计算服务,您已经会了。外部表功能版本支持中也是同样适用,通过外部表来映射阿里云的和两个数据存储产品来处理非结构化的数据,例如音频视频等。 摘要: 如果您是一个大数据开发工程师并且使用过hadoop的hive框架,那么恭喜您,阿里云的大数据计算服务-Maxcompute,您已经会了90%。这篇文章就来简单对比下M...

    cheng10 评论0 收藏0
  • Docker习之基本概念及安装(1)

    摘要:分层存储因为镜像包含操作系统完整的文件系统,其体积往往是庞大的,因此在设计时,就充分利用的技术,将其设计为分层存储的架构。分层存储的特征还使得镜像的复用定制变的更为容易。 什么是Docker Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 L...

    lvzishen 评论0 收藏0
  • 深度习之对抗样本问题

    摘要:相反深度学习的对抗样本是由于模型的线性特征。所以通过对抗训练能够提高深度学习的对于对抗样本的抗干扰能力。此外,指出,人类并不会像现代机器学习算法那样被对抗样本所影响。 2006 年,Geoffrey Hinton 提出了深度学习。受益于大数据的出现和大规模计算能力的提升,深度学习已然成为最活跃的计算机研究领域之一。深度学习的多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力。最近...

    zhichangterry 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<