资讯专栏INFORMATION COLUMN

机器学习中的“维度”是什么?

jsliang / 1444人阅读

摘要:一张表最多二维,复数的表构成了更高的维度。当数组中存在组张行列的表时,数据就是维,返回。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。

“维度”这个词在机器学习里面,应该是一个高频词,它经常出现在人们的视野中,比如说随机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地被我用来使用,直到有一天,一个小伙伴问了我,”维度“到底是什么?我……

我认真思考之后,总结如下:

1. 对于数组和Series来说

对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数),有行列之分叫二维(shape返回行x列),也称为表。一张表最多二维,复数的表构成了更高的维度。当一个数组中存在2张3行4列的表时,shape返回的是(更高维,行,列)。当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。

数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。

2. 对于图像来说

对图像来说,维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维,两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维,三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维。三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。

3. 降维算法中的“降维”

降维算法中的”降维“,指的是降低特征矩阵中特征的数量。上周的课中我们说过,降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。从上面的图我们其实可以看得出,图像和特征矩阵的维度是可以相互对应的,即一个特征对应一个特征向量,对应一条坐标轴。所以,三维及以下的特征矩阵,是可以被可视化的,这可以帮助我们很快地理解数据的分布,而三维以上特征矩阵的则不能被可视化,数据的性质也就比较难理解。

好了,以上就是关于降维的总结啦,如果你有新的见解,欢迎一起探讨~

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18648.html

相关文章

  • 【精品】12条核心知识带你了解机器学习

    摘要:机器学习初学者中最常见的错误就是对训练数据进行测试并自以为大获成功。综上来看,机器学习需要知识这点并不奇怪。机器学习更像是种田,让大自然完成大部分的工作。这个问题被称为过拟合,是机器学习中的难题。 机器学习算法可以通过学习就可以弄清楚如何去执行一些重要的任务。在手动编程不可行的情况下,这种方法通常既可行又经济有效。随着可获取的数据在逐步增多,越来越多更加复杂的问题可以用机器学习来解决。...

    AndroidTraveler 评论0 收藏0
  • 【精品】12条核心知识带你了解机器学习

    摘要:机器学习初学者中最常见的错误就是对训练数据进行测试并自以为大获成功。综上来看,机器学习需要知识这点并不奇怪。机器学习更像是种田,让大自然完成大部分的工作。这个问题被称为过拟合,是机器学习中的难题。 机器学习算法可以通过学习就可以弄清楚如何去执行一些重要的任务。在手动编程不可行的情况下,这种方法通常既可行又经济有效。随着可获取的数据在逐步增多,越来越多更加复杂的问题可以用机器学习来解决。...

    Lin_R 评论0 收藏0
  • 【物联网】30.物联网数据分析的基础 - 机器学习

    摘要:机器学习可以说是高级分析的典型代表。机器学习领域汇集了众多技术,这些技术用于让计算机基于大量数据来学习数据的倾向并作出某些判断。机器学习的算法可以根据输入的数据类型分为监督学习和非监督学习两种。 机器学习可以说是高级分析的典型代表。机器学习领域汇集了众多技术,这些技术用于让计算机基于大量数据...

    xialong 评论0 收藏0
  • 论文解读:华盛顿大学教授Pedro Domingos技术论文:机器学习中一些有用的知识(一)

    摘要:机器学习初学者最常犯的错误是测试训练数据,并有成功的幻觉。机器学习中的每个人都知道过度拟合,但它有很多形式,并不是很明显。事实上,理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。 摘要: 这是机器学习研究人员和从业人员所学到的12个关键经验教训的总结,包括避免陷阱,重点问题以及常见问题的答案。 showImg(https://segmentfault.com/i...

    wqj97 评论0 收藏0
  • 论文解读:华盛顿大学教授Pedro Domingos技术论文:机器学习中一些有用的知识(一)

    摘要:机器学习初学者最常犯的错误是测试训练数据,并有成功的幻觉。机器学习中的每个人都知道过度拟合,但它有很多形式,并不是很明显。事实上,理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。 摘要: 这是机器学习研究人员和从业人员所学到的12个关键经验教训的总结,包括避免陷阱,重点问题以及常见问题的答案。 showImg(https://segmentfault.com/i...

    用户84 评论0 收藏0

发表评论

0条评论

阅读需要支付1元查看
<