定类，定序，定距，定比四种数据类型

siberiawolf 发布于2019-07-30 18:33 / 3835人阅读

摘要：定类变量定类就是将给数据定义一个类别。它是比定类变量层次更高的变量，因此也具有定类变量的特质，即区分类别，。它除了包括定序变量的特性外，还能确切测量同一类别各个案高低大小次序之间的距离，因而具有加与减的数学特质。

在这个世界上有无限多的数据，而每种数据都有属于自己的属性。那么做数据挖掘数据分析的时候，要对杂乱无章数据由一定的敏感度，学会分析数据属于哪一种类型也是一种技能。多留意身边的一些数据，试试给他分个类型也是挺好玩的一件事。

如果从宏观角度分析，数据类型分为定性和定量两种。

定性：变量是品质特征，如性别分男和女，是一种特质；
定量：变量是数值，可以量化，如身高体重等。
定量又可以分为离散型和连续型，离散型一般为计数结果，如男朋友毁约的次数，连续型一般为测试结果，如女朋友身高体重的测量。

那么又是怎么去对这些数据类型进行度量，也就是对数据类型划分一定的层次

一般可以将数据类型的度量分为四种：定类，定序，定距，和定比，这四种类型是从低到高的递进关系，高级的类型可以用低级类型的分析方法来分析，而反过来却不行，理解下面这些类型对于后面学习统计分析方法尤为重要。

1、定类变量

定类就是将给数据定义一个类别。这种数据类型将所研究的对象分类，也即只能决定研究对象是同类抑或不同类。例如把性别分成男女两类；把动物分成哺乳类和爬行类等等。

注意！定类变量遵循两个原则： 
（1）类与类之间互斥，不存在即是男又是女的东西（人妖特例不算） 
（2）每个对象都必须要有类别，就像每个动物都有自己的界门纲目科属种

2、定序变量

定序变量是将同一个类别下的对象分一个次序，即变量的值能把研究对象排列高低或大小，具有＞与＜的数学特质。它是比定类变量层次更高的变量，因此也具有定类变量的特质，即区分类别（＝，≠）。
例如文化程度可以分为大学、高中、初中、小学、文盲；工厂规模可以分为大、中、小；年龄可以分为老、中、青。这些变量的值，既可以区分异同，也可以区别研究对象的高低或大小。

注意！各个定序变量的值之间没有确切的间隔距离。比如大学究竟比高中高出多少，大学与高中之间的距离和初中与小学之间的距离是否相等，通常是没有确切的尺度来测量的。定序变量在各个案上所取的变量值只具有大于或小于的性质，只能排列出它们的顺序，而不能反映出大于或小于的数量或距离。

3、定距变量

定距变量是区别同一类别下个案中等级次序及其距离的变量。它除了包括定序变量的特性外，还能确切测量同一类别各个案高低、大小次序之间的距离，因而具有加与减的数学特质。但是，定距变量没有一个真正的零点。
例如，摄氏温度这一定距变量说明，摄氏40度比30度高10度，摄氏30度比20度又高10度，它们之间高出的距离相等，而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时，发现甲、乙，丙、丁、戊五个地区的比率分别是2％、10％、35％、20％、10％。甲区与丙区相差33％，丙区与丁区相差15％。这也是一个定距变量。

注意！定距变量各类别之间的距离，只能加减而不能乘除或倍数的形式来说明它们之间的关系。

4.、定比变量

定比变量是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量的特性外，还具有一个真正的零点，因而它具有乘与除（×、÷）的数学特质。例如年龄和收入这两个变量，固然是定距变量，同时又是定比变量，因为其零点是绝对的，可以作乘除的运算。
如A月收入是60元，而B是30元，我们可以算出前者是后者的两倍。智力商数这个变量是定距变量，但不是定比变量，因为其0分只具有相对的意义，不是绝对的或固定的，不能说某人的智商是0分就是没有智力；同时，由于其零点是不固定的，即使A是140分而B是70分，我们也不能说前者的智力是后者的两倍，只能说两者相差70分。因为0值是不固定的，如果将其向上移高20分，则A的智商变为120分而B变成50分，两者的相差仍是70分，但A却是B的2.4倍，而不是原先的两倍了。摄氏温度这一变量也如此。

这里没注意了！定比变量是最高测量层次的变量。

云服务器 GPU云服务器 php有四种标量类型定比数据迁移的四种方法对数据仓库分析的四种方式

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/42644.html

机器学习“特征编码”的经验分享：鱼还是熊掌？

摘要：特征编码类型本篇，我们主要说一下分类型特征的编码方式。下面，我们要对这个变量进行编码，在中有现成的独热编码方法，代码如下原来的变量被拆分为两个单独的变量，这两个变量就是原来的分类特征值有电梯和无电梯。作者：xiaoyu 微信公众号：Python数据科学知乎：python数据分析师 showImg(https://segmentfault.com/img/remote/146000...

trilever 2019-06-26 18:31 评论0 收藏0
机器学习“特征编码”的经验分享：鱼还是熊掌？

摘要：特征编码类型本篇，我们主要说一下分类型特征的编码方式。下面，我们要对这个变量进行编码，在中有现成的独热编码方法，代码如下原来的变量被拆分为两个单独的变量，这两个变量就是原来的分类特征值有电梯和无电梯。作者：xiaoyu 微信公众号：Python数据科学知乎：python数据分析师 showImg(https://segmentfault.com/img/remote/146000...

JinB 2019-07-30 17:29 评论0 收藏0
【Python数据分析基础】: 数据缺失值处理

摘要：将数据集中不含缺失值的变量称为完全变量，数据集中含有缺失值的变量称为不完全变量。这种程序的实施恰当地反映了由于缺失值引起的不确定性，使得统计推断有效。作者：xiaoyu 微信公众号：Python数据科学知乎：python数据分析师 showImg(https://segmentfault.com/img/remote/1460000015801387?w=1045&h=603);...

hizengzeng 2019-07-30 17:14 评论0 收藏0