机器学习之数据归一化

W4n9Hu1 发布于2019-07-31 11:15 / 1186人阅读

摘要：机器学习中，数据归一化是非常重要，如果不进行数据归一化，可能会导致模型坏掉或者训练出一个奇怪的模型。解决方法就是将是数据映射到同一尺度，这就是数据归一化。数据归一化的两个常用方式为最值归一化和均值方差归一化。

机器学习中，数据归一化是非常重要，如果不进行数据归一化，可能会导致模型坏掉或者训练出一个奇怪的模型。

为什么要进行数据归一化

现在有一个训练数据集，包含两个样本，内容如下：

	肿瘤大小（cm）	发现时间（day）
样本1	1	200
样本2	5	100

以 k-近邻算法为例，“发现时间”的数值比“肿瘤大小”的数值大很多，样本间的距离被“发现时间”主导，训练出来的模型主要由“发现时间”影响，甚至“肿瘤大小”的影响可忽略不计。

解决方法就是将是数据映射到同一尺度，这就是数据归一化。

数据归一化的两个常用方式为：最值归一化和均值方差归一化。

最值归一化（normalization）

最值归一化就是将数据映射到 0～1 之间，适用于数据分布有明显边界的情况。将样本的特征值减去该特征的最小值，再除以该特征的取值区间，对应的数学公式为：

$$ x_{scale} = frac{x-x_{min}}{x_{max}-x_{min}} $$

使用 np.random 生成一个 50*2 的二维整形数组，并转换成浮点型：

</>复制代码 
import numpy as np
X = np.random.randint(0, 100, size=(50, 2))
X = np.array(X, dtype=float)

对于第一列数据，$x_{min}$ = np.min(X[:, 0])，$x_{max}$ = np.max(X[:, 0])：

</>复制代码 
X[:, 0] = (X[:, 0] - np.min(X[:, 0])) / (np.max(X[:, 0]) - np.min(X[:, 0]))

第二列数据同理：

</>复制代码 
X[:, 1] = (X[:, 1] - np.min(X[:, 1])) / (np.max(X[:, 1]) - np.min(X[:, 1]))

此时样本的所有特征值都在 0～1 之间。

均值方差归一化（standardization）

均值方差归一化就是把所有数据归一到均值为0、方差为1的分布中。对于数据分布有无明显边界都适用。数学公式为：

$$ x_{scale} = frac{x-x_{mean}}{s} $$

$x_{mean}$：特征均值，$s$：特征方差。

同样使用 np.random 生成一个 50*2 的二维整形数组，并转换成浮点型：

</>复制代码 
X2 = np.random.randint(0, 100, size=(50, 2))
X2 = np.array(X2, dtype=float)

对于第一列数据，$x_{mean}$ = np.mean(X2[:, 0])，$s$ = np.std(X2[:, 0])：

</>复制代码 
X2[:, 0] = (X2[:, 0] - np.mean(X2[:, 0])) / np.std(X2[:, 0])

第二列数据同理：

</>复制代码 
X2[:, 1] = (X2[:, 1] - np.mean(X2[:, 1])) / np.std(X2[:, 1])

可以查看 X2 各列的均值非常接近0，方差非常接近1：

</>复制代码 
# np.mean(X2[:, 0])
-4.440892098500626e-18
# np.mean(X2[:, 1])
-1.2878587085651815e-16
# np.std(X2[:, 0])
0.9999999999999999
# np.std(X2[:, 1])
0.9999999999999999

对测试数据集进行归一化处理

前面都是在对训练数据集进行归一化处理，而对测试数据集的归一化处理有所不同。由于测试数据是在模拟真实环境，而在真实环境中很难拿到所有的测试数据的均值和方差，此时将测试数据集也进行上面的操作是错误的，正确的方法是利用训练数据集归一化的数据。

如测试数据集的最值归一化处理为：

$$ test_{scale} = frac{test-min_{train}}{max_{train}-min_{train}} $$

测试数据集的均值方差归一化处理为：

$$ test_{scale} = frac{test-mean_{train}}{s_{train}} $$

以均值方差归一化处理为例，Scikit Learn 中封装了 StandardScaler 类用于训练数据集和测试数据集的归一化处理。

以鸢尾花的数据为例：

</>复制代码 
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

StandardScaler 类位于 preprocessing 模块中：

</>复制代码 
from sklearn.preprocessing import StandardScaler
standardScaler = StandardScaler()

将训练数据传入 fit() 方法中，该方法会保存训练数据的方差和均值，并返回 StandardScaler 实例本身：

</>复制代码 
standardScaler.fit(X_train)

其中 mean_、scale_ 属性保存了均值和方差：

</>复制代码 
# standardScaler.mean_
array([5.83416667, 3.08666667, 3.70833333, 1.17      ])
# standardScaler.scale_
array([0.81019502, 0.44327067, 1.76401924, 0.75317107])

接着可以向 transform() 方法中传入训练数据和测试数据获取归一化处理后的数据：

</>复制代码 
X_train = standardScaler.transform(X_train)
X_test = standardScaler.transform(X_test)

源码地址

Github | ML-Algorithms-Action

云服务器 GPU云服务器归一化 python 归一化 webrtc归一化算法学习之substr()

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/44882.html

发表评论

登陆后可评论

0条评论

W4n9Hu1

男|高级讲师

我要关注我要私信

TA的文章

下载tensorflow

阅读 2900·2023-04-25 15:01
如何用云服务器搭建个人网站?云服务器自主建站的5大步骤

阅读 3205·2021-11-23 10:07
职业迷茫，测试危机到了头上，该如何找准自我定位？

阅读 3430·2021-10-12 10:12
搬瓦工安装Centos7+镜像部署图形化轻量桌面远程环境（XFCE+VNC）

阅读 3552·2021-08-30 09:45
CloudPowerall：$29.99/年/512MB内存/10GB NVMe空间/500GB流量

阅读 2264·2021-08-20 09:36
前端基础工作流：sass自动化编辑成css

阅读 3678·2019-08-30 12:59
写给自己的React HOC(高阶组件)手册

阅读 2526·2019-08-26 13:52
JS专题之事件模型

阅读 1008·2019-08-26 13:24

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

机器学习之数据归一化

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

相关文章

发表评论

0条评论

W4n9Hu1

男|高级讲师

TA的文章

下载tensorflow

如何用云服务器搭建个人网站?云服务器自主建站的5大步骤

职业迷茫，测试危机到了头上，该如何找准自我定位？

搬瓦工安装Centos7+镜像部署图形化轻量桌面远程环境（XFCE+VNC）

CloudPowerall：$29.99/年/512MB内存/10GB NVMe空间/500GB流量

前端基础工作流：sass自动化编辑成css

写给自己的React HOC(高阶组件)手册

JS专题之事件模型

最新活动