Day 1_Data PreProcessing

Kylin_Mountain 发布于2019-07-30 17:34 / 2374人阅读

Data PreProcessing

As shown in the infograph we will break down data preprocessing in 6 essential steps.
Get the dataset from here that is used in this example

Step 1: Importing the libraries

import numpy as np
import pandas as pd

Step 2: Importing dataset

dataset = pd.read_csv("Data.csv")
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

Step 3: Handling the missing data

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

Step 4: Encoding categorical data

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

Creating a dummy variable

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

Step 5: Splitting the datasets into training sets and Test sets

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

Step 6: Feature Scaling

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

Done

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/42285.html

聚类分析——Kmeans

摘要：导入数据预处理计算值从到对应的平均畸变程度用求解距离平均畸变程度用肘部法则来确定最佳的值建模导入数据 cus_general = customer[[wm_poi_id,city_type,pre_book,aor_type,is_selfpick_poi,is_selfpick_trade_poi]] cus_ord = customer[[wm_poi_id,month_orig...

Scholer 2019-07-31 11:04 评论0 收藏0
100天搞定机器学习|Day1数据预处理

摘要：导入库导入数据集这一步的目的是将自变量和因变量拆成一个矩阵和一个向量。数据预处理是机器学习中最基础也最麻烦的一部分内容在我们把精力扑倒各种算法的推导之前，最应该做的就是把数据预处理先搞定在之后的每个算法实现和案例练手过程中，这一步都必不可少同学们也不要嫌麻烦，动起手来吧基础比较好的同学也可以温故知新，再练习一下哈闲言少叙，下面我们六步完成数据预处理其实我感觉这里少了一步：观察数据...

xeblog 2019-07-31 11:30 评论0 收藏0
机器学习之数据归一化

摘要：机器学习中，数据归一化是非常重要，如果不进行数据归一化，可能会导致模型坏掉或者训练出一个奇怪的模型。解决方法就是将是数据映射到同一尺度，这就是数据归一化。数据归一化的两个常用方式为最值归一化和均值方差归一化。机器学习中，数据归一化是非常重要，如果不进行数据归一化，可能会导致模型坏掉或者训练出一个奇怪的模型。为什么要进行数据归一化现在有一个训练数据集，包含两个样本，内容如下： ...

W4n9Hu1 2019-07-31 11:15 评论0 收藏0