资讯专栏INFORMATION COLUMN

Sklearn入门介绍

韩冰 / 2006人阅读

摘要:随着时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库,它是属于的第三方库,今天的讲解也是基于来进行讲解的。

随着AI时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技、生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库Sklearn,它是属于python的第三方库,今天的讲解也是基于python-IDE来进行讲解的。

使用sklearn的准备工作:

安装python3.6.*

安装python开发的IDE环境

首先应该安装sklearn所需依赖的第三库,包括scipy、numpy、matplotlib、pandas,安装以上四个库以后最后安装sklearn

机器学习的六个主要步骤:

首先应该加载训练模型所用的数据集

采用合适的比例将数据集划分为训练集和测试

选取合适或者创建合适的训练模型

将训练集中的数据输入到模型中进行训练

通过第四步的训练大致确定模型所用的合理参数

将测试集中的数据输入到模型中,根据模型得到的结果和真实的结果进行比较再次调整参数

Sklearn基础知识概览:

1. 加载sklearn中的数据集datasets

   from sklearn import datasets
   iris = datasets.load_iris() # 鸢尾花卉数据
   digits = datasets.load_digits() # 手写数字8x8像素信息数据
   
   

2. 查看数据的信息

print(iris.data[:4]) # 查看数据的特征信息
print iris.data.shape) # 查看数据的特征信息维度

print(iris.target_names)# 查看标签对应的文本
print (iris.target[:4] )# 查看数据的标签 setosa:0 ...

3. 训练集和分割集的分割

from sklearn.model_selection import train_test_split

X = digits.data # 特征矩阵
y = digits.target # 标签向量

# 随机分割训练集和测试集:
# test_size:设置测试集的比例。random_state:可理解为种子,保证随机唯一
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3., random_state=8) 



sklearn实战例子:
from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

iris = datasets.load_iris()
X = iris.data
y = iris.target

# 新建一个模型(参数默认)
iris_model = LinearRegression()

# 分割训练集、测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3., random_state=7)

# 训练该模型
iris_model.fit(X_train,y_train)

# 返回模型参数列表
print(iris_model.get_params())

# 模型在训练集上的评分
print(iris_model.score(X_train, y_train))

# 模型在测试集上的评分
print(iris_model.score(X_test, y_test))

# 使用模型进行预测
y_pred = iris_model.predict(X_test)

print("预测标签:", y_pred[:3])
print("真实标签:", y_test[:3])



# 使用pickle保存模型
import cPickle as pickle

with open("LR_model.pkl", "w") as f:
pickle.dump(iris_model, f)
# 重新加载模型进行预测
with open("LR_model.pkl", "r") as f:
model = pickle.load(f)

# 使用模型进行预测
model.predict(X_test)[:3]


运行成功结果截图:

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/61219.html

相关文章

  • Sklearn入门介绍

    摘要:随着时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库,它是属于的第三方库,今天的讲解也是基于来进行讲解的。 随着AI时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技、生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库Sklearn,它是属于python的第三方库,今天的讲解...

    superPershing 评论0 收藏0
  • Sklearn入门介绍

    摘要:随着时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库,它是属于的第三方库,今天的讲解也是基于来进行讲解的。 随着AI时代的到来及物联网概念的日益受到人们的关注,机器学习正逐步应用于科技、生活生产各个领域。今天我们就为介绍机器学习中常用到的一个第三库Sklearn,它是属于python的第三方库,今天的讲解...

    miracledan 评论0 收藏0
  • 入门系列之Scikit-learn在Python中构建机器学习分类器

    摘要:使用该数据集,我们将构建机器学习模型以使用肿瘤信息来预测肿瘤是恶性的还是良性的。我们将使用函数来确定机器学习分类器的准确性。您已成功构建了第一台机器学习分类器。现在,您可以使用在中加载数据组织数据训练预测和评估机器学习分类器。 欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由信姜缘 发表于云+社区专栏 介绍 机器学习是计算机科学、人工智能和统计学的研究领域。机器学...

    Null 评论0 收藏0
  • 机器学习(一):入门

    摘要:最后会介绍机器学习方向合适的一些可视化工具。现在就让我们进入机器学习的世界吧这一节主要进行机器学习的入门。机器学习的目的就是需要通过独立变量来预测非独立变量。机器学习或者说数据科学中很重要的一点就是建立度量,指标。 这是一个机器学习的系列,偏数据分析方向,未来或许会写一些偏人工智能方向的机器学习的文章。这个系列将会详细介绍常用的机器学习模型和算法,像是线性回归和分类算法。最后会介绍机器...

    William_Sang 评论0 收藏0
  • 我是如何入门机器学习的呢

    摘要:在这里我分享下我个人入门机器学习的经历,希望能对大家能有所帮助。相关学习链接,,入门后的体验在入门了机器学习之后,在实际工作中,绝大多数的情况下你并不需要去创造一个新的算法。 机器学习在很多眼里就是香饽饽,因为机器学习相关的岗位在当前市场待遇不错,但同时机器学习在很多人面前又是一座大山,因为发现它太难学了。在这里我分享下我个人入门机器学习的经历,希望能对大家能有所帮助。 PS:这篇文章...

    ShowerSun 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<