资讯专栏INFORMATION COLUMN

数据科学 第 4 章 1-3 画图的简单设置

ShevaKuilin / 783人阅读

摘要:保存打开执行打开的时候要先加载一个包第二节画个图的方法风格面向对象画图第节简易线型图先设置。是一个可以装图形文字的容器是带有刻度和标签的矩形。

第 4 章是讲用matplotlib画图

期待已久的内容,用可视化展示数据比丢一张数据表给他好的多,在建模的时候先画个图会清晰不少,下面进入正题:

数据源:当然是上一章最后一节的提取了小时的sougou数据

第一节:保存
就是教你怎么保存画的图,然后再打开它。
保存:fig.savefig("myfigure.png")
打开:Image("myfigure.png") 执行打开的时候要先加载一个包: from IPython.display import Image

第二节:画2个图的方法

-- matlab风格

plt.figure()
plt.subplot(2,1,1)
plt.plot(df.ranks,df.numbers)
plt.subplot(2,1,2)
plt.plot(df.numbers, df.ranks)

-- 面向对象画图

fig,ax = plt.subplots(2)
ax[0].plot(df["rank"],df.hours)
ax[1].plot(df["number"],df.hours)

第 3 节:简易线型图
先设置fig, ax。 fig是一个可以装图形、文字的容器;ax是带有刻度和标签的矩形。设置好之后再用ax.plot画图

fig = plt.figure()
ax = plt.axes()
ax.plot(df["number"],df["rank"])  
-- 穿插一个小插曲:在用sogou数据画图的时候,出现这个提示:

ValueError: x and y must have same first dimension, but have shapes (1,) and (823818,) 用df.rank查看数据时,出现的是多列数据,而不是一列,所以画图的时候出现了x,y没有相同的坐标。

晚上问的大神,他说你先用df["rank"]试下能不能正常显示,结果是正常的。那可能是df.rank是调用了内置函数,以后用中括号就可以了。

-- 线条的颜色、风格

color = "" 颜色支持英文、代码、灰度、16进制、RGB、HTML颜色
linestyle = "" 线条的样式,比如---.:等

df.groupby("hours")["hours"].count().plot(color = "g",linestyle = ":")
-- 设置坐标轴上下限

有两种方法,效果是一样的

#设置 x, y 轴的起始值
df.groupby("hours")["hours"].count().plot(color = "g",linestyle = ":")
plt.xlim(0,30)   #只能设置范围,不能规定跨度 
plt.ylim(10000,100000)

#方法2:
df.groupby("hours")["hours"].count().plot(color = "g",linestyle = ":")
plt.axis([0,25,0,120000])   # plt.axis("")有很其他的功能,可以查看文档

显示图例

图例是label,设置好图例后要用plt.legend()才能打印图例

df.groupby("hours")["rank"].sum().plot(color = "r",linestyle = ":",label="The red data")
df.groupby("hours")["hours"].count().plot(color = "g",label = "search/hour")
plt.legend()   # legend(lable = ["",""], loc = "")   label是图例的名称,同上;loc是图例的位置

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45003.html

相关文章

  • 数据科学 5 建模过程 与 决策树模型

    摘要:一周没写文了,之前干什么去了呢本周前半部分卡在画图了,然后的时间在处理数据,处理数据是我目前在画图和机器学习上一个重大的障碍,处理各种报错各种不适合,等我学会了和你再来堵我呀 一周没写文了,之前干什么去了呢?本周前半部分卡在画图了,然后1/3的时间在处理数据,处理数据是我目前在画图和机器学习上一个重大的障碍,python处理各种报错各种不适合,等我学会了kettle和spark你再来堵...

    lowett 评论0 收藏0
  • 数据科学 3 12 处理时间序列,小时、分

    摘要:时间序列,日期格式处理原以为本章是讲怎么用处理时间格式,比如提取年月之类的。新增一列日期,不要时分新增两列年,月,以便后续分析。这个方法太复杂,而且处理时间可能会更长,看下面的简单方法新增月份年。 时间序列,日期格式处理 原以为本章是讲怎么用python处理时间格式,比如提取年月之类的。 但本节写的是时间格式已经工整后的事,暂时不是我想学的,所以跳过,就没有写公式了。 下面的函数时之前...

    Atom 评论0 收藏0
  • 数据科学 5 主成分分析(降维)、相关性

    摘要:主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。相关系数系数为为为。从结果看,这个数据可能不太适合用来分析,因为降到维后的代笔性不足。 这两天用学了主成分分析,用的是PCA。主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大,通过PC...

    ixlei 评论0 收藏0
  • 数据科学 3 4:连接mysql、改类型、索引应用

    今天开始学习《数据科学手册》,主要学习3-5章,其他的选修。 -- 先连接数据库加载数据: 用sqlalchemy 的create_engine连接: 注意:代码里mysql+pymysql: 这部分不能加空格,否则会报错 import pymysql import pandas as pd from sqlalchemy import create_engine sql = select...

    yuxue 评论0 收藏0
  • ApacheCN 人工智能知识树 v1.0

    摘要:贡献者飞龙版本最近总是有人问我,把这些资料看完一遍要用多长时间,如果你一本书一本书看的话,的确要用很长时间。为了方便大家,我就把每本书的章节拆开,再按照知识点合并,手动整理了这个知识树。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 贡献者:飞龙版...

    刘厚水 评论0 收藏0

发表评论

0条评论

ShevaKuilin

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<