资讯专栏INFORMATION COLUMN

利用Pandas和matplotlib分析我爱我家房租区间频率

huayeluoliuhen / 2174人阅读

摘要:前几天利用爬取了我爱我家的租房的一些数据,就想着能不能对房租进行一波分析,于是通过书籍和博客等查阅了相关资料,进行了房租的区间分析。

前几天利用python爬取了我爱我家的租房的一些数据,就想着能不能对房租进行一波分析,于是通过书籍和博客等查阅了相关资料,进行了房租的区间分析。不得不说,用python做区间分析比我之前用sql关键字统计区间简单多了,话不多说,上代码

# coding=utf-8
import pandas as pd
import pymysql
import matplotlib.pyplot as plt

db = pymysql.connect(host="127.0.0.1", port=3306, user="root", passwd="root", db="woaiwojia", charset="utf8")
cursor = db.cursor()
df = pd.read_sql("select  * from zufang ", db)
#以下注释为对pandas读取数据之后的数据处理读取的尝试
#前三行
#rows = df[0:3] 
#price和lxrphone两列
#cols = df[["price", "lxrphone"]]
#aa = pd.DataFrame(df)
#前三行和lxrphone和price列
# print(df.ix[0:3,["price","lxrphone"]])
#读取数据的信息
# print(df.info())
#查看表的描述性信息
# print(df.describe())


#以下为获取price列的最大最小值并分组
xse = df["price"]
# print(xse.max())
# print(xse.min())
fanwei = list(range(1500, xse.max(), 1500))
fenzu = pd.cut(xse.values, fanwei, right=False)  # 分组区间,长度91
# print(fenzu.codes)#标签
# print(fenzu.categories)#分组区间,长度8
pinshu = fenzu.value_counts()  # series,区间-个数
#print(pinshu)
# print(pinshu.index)

#设置plot的展示格式
pinshu.plot(kind="bar")
qujian = pd.cut(xse, fanwei, right=False)
df["区间"] = qujian.values
df.groupby("区间").median()
df.groupby("区间").mean()

pinshu_df = pd.DataFrame(pinshu, columns=["频数"])
pinshu_df["频率f"] = pinshu_df / pinshu_df["频数"].sum()
pinshu_df["频率%"] = pinshu_df["频率f"].map(lambda x: "%.2f%%" % (x * 100))

pinshu_df["累计频率f"] = pinshu_df["频率f"].cumsum()
pinshu_df["累计频率%"] = pinshu_df["累计频率f"].map(lambda x: "%.4f%%" % (x * 100))

print(pinshu_df)

plt.show()

打印的结果

使用matplotlib.pyplot的show方法展示的数据

参考博客 pandas分区间,算频率
参考书籍《Python3爬虫、数据清洗与可视化实战》

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/42046.html

相关文章

  • 5种方法教你用Python玩转histogram直方图

    摘要:使用实现以上是使用纯来完成的简单直方图,但是从数学意义上来看,直方图是分箱到频数的一种映射,它可以用来估计变量的概率密度函数的。第一种情况你是在估计一个未知的概率密度函数,而第二种情况是你是知道分布的,并想知道哪些参数可以更好的描述数据。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 直方图是一个可以快速展示数据概率分布的工具,直观易于理解,并深...

    simpleapples 评论0 收藏0
  • 【数据科学系统学习】Python # 数据分析基本操作[三] matplotlib

    摘要:有一些表示常见图形的对象称为块,完整的集合位于。中的绘图函数在中,有行标签列标签分组信息。密度图通过计算可能会产生观测数据的连续概率分布的估计而产生的。在探索式数据分析工作中,同时观察一组变量的散布图是很有意义的。 我们在上一篇介绍了 pandas,本篇介绍 matplotlib。 绘图和可视化 一个用于创建出版质量图表的桌面绘图包。 Matplotlib API入门 Figure ...

    BDEEFE 评论0 收藏0
  • ❤️数据科学-Pandas、Numpy、Matplotlib秘籍之精炼总结

    前言: 先感受一下数据科学的魅力,上图是在Smart Dubai 2017 GITEX科技周展台上推出Smart Decision-Making Platform(智能决策平台),于10月8日至12日在迪拜世界贸易中心举行。游客可以通过一个沉浸式的空间将数据可视化,让他们了解迪拜的未来。让参观者可以在现场查阅观看全市数据,这意味着迪拜将成为了世界上第一个与公众分享实时实时数据的城市,同时还可以预...

    Zhuxy 评论0 收藏0
  • Python学习笔记:数据可视化(一)

    摘要:当数据发生变化时,这种演变过程随之发生。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 showImg(https://segmentfault.com/img/bVbnkP1?w=751&h=558); python相关 基础概念 数据:离散的,客观事实的数字表示 信息:处理后的数据,为实际问题提供答案   - 为数据提供一种关系或一个关联后,数据就成了信...

    Crazy_Coder 评论0 收藏0
  • 【精华分享】:转行数据分析的一份学习清单

    摘要:数据分析的发展方向一般有商业方向,行业分析业务方向,和机器学习数据挖掘方向。机器学习的书籍推荐统计学习方法,机器学习,机器学习实战三本书。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 上一篇主要分享了博主亲身转行数据分析的经历: 【从零学起到成功转行数据分析,我是怎么做的?】 本篇继上一篇将分享转行数据分析的一些经验和学习方法,看完这篇你将会解...

    suemi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<