资讯专栏INFORMATION COLUMN

Python数据分析实战-Boston Public Schools GEO数据分析-Part1

Pikachu / 2918人阅读

摘要:项目目标数据是来自于地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的数据分析的方法。例如,研究学校的分布情况,类型统计等。

项目目标:

Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校的分布情况,类型统计等。

数据集介绍:

数据集的介绍如下,其中比较重要的字段有X,Y坐标,ADDRESS地址,ZIPCODE,School类型

Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64

关键代码实现:

加载数据

schools = pd.read_csv("../input/Public_Schools.csv")
schools.info()

可以看到数据字段如下,一共有21个字段,其中有9个Object类型,4个float64, 8个int64


RangeIndex: 131 entries, 0 to 130
Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64
dtypes: float64(4), int64(8), object(9)
memory usage: 21.6+ KB

2.接下来,探索数据的缺失值

schools.isnull().any()

可以看到,数据没有缺失值

1 X False
2 Y False
3 OBJECTID_1 False
4 OBJECTID False
5 BLDG_ID False
6 BLDG_NAME False
7 ADDRESS False
8 CITY False
9 ZIPCODE False
10 CSP_SCH_ID False
11 SCH_ID False
12 SCH_NAME False
13 SCH_LABEL False
14 SCH_TYPE False
15 SHARED False
16 COMPLEX False
17 Label False
18 TLT False
19 PL False
20 POINT_X False
21 POINT_Y False
22 dtype: bool

接下来,Count frequency of schools in each city

1 schools_per_city = schools["CITY"].value_counts()
2 sns.set()
3 plt.rcParams["figure.figsize"] = [20, 7]
4 sns.barplot(x=schools_per_city.index, y=schools_per_city.get_values())

可以看到不同地区的公立学校不同数量

按照ZIPCode统计学校情况

1 school_zipcode = schools["ZIPCODE"].value_counts() sns.set()
2 sns.barplot(x=school_zipcode.index, y=school_zipcode.get_values())

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19835.html

相关文章

  • Python数据分析实战-Boston Public Schools GEO数据分析-Part1

    摘要:项目目标数据是来自于地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的数据分析的方法。例如,研究学校的分布情况,类型统计等。 项目目标: Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校...

    阿罗 评论0 收藏0
  • 打造数据科学作品集:用数据讲故事

    摘要:作者译者校对出品翻译组编程派这是如何打造数据科学作品集系列教程的第一篇。我们将介绍怎样打造作品集中的第一个项目,怎样使用数据讲述一个有效的故事。班级大小纽约市每所学校班级规模数据。 作者:Vik Paruchuri译者:Nick Tang校对:EarlGrey出品:PythonTG 翻译组/编程派 这是「如何打造数据科学作品集」系列教程的第一篇。如果觉得不错,可以订阅我们第一时间获取最...

    yankeys 评论0 收藏0
  • 我的Java设计模式-建造者模式

    摘要:汽车本身就是复杂产品对象,其制造过程可以形象的表示建造者模式。另一辆法拉利,。法拉利具体建造者代码如下构造法拉利的第一部分。咻咻法拉利已造好三建造者模式的优缺点优点降低代码耦合度。 在未上大学之前,一直有个梦想I have a dream!,就是能成为一位汽车工程师,一直幻想着开着自己设计的汽车飞奔在公路上,迷倒了万千少女。咳咳~~虽然现在没实现我的dream,但梦想还是得有的。 说到...

    elisa.yang 评论0 收藏0

发表评论

0条评论

Pikachu

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<