资讯专栏INFORMATION COLUMN

【译】技能测试解决方案:Python中的数据科学(三)

i_garfileo / 3107人阅读

摘要:在关联该数据集时,重复行会带来一定的困扰,为了避免这个困扰,我们只保留重复数据第一个出现的样本。

本文是译文,可以转载,但需注明出处,点击这里可以获取原文,有删减。
本系列博文包含四篇文章:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30
【译】技能测试解决方案:Python中的数据科学(三)——Q31-Q45
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释

Q31

下列哪行代码可以把 “Date_time_of_event” 变量中的日期替换为当月第一天的日期?

A - train["Date_time_of_event"] = train.Date_time_of_event.apply(lambda x: x.replace(day=1))
B - >>> train["month"] = train.Date_time_of_event.dt.month; train["year"] = train.Date_time_of_event.dt.year
    >>> train["day"] = 1
    >>> train["Date_time_of_event"] = train.apply(lambda x:pd.datetime.strptime("{0} {1} {2}".format(x["year"],x["month"], x["day"]), "%Y %m %d"),axis=1)
C - A和B均可以
D - 以上选项都不能

Q32

上述数据集提供每日必需品费用,下列哪行代码可以汇总出每天的累计成本?

A - a.sumcum(axis=0)
B - a.cumsum(axis=1)
C - a.sumcum(axis=1)
D - a.cumsum(axis=0)

Q33

给定训练集,学生集和实习集3个数据集,我们需要合并这些数据集,使得合并后的训练数据必须具有来自学生集的学生信息和来自实习集的实习信息。

train=pd.merge(train,internship,on=’_____’,how=’____’)
train=pd.merge(train,student,on=’_____’,how=’____’)

为了实现上述需求,需要补充如下代码:

A - Student_ID, outer, Internship_ID, inner
B - Internship_ID, right, Student_ID, inner
C - Internship_ID, inner, Student_ID, under
D - Internship_ID, inner, Student_ID, inner

Q34

上述数据集中,存在重复行。在关联该数据集时,重复行会带来一定的困扰,为了避免这个困扰,我们只保留重复数据第一个出现的样本。

student.______(subset=[‘Student_ID’],keep=_____,inplace=____)

为了实现上述需求,需要补充哪些代码?

A - drop_same, first, True
B - drop_duplicates, first, False
C - drop_same, last, True
D - drop_duplicates, first, True

Q35

下列哪行代码可以提取上述字符串中的邮箱地址?

A - match=re.search(r"w+@w+",string)
B - match=re.findall(r"[w._]+@[w.]+",string)
C - match=re.purge(r"[w._]+@[w.__]+",string)
D - match=re.compile(r"[w._]@[w.]",string)

Q36

下列哪行代码可以删除“sleep”行的数据?

A - train.drop("sleep", axis=1)
B - train.dropna("sleep", axis=1)
C - train.drop("sleep", axis=0)
D - 以上选项都不能

Q37

train=train.drop(["Preferred_location","Minimum_Duration"],___________)

上述代码需要添加哪些代码才能实现把"Preferred_location"变量和"Minimum_Duration"变量从测试集中删除?

A - axis=0
B - axis=1
C - inplace=True
D - inplace=False

Q38


上述数据集是San Fransisco地区不同犯罪类型的训练数据集。
下列哪行代码可以绘制不同类型犯罪总数的直方图?

A - train.Category.plot(kind="bar")
B - train.Category.hist()
C - train.Category.value_counts().plot(kind="bar")
D - 以上选项都不能

Q39

下列哪行代码可以绘制出上述数据集中“Credit_History”变量和“Loan_Status”变量的堆叠条形图?

A - train.unstack().plot(kind="bar",stacked=True, color=["red","blue"], grid=False)
B - train.restack().plot(kind="bar",stacked=True, color=["red","blue"], grid=False)
C - train.restack().plot(kind="bar",stacked=False, color=["red","blue"], grid=False)
D - 以上选项都不能

Q40

下列代码可以绘制出“temp”变量和“atemp”变量之间的散点图:

plt.scatter(train.temp,train.atemp,alpha=1,c="b",s=20)

如何修改上述代码,以实现总数越多,颜色则越深?

A - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count.value_counts,s=20)
B - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count,s=20)
C - plt.scatter(train.temp,train.atemp,alpha=1,s=20,color=train.Count)
D - plt.scatter(train.temp,train.atemp,alpha=1,s=20,c=w)

Q41

上述数据集中,我们假设“temp”变量的季节性变化可能会影响“Count”变量,绘制两者的箱型图可以检验这个假设。
下列哪行代码可以实现这个需求?

A - train.boxplot(column="season", by="temp")
B - train.boxplot(ax="temp", by="season")
C - train.boxplot(ax="temp", column="season")
D - train.boxplot(column="temp", by="season")

Q42

绘制直方图是观察变量频率的一种可视化方法,下列哪行代码可以实现绘制‘temp’ 变量分箱为50的直方图?

A - train.hist(column="temp")
B - train.hist(column="temp", bin_size=50)
C - train.hist(column="temp", bins=50)
D - 以上选项都不能

Q43

绘制自相关图,可以让你看到uf时间序列是非随机的,则一个或多个自相关将显着非零。
下列哪行代码可以绘制“temp” 变量的自相关图?

A - pd.tools.plotting.autocorr(train.temp)
B - pd.tools.plot.autocorr(train.temp)
C - pd.tools.plotting.autocorrelation_plot(train.temp)
D - 以上选项都不能

Q44



上述图形展示了周一到周日每天每个小时房屋出租的数量。

>>> fig=plt.figure()
>>> for i in range(0,7):
>>>     fig.add_subplot(3,3,____)
>>>     t1=train[train["______"]==i] 
>>>     t1.________(["hour"])["count"].sum().plot(kind="bar")

根据已知的数据集,上述代码需要添加哪些代码才能绘制出如上的图形?

A - i+1, day, groupby
B - i, day, groupby
C - i, Count, groupby
D - i, day, value_counts

Q45

>>> train.________(["Year","Gender"]).size()._____[1880]

如果需要汇总出1880年男孩和女孩的数量,上述代码需要添加哪些代码?

A - groupby, idx
B - groupby, loc
C - groupby, iloc
D - value_counts, iloc

友情链接:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38598.html

相关文章

  • 技能测试解决方案Python中的数据科学(四)

    摘要:友情链接译技能测试解决方案中的数据科学一译技能测试解决方案中的数据科学二译技能测试解决方案中的数据科学三 本文是译文,可以转载,但需注明出处,点击这里可以获取原文,有删减。本系列博文包含四篇文章:【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30【译】技能测试解决方案:Python中的数据科学(...

    sourcenode 评论0 收藏0
  • 技能测试解决方案Python中的数据科学(二)

    摘要:比较折中的解决方案是,另外建立二分类变量,当变量为缺失值时,该变量取值,否则取值。一种方案是创建变量变量的数据透视表,并求变量的值。一种解决办法是加载指定数目的行数到内存中。 本文是译文,可以转载,但需注明出处,点击这里可以获取原文,有删减。 本系列博文包含四篇文章:【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15 【译】技能测试解决方案:Python中的数据...

    zhoutao 评论0 收藏0
  • 深度 : 数据科学,来自业界的诱惑(

    摘要:所以克拉姆卡创办了洞察力数据科学公司来为博士们提供面向业界数据科学的职业培训。旧金山公司的数据实验室主管伊莱巴塞特建议,学习更符合业界胃口的编程工具如和语言。 伊莱·巴塞特(Eli Bressert)计划把自己的学术生涯都放在针对恒星形成的研究上。他在英国埃克塞特大学(University of Exeter)获得博士学位,又在澳洲悉尼附近完成了针对射电天文学的博士后研究。他发表论文的引用量...

    Acceml 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    SQC 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<