资讯专栏INFORMATION COLUMN

用Python爬取了几千条相亲文案,终于发现了告别单身的秘密

keke / 3008人阅读

摘要:写在最后近年来,随着人们思想观念的改变,相亲也逐渐得到年轻人的接受与认可,特别是对于那些圈子比较窄,接触不到异性的人而言。

前不久,小编刷到这样一条短视频,“1.7亿的90后仅有约1000万对结婚, 结婚率不到10% ”,当然我们也无法查实当中数据的来源以及真实性,不过小编倒是总能听说身边的朋友在抱怨脱单难、找不到合适的对象。

今天小编通过Python写了一个简单的脚本在抓取公开的相亲文案,看看 在相亲的都是些什么样的人 ?他们的 择偶标准又是什么样子的 ?什么样子的人更加容易脱单?

代码的编写过程

Pythonrequestsre
import requestsfrom tenacity import *import reimport time

很多时候对遇到 请求超时的情况 ,因此当出现一次错的时候,我们会多尝试几次,因此这里使用 retry 装饰器来多次尝试

@retry(stop=stop_after_attempt(5))def do_requests(url):    response = requests.get(url, headers=headers, proxies=proxies, timeout=10)    return response.text

我们抓取的数据包括 出生年份、身高/体重、学历、收入、职业、自我介绍、择偶标准、车房情况 等等,都是通过正则表达式 re 库来实现的,

date_of_birth = re.compile("
①出生年月/星座(.*?)
"
, re.M | re.S)sex = re.compile("
【基本资料】(.*?)
"
)height = re.compile("
②身高/体重(.*?)
"
)education = re.compile("
⑤学历(.*?)
"
)jobs_1 = re.compile("
⑥职业(.*?)
"
)income = re.compile("
⑦月均收入(.*?)
"
)married = re.compile("
⑨有无婚史(.*?)
"
)house_cars = re.compile("
⑧车房情况(.*?)
"
)self_intro = re.compile("
⑪ 自我介绍(.*?)
"
)requirements = re.compile("
【择偶标准】
(.*?)"
)family_member = re.compile("
⑩家庭成员(.*?)
"
)

下面我们通过 pyecharts 库来绘制一下分析的结果

结果的可视化展示

我们先来看一下性别比例,从分布来看, 女生前来相亲的比例更高 ,主要也是因为数据源是来自北京、上海、杭州等 大城市的相亲介绍 ,大城市中似乎女生脱单更加困难一些,

我们再来看一下单身的女性的特征,首先她们的年龄主要集中在 94、93以及95年左右 ,正好都是处在适婚的年龄

而她们的学历, 本科占到了绝大多数 ,基本上都有本科的学历,而 大专的占比排在第二 ,硕士和博士处于少数

另外小编也对单身女性的星座做了一个统计,发现 处女座 、天秤座以及 射手座 、白羊座的女性 单身率略高一些

最后,我们来看一下她们的择偶标准吧,小编将她们的 择偶标准 多带带提取出来,然后绘制成了词云图

review_list = []reviews = get_cut_words("".join(df_girls["requirements"].astype(str).tolist()))reviews_counter = Counter(reviews).most_common(200)print(reviews_counter)for review in reviews_counter:    review_list.append((" " + review[0] + " ") * review[1])stylecloud.gen_stylecloud(text=" ".join(review_list), max_words=500, collocations=False,                          font_path="KAITI.ttf", icon_name="fab fa-apple", size=653,                          output_name="4.png")

最后呈现出来的样子如下图所示

可见相亲市场上的女生,她们首先是希望男方是要 有房有车 的,其次要是男方之前存在婚史,女生会比较介意,然后要是 有稳定的工作 、有能力有责任心,通常都会给女生留下比较好的印象,而至于外在条件上,大多数女生的回答则是身高在 175-180左右 ,年龄在 90-97年之间

写在最后

近年来,随着人们思想观念的改变, 相亲也逐渐得到年轻人的接受与认可 ,特别是对于那些圈子比较窄,接触不到异性的人而言。小编希望每个人都能够在最后收获爱情,拥有美好的生活。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/123063.html

相关文章

  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 告别CTO,体验创业维艰

    摘要:加入维权骑士团队,担任技术负责人,俗称。三创业榜单年月,在维权骑士正好呆满一整年。因为自己的一些考虑,我选择出来创业,创业的项目叫榜单。年开发管理经验,龙泉寺信息技术组义工,前维权骑士技术负责人。持续创业者,目前在做榜单创业 一、当CTO 2016年3月,我离开北京华夏基金,来到杭州。加入维权骑士团队,担任技术负责人,俗称CTO。 诚惶诚恐,最开始的时候很害怕别人称呼自己CTO。...

    MorePainMoreGain 评论0 收藏0
  • 爬取知乎60万户信息之后简单分析

    摘要:标签使用爬取了知乎万用户数据,做了简单的可视化分析。网上的爬虫教程很多,而自己的主语言是,本着宣传,以练促学的目的,我使用爬取了知乎万用户信息,主要想看看知乎上妹子多不多啊是不是都是基佬啊,标配常青藤年薪百万是不是真的啊,等等。 标签 : webporter [TOC] 使用 Java+Elasticsearch+Kibana 爬取了知乎 60 万用户数据,做了简单的可视化分析。 ...

    233jl 评论0 收藏0
  • 假装Python高手,把类这样改,真刺激!

    摘要:今天我们来说一个非常实用的例子,小菜接到组长老王的一个任务,安排一个新的活,这个活是这样的老王小菜啊,你帮我写一个登入脚本,跑十几条命令到服务器上,然后存一下日志。这个时候,小菜偷偷的瞄了一眼组长老王,常舒一口气,总于写完了。 Python学了好几年,发现功力还是那样,很多同学经常这样抱...

    dance 评论0 收藏0
  • Python为何能成为数据分析主流工具?

    摘要:根据在年的调查显示,近的数据科学家使用作为主要的编程语言,每一次的进步都是它成为数据分析主流工具的重要因素。根据进行的一项调查显示,在上的月活跃用户的占比在年后大幅上升。 昨天,微信的Python交流群出现了这样的对话: showImg(https://segmentfault.com/img/bVbjV16?w=700&h=425); 看到这部分代码交流,让我不禁感受到Python的...

    macg0406 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<