资讯专栏INFORMATION COLUMN

复仇者联盟谁才是绝对 C 位?Python分析9万条数据告诉你答案

shiweifu / 2447人阅读

摘要:数据库文件已经超过了了。复联从开始便是漫威宇宙各路超级英雄的集结,到现在的第部,更是全英雄的汇聚。所以,灭霸出现的次数居然高于了钢铁侠。情感分析,又称为意见挖掘倾向性分析等。

作者 | 罗昭成
责编 | 唐小引

《复联 4》国内上映第十天,程序员的江湖里开始流传这样一个故事,即:漫威宇宙,其实就讲了一件事情。整个宇宙就好比一个项目组。其中有一群叫作美国队长、钢铁侠、惊奇队长、浩克、索尔等人在维护这个项目,兢兢业业的维护整个项目。

某一天,出现了一个天才程序员,叫灭霸。当他加入到这家公司的时候,他意识到,这个项目已经非常庞大,仅仅是编译,就要几个小时。运行起来负重累累。而服务器资源又非常的有限,老板又不给预算买新机器,如果一直继续这么开发下去,这个项目迟早要出现 P0 事故。于是,他下定决定要把这个项目全面优化,使用用面向对象思想,提取重复代码,业务拆分,算法优化等手段,彻底优化,目标是代码量减少 50%。

美国队长带领的项目组叫复仇者联盟,发现了灭霸程序员的想法后,阻止并警告灭霸说:不要轻易去改老代码!!很容易出 bug 的,代码能跑就行!!

—— 以上来自知乎@郭启军那么,作为一个写程序员的电影,我们怎么不能用数据来分析一下,喜欢漫威宇宙的观众对《复联 4》的评价呢?

01抓取数据

业界朋友们,在电影分析中,使用猫眼的数据比较多。在本文中,笔者也使用了猫眼的接口来获取数据,方便处理,数据量也比较多。有关接口,大家可以自己去猫眼的网站上看,也可以使用如下地址:

在 Python 中,使用 Request 可以很方便地发送请求,拿到接口返回的 JSON 数据,来看代码:

请求返回的是一个 JSON 数据,拿到我们想要的评论原始数据,并将数据存储在数据库中:

经过大概两个小时,终于从猫眼爬取了大约 9 万条数据。数据库文件已经超过了 100M 了。

02数据清洗

因为在上面抓取下来的数据,直接进行了原数据的存储,没有进行数据的解析处理。接口中包含了很多数据,有用户信息、评论信息等。本次分析,只使用了部分数据,所以需要将用到的相关数据清洗出来:

通过 JSON 库将原始数据解析出来,将我们需要的信息存储到新的数据表中。

03数据分析

因为没有任何一个平台能够拿到用户的购票数据,我们只能从评论的数据中,以小见大,从这些数据中,分析出一些走势。 在评论数据中,我们能看到评论用户所在的城市。将数据所在的位置解析,划分到各对应的行政省,可以看到每个省评论数量,见下图(颜色越红,用户评论数量越多):

城市从图中可以看到, 上海、广州、四川用户的数量显然要比其他城市的用户数量要多得多。再来看一下代码:

漫威电影一直深受中国朋友们喜欢的高分电影。豆瓣评分 8.7 分,那我们的评论用户中,又是一个什么样的趋势呢?见下图:

评分数从图中可以看到,评 5 分的数量远高于其他评分,可见中国的观众朋友确实喜欢漫威的科幻电影。复联从 1 开始便是漫威宇宙各路超级英雄的集结,到现在的第 4 部,更是全英雄的汇聚。那么,在这之中,哪位英雄人物更受观众欢迎?先看代码:

运行结果如下图,可以看到钢铁侠钢铁侠是实至名归的 C 位,不仅电影在电影中是,在评论区仍然也是实至名归的 C 位,甚至于远超美队、寡姐和雷神:

英雄评论次数从以上观众分布和评分的数据可以看到,这一部剧,观众朋友还是非常地喜欢。前面,从猫眼拿到了观众的评论数据。现在,笔者将通过 Jieba 把评论进行分词,然后通过 Wordcloud 制作词云,来看看,观众朋友们对《复联》的整体评价:

词云分析可以看到,灭霸和钢铁侠出现的词频比其他英雄要高很多。这是否表示,这部剧的主角就是他们两个呢?细心的朋友应该发现了,钢铁侠、灭霸的数量在词云和评论数量里面不一致。原因在于,评论数量就按评论条数来统计的,而词云中,使用的是词频,同一条评论中,多次出现会多次统计。所以,灭霸出现的次数居然高于了钢铁侠。最后,再来分析一下钢铁侠与灭霸的情感分析,先上代码:

此处,使用 SnowNLP 来进行情感分析。情感分析,又称为意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

钢铁侠从图中看到, 钢铁侠的正向情感要比灭霸的正向情感要高,反派角色就是容易被人抗拒。

最最后,从《银河护卫队》时期穿越而来的灭霸在最后分钟变成了粉末消散而去,这也给我们程序员一个警钟:

重构代码,改善设计,降低系统复杂度,这样做很好。但是,一定要保证系统的稳定运行,不留安全隐患,不然,早晚会丢掉自己的工作。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43734.html

相关文章

  • 数据上看:才是漫威的绝对C

    摘要:据说此部之后,不少影迷熟知的角色演员就要离开漫威世界的荧幕了。换句话说用数据说话,谁才是漫威宇宙中着墨最多的人物我之前做了个小调查仅就我这边的采样来看,钢铁侠在国内是无法撼动的人气王。 复联4上映了!这次比美国还早了两天。当然,我还没看,不会给你们剧透,当然也不想不剧透。 这一部不仅是灭霸这一线剧情的结局,也被认为漫威第三阶段的收官之作。据说此部之后,不少影迷熟知的角色(演员)就要离开...

    RancherLabs 评论0 收藏0
  • 2018电影票房分析-才是票房之王

    摘要:另外由于豆瓣上一些电影评分数量太少而不显示,所以这里的电影数量会和票房数量有所差异。月度票房将类型片的票房按月划分,得到了这张图。 去年末的时候,我招收了新的 实训生 。本文是其中一位 @齐大圣 同学在实训两个月时完成的项目案例。(码上行动群里同学应该都看过这个名字,现在也是助教之一。)项目最初的想法是, 从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息...

    stormjun 评论0 收藏0
  • Python 分析才是《权力的游戏第八季》真正的C

    摘要:上个礼拜权力的游戏第八季放出大结局,最终的结果布兰登上了铁王座。第二位临冬城史塔克家族的城堡。第二位是什么都不懂的雪诺。第三位是白手起家最后又被骗的龙妈。 showImg(http://upload-images.jianshu.io/upload_images/13825820-995fbee837346456.jpg?imageMogr2/auto-orient/strip%7Ci...

    LiangJ 评论0 收藏0
  • 数据库之战| 寻找心中的数据库漫威英雄

    摘要:可以说数据库系统是目前世界上流行的关系数据库管理系统。图形数据库是数据库家族中特殊的存在,用于存储丰富的关系数据,是目前最流行的开源图形数据库,支持完整的事务。匹配数据库可以说是数据库开源界当之无愧的王者是最受 ​今晚,就在今晚0点,《复仇者联盟4-终局之战》就要首映了! 四月什么最难抢?!绝对是《复仇者联盟4》的首映票预售。飙到接近300的票价也难以阻挡漫威粉们的狂热。 不知道大家有...

    codeKK 评论0 收藏0
  • 数据库之战| 寻找心中的数据库漫威英雄

    摘要:可以说数据库系统是目前世界上流行的关系数据库管理系统。图形数据库是数据库家族中特殊的存在,用于存储丰富的关系数据,是目前最流行的开源图形数据库,支持完整的事务。匹配数据库可以说是数据库开源界当之无愧的王者是最受 ​今晚,就在今晚0点,《复仇者联盟4-终局之战》就要首映了! 四月什么最难抢?!绝对是《复仇者联盟4》的首映票预售。飙到接近300的票价也难以阻挡漫威粉们的狂热。 不知道大家有...

    Donne 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<