资讯专栏INFORMATION COLUMN

从数据上看:谁才是漫威的绝对C位

RancherLabs / 2729人阅读

摘要:据说此部之后,不少影迷熟知的角色演员就要离开漫威世界的荧幕了。换句话说用数据说话,谁才是漫威宇宙中着墨最多的人物我之前做了个小调查仅就我这边的采样来看,钢铁侠在国内是无法撼动的人气王。

复联4上映了!这次比美国还早了两天。当然,我还没看,不会给你们剧透,当然也不想不剧透。

这一部不仅是灭霸这一线剧情的结局,也被认为漫威第三阶段的收官之作。据说此部之后,不少影迷熟知的角色(演员)就要离开漫威世界的荧幕了。因此刚上映就备受关注,今天一天国内票房就已超5亿。

上次的文章《这可能是我用过最“强大”的API:Marvel API》中,我给大家演示了 漫威开放接口(Marvel API) 的功能,并且在最后留了个“彩蛋”:争取跟《复联4》同步上线一个案例。

很遗憾,最近几天忙着更新网站,眼看要鸽了。但庆幸的是,我们另一位实训生 @清风小筑 站出来把坑给填了:

对 Marvel API 中的数据进行统计分析,将角色之间关系进行可视化展示。 换句话说: 用数据说话,谁才是漫威宇宙中着墨最多的人物

我之前做了个小调查:

仅就我这边的采样来看,钢铁侠在国内是无法撼动的人气王。当然,这可能因为国内更多是漫威系列电影观众。

那么官方的喜好又是如何?

上文中我们说过,在 Marvel API 的开放数据中,包含了:

1491 个角色

43759 本漫画

6200 个创作者

10713 个系列

96740 个故事

75 个事件

我们这次案例选取的是 角色(character)故事(story) 之间的关系:

选取 故事最多的 N 个角色

根据 共同出现的故事数 ,衡量 角色之间的关联性

经过统计发现,故事数前3的是:

蜘蛛侠(Spider-Man)- 5192

X战警(X-Men)- 4551

钢铁侠(Iron Man)- 3483

关联性最高的前3位:

X战警 - 金刚狼 - 1001

神奇四侠 - 霹雳火 - 817

神奇四侠- 隐形女侠 - 773

故事数最多的25个英雄/团体的关系图:

故事数最多的99个英雄/团体的关系图:

Data provided by Marvel. 2014 Marvel  
数据由 Marvel 提供
来源:http://marvel.com

意料之外但情理之中, 蜘蛛侠是出现故事最多的角色 。这还只是主线角色,没算上各个平行宇宙和衍生角色。事实上,小蜘蛛在漫威迷中一直有着超高的人气,或许是因为他的故事更接近于现实中的每一个平凡人,也或许是他那份“ 能力越大,责任越大 (With great power comes great responsibility)”的坚持。而在国内观众熟知的漫威系列电影中,蜘蛛侠似乎戏份不多,这是由于蜘蛛侠的电影版权很早就卖给了索尼(X战警和神奇四侠也是类似)。

钢铁侠、美队、金刚狼 是紧随其后的角色, X战警 是故事最多的团体。

关系图上的颜色不是我们手动标注的,而是 Gephi 通过 聚类 自动划分的。文字标签的大小则体现故事数的多少。 X战警、神奇四侠、复仇者联盟 ,这三个团体垄断了漫威绝大部分的故事。神奇四侠虽然人物和故事不算多,但相关关联很紧密(大多同时出场),相反典型是 雷神(Thor) ,虽然故事很多,但大多独来独往。

最后来说说这个关系图的实现过程。主要是两大块:

从 Marvel API 获取数据 。首先是获取所有角色,然后获取角色相关的故事,再根据这些故事信息将角色进行关联统计,最终得到 节点(角色、故事数)和边(关联故事数) 的数据。

通过 可视化分析工具 Gephi 将节点和边的数据进行 可视化 展示,生成关系图表。Gephi 的功能很强大,可以调节不同的展示效果,各位可以自行体会下。

其他需要注意的:

我们没有直接通过网络请求 Marvel API,而是使用了上次文章中提到的 marvel 模块来实现。(使用示例见前文)

中间的临时数据,因为是 JSON 格式,于是我们用 mongodb 进行了存储,便于后续整理分析。如果你自己运行,也可以通过其他方式(比如文件)进行存储。

经过处理后的节点、边数据我们保存成了 csv 文件,你可以在项目中获取,直接放进 Gephi 使用。仅供学习,请勿商用。

Marvel API 需要 申请秘钥 、有请求 速率限制 ,使用时需 标注数据出处和来源网址

相关网址:

Marvel API https://developer.marvel.com/docs

marvel库 https://pypi.org/project/marvel/

Gephi操作手册 https://gephi.org/users/quick-start/

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43653.html

相关文章

  • 复仇者联盟才是绝对 C ?Python分析9万条数据告诉你答案

    摘要:数据库文件已经超过了了。复联从开始便是漫威宇宙各路超级英雄的集结,到现在的第部,更是全英雄的汇聚。所以,灭霸出现的次数居然高于了钢铁侠。情感分析,又称为意见挖掘倾向性分析等。 showImg(https://segmentfault.com/img/remote/1460000019095022); 作者 | 罗昭成责编 | 唐小引 《复联 4》国内上映第十天,程序员的江湖里开始流传这...

    shiweifu 评论0 收藏0
  • 2018电影票房分析-才是票房之王

    摘要:另外由于豆瓣上一些电影评分数量太少而不显示,所以这里的电影数量会和票房数量有所差异。月度票房将类型片的票房按月划分,得到了这张图。 去年末的时候,我招收了新的 实训生 。本文是其中一位 @齐大圣 同学在实训两个月时完成的项目案例。(码上行动群里同学应该都看过这个名字,现在也是助教之一。)项目最初的想法是, 从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息...

    stormjun 评论0 收藏0
  • Python 分析才是《权力的游戏第八季》真正的C

    摘要:上个礼拜权力的游戏第八季放出大结局,最终的结果布兰登上了铁王座。第二位临冬城史塔克家族的城堡。第二位是什么都不懂的雪诺。第三位是白手起家最后又被骗的龙妈。 showImg(http://upload-images.jianshu.io/upload_images/13825820-995fbee837346456.jpg?imageMogr2/auto-orient/strip%7Ci...

    LiangJ 评论0 收藏0
  • 《奇异博士》世界的源码之谜

    摘要:昨天去看了最近火的发热的好莱坞大片奇异博士,故事套路依旧好莱坞,特效吊炸天,看着确实挺爽。咒语是编程这个世界的源代码的关键词,或者函数。奇异博士让我们接触到了这个世界的底层世界,魔法师则是能够掌握和利用这个底层世界的一群人。 昨天去看了最近火的发热的好莱坞大片《奇异博士》,故事套路依旧好莱坞,特效吊炸天,看着确实挺爽。 showImg(/img/bVFeD0?w=640&h=360);...

    _ipo 评论0 收藏0

发表评论

0条评论

RancherLabs

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<