资讯专栏INFORMATION COLUMN

为了一窥国足输韩国之后人们的评论,我爬了懂球帝APP

Ververica / 1579人阅读

摘要:如果你是个足球迷的话,估计或多或少都会看一下昨晚中国踢韩国的比赛,因为不管他们踢得怎样,我们还是深爱着他们,那句话说得好,国足虐我千百遍,我待国足如初恋。

如果你是个足球迷的话,估计或多或少都会看一下昨晚中国踢韩国的比赛,因为不管他们踢得怎样,我们还是深爱着他们,那句话说得好,“国足虐我千百遍,我待国足如初恋”。更何况他们两场都踢赢了,所以面对第三场实力有点强的韩国队也是希望能赢的,毕竟我们也在十二强赛上赢过他们!

如果你不是个足球迷,但你也可以看看,可以学习下如何去抓APP的数据。好了,废话不多说,开始抓取!

1.抓包分析请求

手机抓包我们可以用 Fiddler 软件来抓取,如果不懂怎样抓的话,可以看看这篇文章抓包软件 Fiddler 了解一下?

配置好之后,开始抓包。

首先找到需要爬取的文章

懂球帝app截图

文章链接为:https://m.dongqiudi.com/artic...

在配置好抓包之后,点击下方的评论,可以看到

评论截图

抓包截图

很容易就找到文章评论的请求,就是下面这个

可以看到请求的链接为:https://api.dongqiudi.com/v2/... ,

请求方法为GET,接下来就好办了,我们再看看滑下去查看更多的评论的请求。

可以看到,向下翻页多了两个参数,不过容易知道,next 参数就是一个时间戳,而 pn 参数就是页数吧,从 0 开始的。

但是怎样判断所有评论已经爬完了呢?我们可以看看数据的详情,下面将 json 数据格式化,在下图可以看到在 data 里面有下一页的数据,那这就容易了,哈哈

分析了,接下来就是代码部分了。

2.代码部分

这是主体部分,先从第一个评论链接中爬取评论以及找出下一页的评论地址进而继续爬取。这里是把数据库存进 mongodb 中。

主要的爬取逻辑,可以看出来是比较简单的,因为没有涉及到什么加密参数之类的,但是有一个问题,每一次进行请求的时候,有时候是会返回带有相同的评论的,所以我们也需要在数据库简单地进行去重。

下面是入库和去重的代码部分

剩下的就没有了。

3.查看所得的数据

由于数据分析还不熟悉,所以暂时只制作词云图。

需要先将数据写到文本上

词云图是:

可以看出,昨晚国足输一场,也被很多人喷了,但是还是有很多人是一直支持的,永远都为国足加油,里面也说到了,中国和韩国是有一定差距的,而且还有点大,输了也正常不过了,没必要喷,再说我觉得昨晚的比赛已经比第一场的比赛好很多(第二次没看),还是有进步的,我对国足未来淘汰赛也是充满期望的,我相信能走得更远!

下一场 踢泰国, 20号,有人看吗?

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43044.html

相关文章

  • vue2 + vue-router+ es6,vue2最新SPA项目实战-仿懂球帝-爆炸足球

    摘要:爆炸足球模仿懂球帝移动端官网,欢迎各位老铁地址技术栈前端后端通过设置代理的方式请求懂球帝官网获取数据项目截图安装与运行建议使用淘宝镜像服务端运行访问项目打包运行打包后代码有任何问题可以在这里提,谢谢你的支持。欢迎各位老铁,飞机票 Vue2-football—爆炸足球 模仿懂球帝移动端官网,欢迎各位老铁stargithub地址:https://github.com/vqlai/vue2....

    TigerChain 评论0 收藏0
  • vue2 + vue-router+ es6,vue2最新SPA项目实战-仿懂球帝-爆炸足球

    摘要:爆炸足球模仿懂球帝移动端官网,欢迎各位老铁地址技术栈前端后端通过设置代理的方式请求懂球帝官网获取数据项目截图安装与运行建议使用淘宝镜像服务端运行访问项目打包运行打包后代码有任何问题可以在这里提,谢谢你的支持。欢迎各位老铁,飞机票 Vue2-football—爆炸足球 模仿懂球帝移动端官网,欢迎各位老铁stargithub地址:https://github.com/vqlai/vue2....

    Eric 评论0 收藏0
  • 2017-10-10 前端日报

    摘要:前端日报精选第期写给前端应届生的职业规划建议应用编译优化之路进阶篇命名空间模式解析源码解析之任务管理入门教程快速上手聊聊改变历史中文正式发布,带来种新的图表类型关系图解好好写代码吧使用手册掘金发布在即将全面支持掘金仿懂球帝 2017-10-10 前端日报 精选 【第1074期】写给前端应届生的职业规划建议webpack 应用编译优化之路JS进阶篇--命名空间模式解析gulp源码解析之任...

    myshell 评论0 收藏0
  • 2017 我所分享技术文章总结(下)

    摘要:对下半年所分享的文章进行整理,上半年总结的篇好文请点击这里,很多读者当时忘记了收藏,以致于查找一篇历史文章很费劲,因此在这里顺便做下记录。目前就分下下面几个大类,没有更多细分,已基本可以查找了。 对下半年所分享的文章进行整理,上半年总结的 98 篇好文请点击这里,很多读者当时忘记了收藏,以致于查找一篇历史文章很费劲,因此在这里顺便做下记录。目前就分下下面几个大类,没有更多细分,已基本可...

    XBaron 评论0 收藏0
  • 为什么选择混合云?UCloud混合云UHybrid产品优势、架构及与传统IDC、自建私有云对比

    摘要:立即咨询产品文档优刻得上线了混合云自建机房火爆预售官方补贴活动中针对混合云作了介绍,老刘博客本篇文章分享给大家有关产品优势架构及与传统自建私有云的对比。UCloud混合云UHybrid可提供丰富的IaaS和PaaS产品和专业的服务,整合UCloud公有云、托管云、私有云和客户自有托管IDC等资源,重点解决存量IT资源合理利用,实现多云互联互通,多区域灵活组网;满足各个行业上云业务稳定,平滑过...

    Tecode 评论0 收藏0

发表评论

0条评论

Ververica

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<