资讯专栏INFORMATION COLUMN

爬取博客园首页数据进行数据分析

zilu / 1606人阅读

摘要:目标选取了博客园,爬取了首页的前页文章,但是数据放在那一直没去分析。为了避免对博客园造成压力,爬虫代码不公开。注数据来源是年月日至月的博客园首页文章。谁是博客园最爱的用户最爱的用户,在这里是按文章上首页的数量来判断的。

前言

之前折腾了一小段时间scrapy,觉得使用起来异常简单,然后打算练练手。目标选取了博客园,爬取了首页的前200页文章,但是数据放在那一直没去分析。趁着现在有闲心,来分析分析。

声明:所有爬取的数据皆为公开数据。为了避免对博客园造成压力,爬虫代码不公开。数据分析软件使用的是Tableau。如果你认为本文侵犯了你的权益,请联系作者删除。

注:数据来源是2017年05月17日至8月17的博客园首页文章。前文都是数据分析的图片展示,想要博主或文章的链接,请拉至最后。

谁是博客园最爱的用户

最爱的用户,在这里是按文章上首页的数量来判断的。

可见,小火柴的蓝色理想才是博客园最爱的用户。

让我们换个角度看看

小火柴的蓝色理想貌似已经独孤求败了,远远的拉开了第二名。(作者注:非常推荐他的博客,后面会给出链接)

最值得推荐的文章是哪些

访问量最多的文章是哪些

评论最多的文章是哪些

哪天上首页的文章比较多

大家以后可以看好时机发表文章了。

各类链接 博客园最爱的用户

小火柴的蓝色理想, 75

CloudMan, 36

林本托, 27

黑桃花, 26

jiajun_geek, 24

余林丰, 24

悦光阴, 24

_Json, 23

python修行路, 23

GeaoZhang, 22

Madcola, 22

Sweet-Tang, 21

『圣杰』, 19

外婆的彭湖湾, 19

博客园团队, 18

纯洁的微笑, 18

YSOcean, 17

banananana, 17

AlfredZhao, 16

Angel_Kitty, 16

最多推荐

文件各种上传,离不开的表单 - 农码一生, 190

【干货】Chrome插件(扩展)开发全攻略 - 我是小茗同学, 153

是什么优化让 .NET Core 性能飙升? - 葡萄城控件技术团队, 138

理工男打造帝都89平智能家庭 - FerventDesert, 128

是时候,反思一下 - 悦光阴, 117

.NET ORM框架 SqlSugar4.0 功能详解与实践【开源】 - 孙凯旋, 114

【javascript】函数中的this的四种绑定形式 — 大家准备好瓜子,我要讲故事啦~~ - 外婆的彭湖湾, 108

纯 CSS 实现波浪效果! - ChokCoco, 107

飘摇的心 - 野百合也有春天324, 106

其实,我只想安静的写写代码... - 飞不动, 103

ASP.NET Core 快速入门(环境篇) - 农码一生, 103

是时候开始用C#快速开发移动应用了 - 腾飞(Jesse), 101

每天4亿行SQLite订单大数据测试(源码) - 大石头, 99

技术人生的职场众生相 - 十多年的经验与心得 - 灵感之源, 97

".NET Core 事件总线,分布式事务解决方案:CAP" - Savorboard, 93

Amazing ASP.NET Core 2.0 - Savorboard, 93

整理自己的.net工具库 - 缺水的水瓶座, 87

程序员装修指南 - 无知者云, 86

文件下载之断点续传(客户端与服务端的实现) - 农码一生, 86

奇妙的 CSS shapes(CSS图形) - ChokCoco, 83

最多访问

技术人生的职场众生相 - 十多年的经验与心得 - 灵感之源, 20814

理工男打造帝都89平智能家庭 - FerventDesert, 19510

用 Docker Machine 创建 Azure 虚拟主机 - sparkdev, 18140

Docker Machine 详解 - sparkdev, 18126

是时候开始用C#快速开发移动应用了 - 腾飞(Jesse), 11943

Amazing ASP.NET Core 2.0 - Savorboard, 11527

飘摇的心 - 野百合也有春天324, 9912

纯 CSS 实现波浪效果! - ChokCoco, 9899

PowerShell 远程执行任务 - sparkdev, 9727

linux sed 命令 - sparkdev, 9627

局域网内部署 Docker Registry - sparkdev, 9199

从.net到java,记录下这三个月的工作 - _liuxx, 9051

也谈TDD,以及三层架构、设计模式、ORM……:没有免费的午餐 - 自由飞, 8917

性能优化知多少 - 『圣杰』, 8865

Web前端知识体系精简 - 一像素, 8495

PowerShell 脚本中的密码 - sparkdev, 8361

C#码农的大数据之路 - 使用C#编写MR作业 - hystar, 8328

文件各种上传,离不开的表单 - 农码一生, 8321

.NET Core 2.0 正式发布信息汇总 - 张善友, 8303

Docker Machine 简介 - sparkdev, 8291

最多评论

十年过去了,各位 .net 兄弟还好吗 - 精密~顽石, 240

C#简单构架之EF进行读写分离+多数据库(Mysql/SqlService) - 追随微笑, 180

"身在上海的她,该不该继续""坚持""前端开发?" - 涵s, 148

其实,我只想安静的写写代码... - 飞不动, 129

理工男打造帝都89平智能家庭 - FerventDesert, 125

.NET C#转Java没那么难,开发环境篇 - RabbitYi, 125

是时候,反思一下 - 悦光阴, 124

飘摇的心 - 野百合也有春天324, 112

面对疑似网络诈骗,应该怎样维权?反信用钱包! - 农码一生, 107

我要去上海(更新) - 初八见, 102

整理自己的.net工具库 - 缺水的水瓶座, 98

是时候开始用C#快速开发移动应用了 - 腾飞(Jesse), 92

从.net到java,记录下这三个月的工作 - _liuxx, 88

当了三年多的程序猿,一朝醒悟! - 微笑着行走者, 85

.NET ORM框架 SqlSugar4.0 功能详解与实践【开源】 - 孙凯旋, 83

短信接口攻击事件(一)紧张的遭遇战险胜 - 涵s, 82

关于面试!(简历篇) - 碎冰, 79

云计算之路-阿里云上:攻击又来了,4个IP分别遭遇超过30G的流量攻击 - 博客园团队, 79

误入前端三年,一个文科生的独白(上) - 闰土少年, 78

【干货】Chrome插件(扩展)开发全攻略 - 我是小茗同学, 77

感谢你的阅读。文章首发于前端进阶指南微信公众号,想要获取更多知识,就快快关注吧。

我们也是有交流群的,660112451。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/40846.html

相关文章

  • 爬取博客首页并定时发送到微信

    摘要:应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信。 应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信。 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解析Html wxpy:微信接口 Schedule:定时器 代码 # -*-coding:u...

    aaron 评论0 收藏0
  • 个人博客建站最全解析

    摘要:今天呢我想给大家,也给我自己,对我的个人网站做一个全面的整理和分析。首页上用户直接看得到的部分有导航栏和轮播大图当时写这个网站的设想是在年月份的时候。目前网上流行的个人博客页面。感谢框架对本网站的大力支持。大家好~又见面了。 今天呢我想给大家,也给我自己, 对我的个人网站yanyy.cn/yanyy 做一个全面的整理和分析。 也给有这方面想法的朋友一个参考。 做网站的有爱好也有带有目的性的。...

    zlyBear 评论0 收藏0
  • java爬取博客个人博客

    摘要:本人以前也是搞过几年,由于公司的岗位职责,后面渐渐地被掰弯,现在主要是做前端开发。所以想利用爬取文章,再将爬取的转化成目前还未实现,欢迎各位同学指导。 java爬取博客园个人博客 前言 近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地址配置把...

    leonardofed 评论0 收藏0
  • 我是如何将博客转成PDF的

    摘要:但发现导出来的没有高亮语法没有语法高亮咋看啊,所以到这里我就放弃了,将就用一下博客园生成的吧爬虫学习上面提供的接口是一个生成一个文件,我是不可能一个一个将链接和标题放上去生成的因为博客园上发的也将近篇了。 前言 只有光头才能变强 之前有读者问过我:3y你的博客有没有电子版的呀?我想要份电子版的。我说:没有啊,我没有弄过电子版的,我这边有个文章导航页面,你可以去文章导航去找来看呀..然后...

    mindwind 评论0 收藏0
  • python大规模爬取京东

    摘要:以上只是一个普通的爬虫,并没有用到什么框架,接下来将会写框架爬取的,请继续关注我的博客哦本人博客 python大规模爬取京东 主要工具 scrapy BeautifulSoup requests 分析步骤 打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点 我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我...

    megatron 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<