scrapy使用心得

sourcenode 发布于2019-07-30 16:25 / 3231人阅读

摘要：前言在公司一部分业务是爬虫相关了，有涉及到登录，验证码，也有国外的大社交网站。虽然是，但是在爬取大量网站可能需要用分布式的爬虫，当然也有操作流程图指定一个起始后，就可以根据以上原理图进行工作了。

前言

在公司一部分业务是爬虫相关了，有涉及到登录，验证码，也有国外的4大社交网站。所以记录下

scrapy 是什么

scrapy 是一个异步爬虫框架，使用它，可以屏蔽很多复杂的底层设计，只需要解析下载下来的页面，更多了我们需要关注的是目标网站/页面爬取的难易程度，该怎么来实现它。虽然是，但是在爬取大量网站可能需要用分布式的爬虫，当然scrapy 也有

操作流程图

指定一个起始url后，scrapy就可以根据以上原理图进行工作了。一个最简单的页面，指定页面的url进行第一次请求，经过引擎，交给调度器，然后调度器再返回给引擎，去下载这个页面，拿到这个页面就可以进行解析了。这里明显看的出来绕了一个圈子，如果最简单的的页面，这样子会发现多了调度这一步。但是一般在实际业务中，特别是分布式爬虫，会有很多url 需要爬取，而且一些url是动态添加到待爬队列的，
我们将所有的待爬都在调度器进行分配，当然这里也有其他操作，比如，一个url已经调度过，那么会进行标识，做到不再重复爬取。

队列

scrapy 默认的队列

SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleLifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.LifoMemoryQueue"
SCHEDULER_PRIORITY_QUEUE = "queuelib.PriorityQueue"

一般我们不关心这个队列结构，但是在做分布式时这个队列就需要替换

scrapy_redis

scrapy 本身是异步，但是不支持分布式爬取。要做到分布式爬取，那么需要一个公共的待爬队列

scrapy_redis 需要制定队列结构，可在 SpiderQueue，SpiderStack，
SpiderPriorityQueue 中选者一个，形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

更多知识

《Learning Scrapy》（中文版）0 序言

....以后再增加

云服务器 GPU云服务器使用心得使用心得与技巧阿里云使用心得橙云vps使用心得

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41671.html

windows下安装python+scrapy

摘要：好啦一切准备工作就绪，现在开始安装库安装成功后，安装就简单了，在命令提示符窗口直接输入命令回车现在一切都搞定了，可以新建一个测试，敲一个基于框架的爬虫程序咯。最近忽然有了想要学习python爬虫的想法，但是首先需要安装工具。python安装倒是很轻松，只要傻瓜式一键安装即可，但是在Windows下安装scrapy倒不是件容易的事情。言归正传，说下我从昨天下午到今天上午安装的步骤： 1...

dantezhao 2019-07-30 14:22 评论0 收藏0
scrapy爬虫使用总结——技巧和天坑

摘要：简介爬虫这个东西我就不多做介绍了，总之是一个很好用的爬虫库，且关于也有较多的教程。这篇文章记录一下我个人的项目规划和天坑心得。然后执行就会自动去爬数据了。常用配置这里要结合一些原因来进行说明。简介 scrapy爬虫这个东西我就不多做介绍了，总之是一个很好用的Python爬虫库，且关于scrapy也有较多的教程。这篇文章记录一下我个人的项目规划和天坑心得。通常来说，我们执行了scra...

vvpvvp 2019-07-30 16:50 评论0 收藏0
服务器上部署scrapy爬虫项目

摘要：爬爬们，如果你已经开始部署项目了，那么你肯定也已经写好了完整的爬虫项目，恭喜你，你很优秀今天忙了小半天的服务器部署，跟大家分享一些心得首先我们要有一台服务器，不好意思，这是废话，略过。。。。。爬爬们，如果你已经开始部署项目了，那么你肯定也已经写好了完整的爬虫项目，恭喜你，你很优秀！**今天忙了小半天的服务器部署，跟大家分享一些心得～首先我们要有一台服务器，不好意思，这是废话，略过...

UnixAgain 2019-07-31 11:17 评论0 收藏0
爬取博客园首页数据进行数据分析

摘要：目标选取了博客园，爬取了首页的前页文章，但是数据放在那一直没去分析。为了避免对博客园造成压力，爬虫代码不公开。注数据来源是年月日至月的博客园首页文章。谁是博客园最爱的用户最爱的用户，在这里是按文章上首页的数量来判断的。前言之前折腾了一小段时间scrapy，觉得使用起来异常简单，然后打算练练手。目标选取了博客园，爬取了首页的前200页文章，但是数据放在那一直没去分析。趁着现在有闲心，...

zilu 2019-07-30 14:40 评论0 收藏0