资讯专栏INFORMATION COLUMN

Scrapy Demo

VEIGHTZ / 1744人阅读

摘要:用于下载网页内容,并将网页内容返回给。中间件位于引擎和下载器之间的钩子框架,主要是处理引擎与下载器之间的请求及响应。包含了在启动时进行爬取的列表。对象经过调度,执行生成对象并送回给方法一般返回实例。

Scrapy 是什么

Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取 API 所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

现在最新版本为 1.0,同时支持 2.7.x 和 3.x。

官方网站

中文版document

Scrapy 架构

Scrapy 使用了 Twisted 异步网络库来处理网络通讯, 整体架构大致如下:

Scrapy 主要包括了以下组件:

Scrapy Engine:用来处理整个系统的数据流处理,触发事务。

Scheduler:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。

Downloader:用于下载网页内容,并将网页内容返回给 Spiders。

Spiders:Spiders 是主要干活的,用它来制订特定域名或网页的解析规则。

Item Pipeline:负责处理由 Spiders 从网页中抽取的项目,它的主要任务是清晰、验证和存储数据。当页面被 Spiders 解析后,将被发送到 Item Pipeline,并经过几个特定的次序处理数据。

Downloader 中间件:位于Scrapy引擎和下载器之间的钩子框架,主要是处理 Scrapy 引擎与下载器之间的请求及响应。

Spider 中间件:介于 Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。

Scheduler 中间件:介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
  

使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。

下载安装
pip install scrapy
Hello World 创建工程

在 cmd 下切换到想创建 scrapy 项目的地方,然后使用命名

scrapy startproject tutorial

:tutorial 为工程名
然后就会发现在当前位置会多出一个文件夹,名字是 tutorial。它的目录结构是这样的:

tutorial/
    scrapy.cfg
    tutorial/
        spiders/
            __init__.py
        __init__.py
        items.py
        pipelines.py
        settings.py


scrapy.cfg 是该项目的全局配置文件
tutorial/: 该项目的python模块。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

定义 Item

Item 是保存爬取到的数据的容器;其使用方法和python字典类似。虽然您也可以在 Scrapy 中直接使用dict,但是 Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。
这里这样写

# -*- coding: utf-8 -*-
import scrapy
class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

DmozItem 为该 Item 的名字, 该类是一个 scrapy.Item 类。
我这里想获取到的信息是 title、link 和 desc 这三个字段,它们都是 scrapy.Field 类型的。

编写爬虫

在 tutorial/spiders/ 下创建一个 py 文件 dmoz_spider.py,它是这样定义的:

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath("//ul[@class="directory-url"]/li")
        for sel in sites:
            item = DmozItem() # 实例化一个 DmozItem 类
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item

爬虫类必须继承自 scrapy.Spider 类, 且定义一些属性:
name: 用于区别 Spider。 该名字必须是唯一的,不可以为不同的 Spider 设定相同的名字。
start_urls: 包含了 Spider 在启动时进行爬取的 url 列表。 因此,第一个被获取到的页面将是其中之一, 后续的URL则从初始的URL获取到的数据中提取。
parse() 是 spider 的一个方法。 被调用时,每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成 item )以及生成需要进一步处理的 URL 的 Request 对象。scrapy 为 Spider 的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了 Request。Request 对象经过调度,执行生成 scrapy.http.Response 对象并送回给 spider parse() 方法, 一般返回 Item 实例。

爬取

进入该工程目录,本例中就是 tutorial/, 在命令行执行

scrapy crawl dmoz
保存

可以使用如下命令

scrapy crawl dmoz -o items.json

该命令是说将结果保存在 items.json 文件中。

常用的命令行工具
# 创建项目
scrapy startproject myproject
# 帮助信息
scrapy  -h 
# 帮助信息
scrapy -h 
# 使用下载器下载指定的url,并将获取到的内容送到标准输出
scrapy fetch 
# 在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现
scrapy view 
# 以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell
scrapy shell [url]
#在未创建项目的情况下,运行一个编写在Python文件中的spider
scrapy runspider 
# 获取Scrapy的设定
scrapy settings [options]
-------------------------以上不需要项目,以下需要在项目中----------------------------------------
# 使用 template 模版来信创建一个 spider, name 值为, allowed_domains 值为  
scrapy genspider [-t template]   
# 查看可用的模版,默认有 basic、crawl、csvfeed 和 xmlfeed 4个
scrapy genspider -l
# 查看 TEMPLATE 信息
scrapy genspider -d TEMPLATE 
# 使用进行爬取数据
scrapy crawl 
# 列出当前项目中所有可用的 spider
scrapy list
# 运行contract检查。
scrapy check [-l] 
# 获取给定的URL并使用相应的spider分析处理,可以解析成自己写的 item
scrapy parse  [options]

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38320.html

相关文章

  • 【python爬虫学习 】python3.7 scrapy 安装,demo实例,实践:爬取百度

    摘要:安装可能的问题问题解决实例教程中文教程文档第一步创建项目目录第二步进入创建爬虫第三步创建存储容器,复制项目下的重命名为第四步修改提取数据引入数据容器第五步解决百度首页网站抓取空白问题设置设置用户代理解决相关解决数据保存乱 pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is requi...

    asoren 评论0 收藏0
  • scrapy入门

    摘要:快速入门首先,初步要做的就是快速构建一个爬虫。然后把结果加入到一个队列中。既然是入门,我们肯定是先关心我们需要的。 因为公司项目需求,需要做一个爬虫。所以我一个python小白就被拉去做了爬虫。花了两周时间,拼拼凑凑总算赶出来了。所以写个blog做个记录。 快速入门 首先,初步要做的就是快速构建一个爬虫。 配置环境 Mac下安装 1) 直接从官网下载 python下载官网 2) 是通过...

    CrazyCodes 评论0 收藏0
  • scrapy 自学入门demo分享

    摘要:本文基于,平台完整项目代码安装安装官网下载注意环境变量是否配置成功安装为了安装顺利,请备好梯子安装过程中注意以下报错信息解决办法下载对应版本的文件表示版本表示位下载后在文件目录下执行文件名创建项目创建创建在项目跟目录执行配置文件 本文基于python 3.7.0,win10平台; 2018-08完整项目代码:https://github.com/NameHewei/python-scr...

    linkFly 评论0 收藏0
  • Python爬虫入门

    摘要:什么是爬虫一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息四种基本数据结构列表列表中的每个元素都是可变的列表的元素都是有序的,也就是说每个元素都有对应的位置列表可以容纳所有的对象波波超哥小明波波超哥小明如果为切片返回的也是列 什么是爬虫? 一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息 Python四种基本数据结构 列表 **列表中的每个元素都是可变的...

    xbynet 评论0 收藏0
  • scrapy利用redis实现url去重与增量爬取

    摘要:引言之前数据采集时有个需求就是去重与数据的增量爬去只能够请求增加的,不然会增加被爬网站的服务器负荷最开始的想法是指用的实现去重,但在后面开发中无意的解决了增量爬去的类容。 引言 之前数据采集时有2个需求就是url去重与数据的增量爬去(只能够请求增加的url,不然会增加被爬网站的服务器负荷),最开始的想法是指用redis的set实现url去重,但在后面开发中无意的解决了增量爬去的类容。下...

    TerryCai 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<