资讯专栏INFORMATION COLUMN

23、 Python快速开发分布式搜索引擎Scrapy精讲—craw scrapy item lo

QiuyueZhong / 2068人阅读

摘要:百度云搜索,搜各种资料搜网盘,搜各种资料用命令创建自动爬虫文件创建爬虫文件是根据的母版来创建爬虫文件的查看创建爬虫文件可用的母版母版说明创建基础爬虫文件创建自动爬虫文件创建爬取数据爬虫文件创建爬取数据爬虫文件创建一个基础母版爬虫,其他同理

【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】

用命令创建自动爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l  查看scrapy创建爬虫文件可用的母版

Available templates:母版说明
  basic        创建基础爬虫文件

  crawl        创建自动爬虫文件
  csvfeed        创建爬取csv数据爬虫文件

  xmlfeed     创建爬取xml数据爬虫文件

创建一个基础母版爬虫,其他同理

scrapy genspider  -t  母版名称  爬虫文件名称  要爬取的域名 创建一个基础母版爬虫,其他同理
如:scrapy genspider -t crawl lagou www.lagou.com

第一步,配置items.py接收数据字段

default_output_processor = TakeFirst()默认利用ItemLoader类,加载items容器类填充数据,是列表类型,可以通过TakeFirst()方法,获取到列表里的内容

input_processor = MapCompose(预处理函数)设置数据字段的预处理函数,可以是多个函数

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
#items.py,文件是专门用于,接收爬虫获取到的数据信息的,就相当于是容器文件

import scrapy
from scrapy.loader.processors import MapCompose,TakeFirst
from scrapy.loader import ItemLoader                #导入ItemLoader类也就加载items容器类填充数据

class LagouItemLoader(ItemLoader):                  #自定义Loader继承ItemLoader类,在爬虫页面调用这个类填充数据到Item类
    default_output_processor = TakeFirst()          #默认利用ItemLoader类,加载items容器类填充数据,是列表类型,可以通过TakeFirst()方法,获取到列表里的内容

def tianjia(value):                                 #自定义数据预处理函数
    return "叫卖录音网"+value                        #将处理后的数据返给Item

class LagouItem(scrapy.Item):                       #设置爬虫获取到的信息容器类
    title = scrapy.Field(                           #接收爬虫获取到的title信息
        input_processor = MapCompose(tianjia),      #将数据预处理函数名称传入MapCompose方法里处理,数据预处理函数的形式参数value会自动接收字段title
    )

第二步,编写自动爬虫与利用ItemLoader类加载items容器类填充数据

自动爬虫
Rule()设置爬虫规则
  参数:
  LinkExtractor()设置url规则
  callback="回调函数名称"
  follow=True 表示在抓取页面继续深入

LinkExtractor()对爬虫获取到的url做规则判断处理
  参数:
  allow= r"jobs/" 是一个正则表达式,表示符合这个url格式的,才提取
  deny= r"jobs/" 是一个正则表达式,表示符合这个url格式的,不提取抛弃掉,与allow相反
  allow_domains= www.lagou.com/ 表示这个域名下的连接才提取
  deny_domains= www.lagou.com/ 表示这个域名下的连接不提取抛弃
  restrict_xpaths= xpath表达式 表示可以用xpath表达式限定爬虫只提取一个页面指定区域的URL
  restrict_css= css选择器,表示可以用css选择器限定爬虫只提取一个页面指定区域的URL
  tags= "a" 表示爬虫通过a标签去寻找url,默认已经设置,默认即可
  attrs= "href" 表示获取到a标签的href属性,默认已经设置,默认即可

*

 利用自定义Loader类继承ItemLoader类,加载items容器类填充数据

*ItemLoader()实例化一个ItemLoader对象来加载items容器类,填充数据,如果是自定义Loader继承的ItemLoader同样的用法
  参数:
  第一个参数:要填充数据的items容器类注意加上括号,
  第二个参数:response*

ItemLoader对象下的方法:
  add_xpath("字段名称","xpath表达式")方法,用xpath表达式获取数据填充到指定字段
  add_css("字段名称","css选择器")方法,用css选择器获取数据填充到指定字段
  add_value("字段名称",字符串内容)方法,将指定字符串数据填充到指定字段
  load_item()方法无参,将所有数据生成,load_item()方法被yield后数据被填充items容器指定类的各个字段

 爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from adc.items import LagouItem,LagouItemLoader  #导入items容器类,和ItemLoader类

class LagouSpider(CrawlSpider):                     #创建爬虫类
    name = "lagou"                                  #爬虫名称
    allowed_domains = ["www.luyin.org"]             #起始域名
    start_urls = ["http://www.luyin.org/"]          #起始url

    rules = (
        #配置抓取列表页规则
        Rule(LinkExtractor(allow=("ggwa/.*")), follow=True),

        #配置抓取内容页规则
        Rule(LinkExtractor(allow=("post/d+.html.*")), callback="parse_job", follow=True),
    )

    def parse_job(self, response):                  #回调函数,注意:因为CrawlS模板的源码创建了parse回调函数,所以切记我们不能创建parse名称的函数
        #利用ItemLoader类,加载items容器类填充数据
        item_loader = LagouItemLoader(LagouItem(), response=response)
        item_loader.add_xpath("title","/html/head/title/text()")
        article_item = item_loader.load_item()

        yield article_item

items.py文件与爬虫文件的原理图


【转载自:http://www.lqkweb.com】

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45139.html

相关文章

  • 21、 Python快速开发布式搜索引擎Scrapy精讲—爬虫数据保存

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料注意数据保存的操作都是在文件里操作的将数据保存为文件是一个信号检测导入图片下载器模块定义数据处理类,必须继承初始化时打开文件为数据处理函数,接收一个,里就是爬虫最后来的数据对象文章标题是 【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】 注意:数据保存的操作都是在p...

    Alex 评论0 收藏0
  • 20、 Python快速开发布式搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料编写爬虫文件循环抓取内容方法,将指定的地址添加到下载器下载页面,两个必须参数,参数页面处理函数使用时需要方法,是库下的方法,是自动拼接,如果第二个参数的地址是相对路径会自动与第一个参数拼接导 【百度云搜索,搜各种资料:http://bdy.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 编写spiders爬...

    CntChen 评论0 收藏0
  • 18、 Python快速开发布式搜索引擎Scrapy精讲Scrapy启动文件的配置—xpath表

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料我们自定义一个来作为启动文件导入执行命令方法给解释器,添加模块新路径将文件所在目录添加到解释器执行命令爬虫文件表达式基本使用设置爬虫起始域名设置爬虫起始地址默认爬虫回调函数,返 【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】 我们自定义一个main.py来作为启动...

    rubyshen 评论0 收藏0
  • 24、Python快速开发布式搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料基本概念反爬虫的目的爬虫和反爬的对抗过程以及策略架构源码分析图 【百度云搜索,搜各种资料:http://www.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 1、基本概念 showImg(https://segmentfault.com/img/remote/1460000019749170); 2、反爬...

    PumpkinDylan 评论0 收藏0
  • 25、Python快速开发布式搜索引擎Scrapy精讲—Requests请求和Response响应

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料请求请求就是我们在爬虫文件写的方法,也就是提交一个请求地址,请求是我们自定义的方法提交一个请求参数字符串类型地址回调函数名称字符串类型请求方式,如果字典类型的,浏览器用户代理设置字典类型键值对,向回调 【百度云搜索,搜各种资料:http://www.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 Reque...

    Shihira 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<