资讯专栏INFORMATION COLUMN

25、Python快速开发分布式搜索引擎Scrapy精讲—Requests请求和Response响应

Shihira / 3441人阅读

摘要:百度云搜索,搜各种资料搜网盘,搜各种资料请求请求就是我们在爬虫文件写的方法,也就是提交一个请求地址,请求是我们自定义的方法提交一个请求参数字符串类型地址回调函数名称字符串类型请求方式,如果字典类型的,浏览器用户代理设置字典类型键值对,向回调

【百度云搜索,搜各种资料:http://www.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】

Requests请求

Requests请求就是我们在爬虫文件写的Requests()方法,也就是提交一个请求地址,Requests请求是我们自定义的**

Requests()方法提交一个请求

  参数:

  url=  字符串类型url地址

  callback= 回调函数名称

  method= 字符串类型请求方式,如果GET,POST

  headers= 字典类型的,浏览器用户代理

  cookies= 设置cookies

  meta= 字典类型键值对,向回调函数直接传一个指定值

  encoding= 设置网页编码

  priority= 默认为0,如果设置的越高,越优先调度

  dont_filter= 默认为False,如果设置为真,会过滤掉当前url

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承scrapy.Spider
    name = "pach"                                           #设置爬虫名称
    allowed_domains = ["www.luyin.org/"]                    #爬取域名
    # start_urls = [""]                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息

    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"}  #设置浏览器用户代理

    def start_requests(self):    #起始url函数,会替换start_urls
        """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数"""
        return [Request(
            url="http://www.luyin.org/",
            headers=self.header,
            meta={"cookiejar":1},       #开启Cookies记录,将Cookies传给回调函数
            callback=self.parse
        )]

    def parse(self, response):
        title = response.xpath("/html/head/title/text()").extract()
        print(title)

 

Response响应

Response响应是由downloader返回的响应

Response响应参数
  headers 返回响应头
  status 返回状态吗
  body 返回页面内容,字节类型
  url 返回抓取url

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承scrapy.Spider
    name = "pach"                                           #设置爬虫名称
    allowed_domains = ["www.luyin.org/"]                    #爬取域名
    # start_urls = [""]                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息

    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"}  #设置浏览器用户代理

    def start_requests(self):    #起始url函数,会替换start_urls
        """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数"""
        return [Request(
            url="http://www.luyin.org/",
            headers=self.header,
            meta={"cookiejar":1},       #开启Cookies记录,将Cookies传给回调函数
            callback=self.parse
        )]

    def parse(self, response):
        title = response.xpath("/html/head/title/text()").extract()
        print(title)
        print(response.headers)
        print(response.status)
        # print(response.body)
        print(response.url)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45270.html

相关文章

  • 22、Python快速开发布式搜索引擎Scrapy精讲scrapy模拟登陆知乎倒立文字验证码识

    【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】 第一步。首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/... 注意:此程序依赖以下模块包   Keras==2.0.1  Pillow==3.4.2  jupyter==1.0.0  matplotli...

    array_huang 评论0 收藏0
  • 18、 Python快速开发布式搜索引擎Scrapy精讲Scrapy启动文件的配置—xpath表

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料我们自定义一个来作为启动文件导入执行命令方法给解释器,添加模块新路径将文件所在目录添加到解释器执行命令爬虫文件表达式基本使用设置爬虫起始域名设置爬虫起始地址默认爬虫回调函数,返 【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】 我们自定义一个main.py来作为启动...

    rubyshen 评论0 收藏0
  • 23、 Python快速开发布式搜索引擎Scrapy精讲—craw scrapy item lo

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料用命令创建自动爬虫文件创建爬虫文件是根据的母版来创建爬虫文件的查看创建爬虫文件可用的母版母版说明创建基础爬虫文件创建自动爬虫文件创建爬取数据爬虫文件创建爬取数据爬虫文件创建一个基础母版爬虫,其他同理 【百度云搜索,搜各种资料:http://www.bdyss.cn】 【搜网盘,搜各种资料:http://www.swpan.cn】 用命令创建自动爬...

    QiuyueZhong 评论0 收藏0
  • 19、 Python快速开发布式搜索引擎Scrapy精讲—css选择器

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料选择器获取元素属性,选择器获取标签文本举例获取过滤后的数据,返回字符串,有一个默认参数,也就是如果没有数据默认是什么,一般我们设置为空字符串获取过滤后的数据,返回字符串列表这里也可以用获 【百度云搜索,搜各种资料:http://www.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 css选择器 1、 sh...

    happen 评论0 收藏0
  • 20、 Python快速开发布式搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容

    摘要:百度云搜索,搜各种资料搜网盘,搜各种资料编写爬虫文件循环抓取内容方法,将指定的地址添加到下载器下载页面,两个必须参数,参数页面处理函数使用时需要方法,是库下的方法,是自动拼接,如果第二个参数的地址是相对路径会自动与第一个参数拼接导 【百度云搜索,搜各种资料:http://bdy.lqkweb.com】 【搜网盘,搜各种资料:http://www.swpan.cn】 编写spiders爬...

    CntChen 评论0 收藏0

发表评论

0条评论

Shihira

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<