资讯专栏INFORMATION COLUMN

scrapy简单学习2—解析简单的spider代码

luck / 3073人阅读

摘要:学习网站麦子学院网络爬虫解析代码爬虫名是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页。要爬取的网站解析的方法,调用的时候传入从每一个传回的对象作为唯一参数,负责解析并匹配抓取的数据解析为,跟踪更多的。

学习网站:
麦子学院scrapy
python网络爬虫
解析代码:

import scrapy

from tutorial.items import DmItem

class DmozSpider(scrapy.Spider):
    name = "dm" #爬虫名
    allowed_domains = ["dmoz.org"]#allow_domains是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页。
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]#要爬取的网站
    
    
        #parse解析的方法,
        #调用的时候传入从每一个URL传回的Response对象作为唯一参数,
        #负责解析并匹配抓取的数据(解析为item),跟踪更多的URL。
    def parse(self, response):
        
        #爬取网页所有的ul标签下li标签
        for li in response.xpath("//*[@id="bd-cross"]/fieldset[3]/ul/li"):
            #项目=载入DmItem()类
            item = DmItem()
            #项目["标题"]=li标签里面的a标签的文子()
            item["title"] = li.xpath("a/text()").extract()
            #连接=li标签里a标签的href属性
            item["link"] = li.xpath("a/@href").extract()
            #描述=li标签里的text()
            item["desc"] = li.xpath("text()").extract()
            
            yield item#返回项目

备注:简单的罗列一下有用的xpath路径表达式

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37610.html

相关文章

  • Python爬虫之Scrapy学习(基础篇)

    摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...

    pkhope 评论0 收藏0
  • Python爬虫 - scrapy - 爬取豆瓣电影TOP250

    摘要:前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。 0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。所以找了很多实例和文...

    WalkerXu 评论0 收藏0
  • scrapy学习笔记

    摘要:是最有名的爬虫框架之一,可以很方便的进行抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一些常见问题一安装在安装之前有一些依赖需要安装,否则可能会安装失败,的选择器依赖于,还有网络引擎,下面是下安装的过程下安装安装 scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一...

    luzhuqun 评论0 收藏0
  • Scrapy 框架入门简介

    摘要:解析的方法,每个初始完成下载后将被调用,调用的时候传入从每一个传回的对象来作为唯一参数,主要作用如下负责解析返回的网页数据,提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常...

    Coding01 评论0 收藏0

发表评论

0条评论

luck

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<