资讯专栏INFORMATION COLUMN

爬虫养成记 - 网络下载器urllib2初认识

AlphaWallet / 3277人阅读

摘要:申明本系列文章借鉴了慕课网的课程,。慕课网是一个非常赞的学习网站。是下的一个模块,在中,被拆分成和实现一个最简单的下载器使用函数可以给服务器发送一个请求。该函数返回一个该返回的对象有三个额外的函数取得服务器返回的。默认没有的,请求方式为。

申明:本系列文章借鉴了慕课网的课程,http://www.imooc.com/learn/563。慕课网是一个非常赞的学习网站。

urllib2是python2.x下的一个模块,在Python3.x中,urllib2被拆分成urllib.request和urllib.error.

实现一个最简单的下载器

使用urllib2.urlopen(url)函数可以给服务器发送一个请求。
该函数返回一个file-like object. 该返回的对象有三个额外的函数:

geturl() 取得服务器返回的url。一般用来判断是否需要重定向。

info() 获取页面的meta信息

getcode() 获取响应的http状态码

例如我们写了一小段程序

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()

用来下载百度首页的内容。

构造一个request对象

urllib2.urlopen()函数不仅仅能接收一个url字符串,还能接收一个request对象。
我们可以在Request对象中添加数据和header。

设置请求头
import urllib2

request = urllib2.Request("https://www.zhihu.com/question/28593608/answer/141936198")
request.add_header("User-Agent", "Mozilla/5.0")

response = urllib2.urlopen(request)
print response.read()
Post请求方法和在请求中添加数据

上面的代码是一个爬取知乎某一个回答的代码。我们可以看到,我们并没有在request中添加data。
urllib2 默认没有data的,请求方式为GET。
urllib2 如果添加了data,那么请求方式为POST。
例如:

import urllib

values = {
    "name": "charlie",
    "age": 20,
    "gender": "male"
}

data = urllib.urlencode(values)

request.add_data(data)

我们使用POST方式提交数据的时候,我们需要创建一个字典型数据,并且用urllib.urlencode()函数将器编码成字符串,并用Request.add_data()函数添加到request中。

cookie、https、Proxy、HttpRedirect

实际情况中,往往比上面的更加复杂,例如很多网站会设置cookie、可以会使用https加密传输,可能会设置代理,会有重定向等。
如何要处理上面这些特殊的情境,那么我们则需要添加特殊的处理器。

HTTPCookieProcessor

ProxyHandler

HTTPHandler

HTTPRedirectHandler

构造好上述对象后,需要运用urllib2.build_opener()创建一个opener.
然后将opener安装到urllib2中: urllib2.install_opener(opener)。
例如:

import urllib2
import cookielib

cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)

response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
    print item.name, item.value

如上述代码所示,我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。
然后我们构造一个cookie的处理器——HTTPCookieProcessor。
然后我们在根据cookie处理器构造一个opener。

opener的概念

opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。
如果我们想要获得更加多的功能,那么我们就需要构造一个有HttpCookieProcessor的opener。

更多关于urllib2的opener概念,可以阅读一篇非常棒的文章:http://cuiqingcai.com/968.html

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38384.html

相关文章

  • 爬虫养成 - 什么是网络爬虫

    摘要:趁着春节,希望能写一个小小的网络爬虫框架。网页下载器接收,将页面内容下来。可以定义一个表,定义两个字段和缓存数据库网页下载器网页下载器就是更具下载网页内容等。常见的网页下载器有是官方的基础模块。 趁着春节,希望能写一个小小的网络爬虫框架。先定一个小目标,希望能比较优雅地将某个网站上的所有图片爬下来。暂时先将这个爬虫的名字叫做Squirrel,小松鼠吧。 什么是爬虫 爬虫其实是一种从互联...

    lucas 评论0 收藏0
  • 爬虫养成 - 网络下载urllib2伪装术

    摘要:发送请求方不希望被跟踪。主要用来将伪装成一个正常的浏览器。该字典就是说是网络协议名称,是代理的。另外一般会明确指定资源存放的位置。意思是将现在提交的数据存放于下第篇。请求删除某一个资源。向服务器提交数据。 前一个教程我们涉及到了urllib2的一些高级应用。这一片文章我们来比较系统的介绍一下。 该篇教程参考了静觅的博文:http://cuiqingcai.com/954.html。写这...

    Darkgel 评论0 收藏0
  • 爬虫养成 - urllib2的调试和错误处理

    摘要:设置和处理事实上,并不是所有发起的请求都能得到服务器的回应。例如网络无链接连接不到服务器链接不存在请求的方法不对等情况都会造成抛出错误。上面说到的出错就会抛出。用于处理相关的错误。 urllib2的timeout timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候,需要设置一个比较长的超时时间。 response = urllib2.urlopen(request, t...

    CoffeX 评论0 收藏0
  • 爬虫养成 - urllib2的HTTPCookieProcessor

    摘要:相当于该用户的档案。上述的文字对机制描述的比较简单也并不一定完全正确。但是默认的并不支持。中供我们使用的是。创建需要闯入一个存放的容器。即过期的也保存。目前博主只知道链接后带的参数需要与相匹配。但是并不知道两者具体的关系。 很多网站的资源需要用户登录之后才能获取。我们一旦登录后再访问其他被保护的资源的时候,就不再需要再次输入账号、密码。那么网站是怎么办到的呢?一般来说,用户在登录之后,...

    gnehc 评论0 收藏0
  • 爬虫 - 收藏集 - 掘金

    摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...

    1fe1se 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<