爬虫学习（二）基础阶段

xiaoqibTn 发布于2019-07-31 10:29 / 3013人阅读

摘要：如果要添加该参数，并且如果它是字节流编码格式的内容，即类型，则需要通过方法转化。通过的格式将字典进行字节流的编码，将编码后的字节流数据传输到指定这里存在一个，要进行指定方式解码。第二个参数如果要传，必须传字节流类型的。

请求头中的内容：

Date: 标识响应产生的时间。

Last-Modified: 指定资源的最后修改时间。

Content-Encoding: 指定响应内容的编码。

Server: 包含服务器的信息，比如名称、版本号等。

Content-Type: 文档类型，指定返回的数据类型是什么，如 text/html代表返回 HTML文档，

application/x-javascript !J!U代表返回 JavaScript文件， image/jpeg则代表返回图片。

Set-Cookie: 设置 Cookies。响应头中的 Set-Cookie 告诉浏览器需要将此内容放在 Cookies中，下次请求携带 Cookies请求。

Expires: 指定响应的过期时间，可以使代理服务器或浏览器将加载的内容更新到缓存。如果再次访问时，就可以直接从缓存中加载，降低服务器负载，缩短加载时间。

1.urllib.request模块

request: 最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入 URL 以及额外的参数，就可以模拟实现这个过程了 ,同时它还带有处理授权验证( authenticaton )、重定向( redirection)、浏览器 Cookies 以及其他内容。

error: 异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。

parse: 一个工具模块，提供了许多 URL处理方法，比如拆分，解析，合并等。

robotparser:主要是用来识别网站的 robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少。

urllib.request.urlopen() 为最基本HTTP请求的方法

import urllib.request
response= urllib.request.urlopen("https://www.python.org") 
print(response.read().decode ("utf-8"))  //打印出网页的源代码
print(type(response))    //说明该对象类型为HTTPResponse类型。
print(response.status)    //200

print(response.getheaders()) //   
[("Server", "nginx"), ("Content-Type", "text/html; charset=utf-8"), ("X-Frame-Options", "DENY"), 
("Via", "1.1 vegur"), ("Via", "1.1 varnish"), ("Content-Length", "48995"), ("Accept-Ranges", "bytes"), 
("Date", "Mon, 13 May 2019 09:23:37 GMT"), ("Via", "1.1 varnish"), ("Age", "3595"), ("Connection", "close"), 
("X-Served-By", "cache-iad2139-IAD, cache-tyo19927-TYO"), ("X-Cache", "HIT, HIT"), 
("X-Cache-Hits", "1, 6071"), ("X-Timer", "S1557739417.434556,VS0,VE0"), ("Vary", "Cookie"), 
("Strict-Transport-Security", "max-age=63072000; includeSubDomains")]

print(response.getheader("Server"))    //nginx

HTTPResposne类型的对象，主要包含

read()、 readinto()、 getheader(name)、getheaders()、 fileno()等方法，以及 msg、 version、status、reason、debuglevel、closed等属性。

如果想给链接传递一些参数，该怎么实现呢?首先看一下urlopen()函数的 API:

urllib.request.urlopen(url, data=None, timeout=

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

爬虫学习（二）基础阶段

相关文章

Python爬虫学习路线

史上最详细Python学习路线-从入门到精通，只需90天

首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

我是如何零基础自学转行人工智能的（附十问十答）

发表评论

0条评论

xiaoqibTn

男|高级讲师

TA的文章

tensorflow的版本

vue 中echart折线自适应

简单的选项卡切换效果

body标签子级被默认client width截断的解决方法

CSS Grid布局：什么是网格布局

太原面经分享：如何在vue面试环节，展示你晋级阿里P6+的技术功底？

2017年 JavaScript 框架回顾 -- 后端框架

【译】教你如何避开「Cannot read property of undefined」

最新活动