python爬虫——写出最简单的网页爬虫

zilu 发布于2019-07-30 14:26 / 2214人阅读

摘要：开发最简单的爬虫简介开发最简单的爬虫百度首页简洁大方，很适合我们爬虫。爬虫代码如下结果如下图我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。

知识就像碎布，记得“缝一缝”，你才能华丽丽地亮相

最近对python爬虫有了强烈地兴趣，在此分享自己的学习路径，欢迎大家提出建议。我们相互交流，共同进步。

1.开发工具

笔者使用的工具是sublime text3，它的短小精悍（可能男人们都不喜欢这个词）使我十分着迷。推荐大家使用，当然如果你的电脑配置不错，pycharm可能更加适合你。
sublime text3搭建python开发环境推荐查看此博客：
[sublime搭建python开发环境][http://www.cnblogs.com/codefish/p/4806849.html]

2.爬虫介绍

爬虫顾名思义，就是像虫子一样，爬在Internet这张大网上。如此，我们便可以获取自己想要的东西。
既然要爬在Internet上，那么我们就需要了解URL，法号“统一资源定位器”，小名“链接”。其结构主要由三部分组成：
（1）协议：如我们在网址中常见的HTTP协议。
（2）域名或者IP地址：域名，如：www.baidu.com，IP地址，即将域名解析后对应的IP。
（3）路径：即目录或者文件等。

3.urllib开发最简单的爬虫 （1）urllib简介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

（2）开发最简单的爬虫

百度首页简洁大方，很适合我们爬虫。
爬虫代码如下：

from urllib import request

def visit_baidu():
    URL = "http://www.baidu.com"
    # open the URL
    req = request.urlopen(URL)
    # read the URL 
    html = req.read()
    # decode the URL to utf-8
    html = html.decode("utf_8")
    print(html)

if __name__ == "__main__":
    visit_baidu()

结果如下图：

我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。
当然，request也可以生成一个request对象，这个对象可以用urlopen方法打开。
代码如下：

from urllib import request

def vists_baidu():
    # create a request obkect
    req = request.Request("http://www.baidu.com")
    # open the request object
    response = request.urlopen(req)
    # read the response 
    html = response.read()
    html = html.decode("utf-8")
    print(html)

if __name__ == "__main__":
    vists_baidu()

运行结果和刚才相同。

（3）错误处理

错误处理通过urllib模块来处理，主要有URLError和HTTPError错误，其中HTTPError错误是URLError错误的子类，即HTTRPError也可以通过URLError捕获。
HTTPError可以通过其code属性来捕获。
处理HTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
    url = "https://segmentfault.com/zzz"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.HTTPError as e:
        print(e.code)
if __name__ == "__main__":
    Err()

运行结果如图：

404为打印出的错误代码，关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。
chuliHTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
    url = "https://segmentf.com/"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.URLError as e:
        print(e.reason)
if __name__ == "__main__":
    Err()

运行结果如图：

既然为了处理错误，那么最好两个错误都写入代码中，毕竟越细致越清晰。须注意的是，HTTPError是URLError的子类，所以一定要将HTTPError放在URLError的前面，否则都会输出URLError的，如将404输出为Not Found。
代码如下：

from urllib import request
from urllib import error

# 第一种方法，URLErroe和HTTPError
def Err():
    url = "https://segmentfault.com/zzz"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.HTTPError as e:
        print(e.code)
    except error.URLError as e:
        print(e.reason)

大家可以更改url来查看各种错误的输出形式。

新人初来乍到不容易，如果您觉得有那么一丢丢好的话，请不要吝啬您的赞赏~撒花。

云服务器 GPU云服务器最简单的爬虫 python简单的爬虫简单的python爬虫 python3简单的爬虫

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/40704.html

Python

摘要：最近看前端都展开了几场而我大知乎最热语言还没有相关。有关书籍的介绍，大部分截取自是官方介绍。但从开始，标准库为我们提供了模块，它提供了和两个类，实现了对和的进一步抽象，对编写线程池进程池提供了直接的支持。《流畅的python》阅读笔记《流畅的python》是一本适合python进阶的书, 里面介绍的基本都是高级的python用法. 对于初学python的人来说, 基础大概也就够用了...

dailybird 2019-07-30 15:13 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
爬虫 - 收藏集 - 掘金

摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道上篇爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...

1fe1se 2019-07-31 10:58 评论0 收藏0
python

Python装饰器为什么难理解？无论项目中还是面试都离不开装饰器话题，装饰器的强大在于它能够在不修改原有业务逻辑的情况下对代码进行扩展，权限校验、用户认证、日志记录、性能测试、事务处理、缓存等都是装饰器的绝佳应用场景，它能够最大程度地对代码进行复用。但为什么初学者对装饰器的理解如此困难，我认为本质上是对Py… Python 实现车牌定位及分割作者用 Python 实现车牌定位及分割的实践。 ...

chenatu 2019-07-30 15:35 评论0 收藏0
Python-爬虫工程师-面试总结

摘要：内存池机制提供了对内存的垃圾收集机制，但是它将不用的内存放到内存池而不是返回给操作系统。为了加速的执行效率，引入了一个内存池机制，用于管理对小块内存的申请和释放。注：答案一般在网上都能够找到。1.对if __name__ == main的理解陈述2.python是如何进行内存管理的？3.请写出一段Python代码实现删除一个list里面的重复元素4.Python里面如何拷贝一个对象？...

antz 2019-07-31 11:06 评论0 收藏0