资讯专栏INFORMATION COLUMN

Python3网络爬虫实战---4、数据库的安装:MySQL、MongoDB、Redis

xbynet / 3395人阅读

摘要:运行结果如果运行结果一致则证明安装成功。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战数据库的安装

上一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp
下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis

抓取下网页代码之后,下一步就是从网页中提取信息,提取信息的方式有多种多样,可以使用正则来提取,但是写起来会相对比较繁琐。在这里还有许多强大的解析库,如 LXML、BeautifulSoup、PyQuery 等等,提供了非常强大的解析方法,如 XPath 解析、CSS 选择器解析等等,利用它们我们可以高效便捷地从从网页中提取出有效信息。

本节我们就来介绍一下这些库的安装过程。

1.2.1 LXML的安装

LXML 是 Python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。

1. 相关链接

官方网站:http://lxml.de

GitHub:https://github.com/lxml/lxml

PyPi:https://pypi.python.org/pypi/...

2. Mac下的安装
pip3 install lxml

如果产生错误,可以执行如下命令将必要的类库安装:

xcode-select --install

之后再重新运行 Pip 安装就没有问题了。

LXML 是一个非常重要的库,后面的 BeautifulSoup、Scrapy 框架都需要用到此库,所以请一定安装成功。

3. 验证安装

安装完成之后,可以在 Python 命令行下测试。

$ python3
>>> import lxml

如果没有错误报出,则证明库已经安装好了。

1.2.2 BeautifulSoup的安装

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库,我们可以用它来方便地从网页中提取数据,它拥有强大的 API 和多样的解析方式,本节我们了解下它的安装方式。

1. 相关链接

官方文档:https://www.crummy.com/softwa...

中文文档:https://www.crummy.com/softwa...

PyPi:https://pypi.python.org/pypi/...

2. 准备工作

BeautifulSoup 的 HTML 和 XML 解析器是依赖于 LXML 库的,所以在此之前请确保已经成功安装好了 LXML 库,具体的安装方式参见上节。

3. Pip 安装

目前 BeautifulSoup 的最新版本是 4.x 版本,之前的版本已经停止开发了,推荐使用 Pip 来安装,安装命令如下:

pip3 install beautifulsoup4

命令执行完毕之后即可完成安装。

4. 验证安装

安装完成之后可以运行下方的代码验证一下。

from bs4 import BeautifulSoup
soup = BeautifulSoup("

Hello

", "lxml") print(soup.p.string)

运行结果:

Hello

如果运行结果一致则证明安装成功。

注意在这里我们虽然安装的是 beautifulsoup4 这个包,但是在引入的时候是引入的 bs4,这是因为这个包源代码本身的库文件夹名称就是 bs4,所以安装完成之后,这个库文件夹就被移入到我们本机 Python3 的 lib 库里,所以识别到的库文件名称就叫做 bs4,所以我们引入的时候就引入 bs4 这个包。

因此,包本身的名称和我们使用时导入的包的名称并不一定是一致的。

1.2.3 PyQuery的安装

PyQuery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文档,支持 CSS 选择器,使用非常方便,本节我们了解下它的安装方式。

1. 相关链接

GitHub:https://github.com/gawel/pyquery

PyPi:https://pypi.python.org/pypi/...

官方文档:http://pyquery.readthedocs.io

2. Pip安装
pip3 install pyquery
3. 验证安装

安装完成之后,可以在 Python 命令行下测试。

$ python3
>>> import pyquery

如果没有错误报出,则证明库已经安装好了。

1.2.4 Tesserocr的安装

爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。

1. OCR

OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。那么对于图形验证码来说,它都是一些不规则的字符,但是这些字符确实是由字符稍加扭曲变换得到的内容。
例如这样的验证码,如图 1-22 和 1-23 所示:

图 1-22 验证码

图 1-23 验证码
对于这种验证码,我们便可以使用 OCR 技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
Tesserocr 是 Python 的一个 OCR 识别库,但其实是对 Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本节我们来了解下它们的安装方式。

2. 相关链接

Tesserocr GitHub:https://github.com/sirfz/tess...

Tesserocr PyPi:https://pypi.python.org/pypi/...

Tesseract下载地址:http://digi.bib.uni-mannheim....

Tesseract GitHub:https://github.com/tesseract-...

Tesseract 语言包:https://github.com/tesseract-...

Tesseract 文档:https://github.com/tesseract-...

3. Mac下的安装

Mac 下首先使用 Homebrew 安装 Imagemagick 和 Tesseract 库:

brew install imagemagick 
brew install tesseract 

接下来再安装 Tesserocr 即可:

pip3 install tesserocr pillow

这样我们便完成了 Tesserocr 的安装。

4. 验证安装

接下来我们可以使用 Tesseract 和 Tesserocr 来分别进行测试。
下面我们以如下的图片为样例进行测试,如图 1-26 所示:

图 1-26 测试样例
图片链接为:https://raw.githubusercontent...,可以直接保存或下载。
我们首先用命令行进行测试,将图片下载保存为 image.png,然后用 Tesseract 命令行测试,命令如下:

tesseract image.png result -l eng && cat result.txt

运行结果:

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider

我们调用了 tesseract 命令,第一个参数为图片名称,第二个参数 result 为结果保存的目标文件名称,-l 指定使用的语言包,在此使用 eng 英文,然后再用 cat 命令将结果输出。
第二行的运行结果便是图片的识别结果,Python3WebSpider。
我们可以看到这时已经成功将图片文字转为电子文本了。
然后我们还可以利用 Python 代码来测试,这里就需要借助于 Tesserocr 库了,测试代码如下:

import tesserocr
from PIL import Image
image = Image.open("image.png")
print(tesserocr.image_to_text(image))

如果在运行期间python3闪退,出现下面错误:

!strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209

就需要这样运行了:

import locale
locale.setlocale(locale.LC_ALL,"C")

import tesserocr
from PIL import Image
image = Image.open("image.png")
print(tesserocr.image_to_text(image))

在这里我们首先利用 Image 读取了图片文件,然后调用了 tesserocr 的 image_to_text() 方法,再将将其识别结果输出。
运行结果:

Python3WebSpider

另外我们还可以直接调用 file_to_text() 方法,也可以达到同样的效果:

import tesserocr
print(tesserocr.file_to_text("image.png"))

运行结果:

Python3WebSpider

如果成功输出结果,则证明 Tesseract 和 Tesserocr 都已经安装成功。

上一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp
下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44018.html

相关文章

  • Python3网络爬虫实战---4据库安装MySQLMongoDBRedis

    摘要:的安装是一个轻量级的关系型数据库,以表的形式来存储数据,本节我们来了解下它的安装方式。相关链接官方网站下载地址中文教程下的安装推荐使用安装,执行命令即可。上一篇文章网络爬虫实战解析库的安装下一篇文章网络爬虫实战存储库的安装 上一篇文章:Python3网络爬虫实战---3、解析库的安装:LXML、BeautifulSoup、PyQuery、Tesserocr下一篇文章:Python3网络...

    winterdawn 评论0 收藏0
  • Python3网络爬虫实战---5、存储库安装:PyMySQL、PyMongo、RedisPy、R

    摘要:相关链接官方文档安装推荐使用安装,命令如下运行完毕之后即可完成的安装。上一篇文章网络爬虫实战数据库的安装下一篇文章网络爬虫实战库的安装 上一篇文章:Python3网络爬虫实战---4、数据库的安装:MySQL、MongoDB、Redis下一篇文章:Python3网络爬虫实战---6、Web库的安装:Flask、Tornado 在前面一节我们介绍了几个数据库的安装方式,但这仅仅是用来存...

    AlanKeene 评论0 收藏0
  • Python3网络爬虫实战---33、数据存储:非关系型据库存储:MongoDB

    摘要:列存储数据库,代表有等。运行结果返回结果是字典形式,即代表执行成功,代表影响的数据条数。上一篇文章网络爬虫实战数据存储关系型数据库存储下一篇文章网络爬虫实战数据存储非关系型数据库存储 上一篇文章:Python3网络爬虫实战---32、数据存储:关系型数据库存储:MySQL下一篇文章:Python3网络爬虫实战---34、数据存储:非关系型数据库存储:Redis NoSQL,全称 No...

    XanaHopper 评论0 收藏0
  • Python3网络爬虫实战---32、数据存储:关系型据库存储:MySQL

    摘要:关系型数据库有多种,如等等。一致性与原子性是密切相关的。持久性持续性也称永久性,指一个事务一旦提交,它对数据库中数据的改变就应该是永久性的。如此一来,我们就可以实现主键不存在便插入数据,存在则更新数据的功能了。 上一篇文章:Python3网络爬虫实战---31、数据存储:文件存储下一篇文章:Python3网络爬虫实战---33、数据存储:非关系型数据库存储:MongoDB 关系型数据...

    ghnor 评论0 收藏0
  • Python3网络爬虫实战---6、Web库安装:Flask、Tornado

    摘要:在本书中用到的一些服务程序主要有。本节来分别介绍它们的安装方法。的安装是一个轻量级的服务程序,简单易用灵活,在本书中我们主要用它来做一些服务,本节我们来了解下它的安装方式。相关链接官方文档安装执行完毕之后即可完成安装。 上一篇文章:Python3网络爬虫实战---5、存储库的安装:PyMySQL、PyMongo、RedisPy、RedisDump下一篇文章:Python3网络爬虫实战-...

    yeyan1996 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<