资讯专栏INFORMATION COLUMN

python利用Tesseract识别验证码

王陆宽 / 2555人阅读

摘要:无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈中光学识别验证码模块和。和是的一个识别库,但其实是对做的一层封装,是的引擎包装器所以它们的核心是因此在安装之前,我们需要先安装。

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocrpytesseracttesserocrpytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract
下载安装

下载地址:https://digi.bib.uni-mannheim...

下载完成后,双击安装,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-... 下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:Program Files (x86)Tesseract-OCR essdata目录下,最后我们配置下环境变量,我们将C:Program Files (x86)Tesseract-OCR添加到环境变量中。进入命令提示符,输入tesseract,显示下图结果,说明配置完成

查看安装了的语言包:tesseract --list-langs

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

基本使用语法
tesseract image.png result (tesseract 图片名称 生成文件名称)

结果

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image

im=Image.open("pin.png")
print(pytesseract.image_to_string(im))

结果

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image

im=Image.open("5.jpg")
#进行置灰处理
im=im.convert("L")
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
    if i

原图

置灰和二值化后

想要提高识别率只能下载训练好的语言包,如上述所说,或者用深度学习的方法训练机器
原文地址:https://nolon.xyz/archives/77/

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43054.html

相关文章

  • Python图像处理之图片验证识别

    摘要:在上一篇博客图像处理之图片文字识别中我们介绍了在中如何利用软件来识别图片中的英文与中文,本文将具体介绍如何在中利用软件来识别验证码数字加字母。   在上一篇博客Python图像处理之图片文字识别(OCR)中我们介绍了在Python中如何利用Tesseract软件来识别图片中的英文与中文,本文将具体介绍如何在Python中利用Tesseract软件来识别验证码(数字加字母)。  我们在网...

    kk_miles 评论0 收藏0
  • Python3网络爬虫实战---4、数据库的安装:MySQL、MongoDB、Redis

    摘要:运行结果如果运行结果一致则证明安装成功。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战数据库的安装 上一篇文章:Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis 抓取下网页代码之后,下一步就是从网页中提取信息,提取信息的方式有...

    xbynet 评论0 收藏0
  • OCR识别验证

    摘要:识别网站验证码详见维基百科或者百度百科识别的验证码原理采集一批验证码,根据图片特点进行初步处理二值化灰度化滤波降噪等处理然后分割图片,旋转图片,模板选取,训练算法,让它更准确。 最近在爬某网站,老是蹦出来验证码,就想着找个OCR破了这个验证码,然后就开始了OCR探索之旅。 首先简单说一下什么是OCR OCR是(Optical Character Recognition,光学字符识别)的...

    Yangyang 评论0 收藏0

发表评论

0条评论

王陆宽

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<