Python 抓取网页乱码原因分析

asce1885 发布于2019-07-31 10:10 / 735人阅读

摘要：在用抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题运行环境的字符编码和网页的字符编码不一致。比如，在的控制台里抓取了一个编码的网站。

在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。

发生这种情况的最大可能性就是编码问题： 运行环境的字符编码和网页的字符编码不一致。

比如，在 windows 的控制台（gbk）里抓取了一个 utf-8 编码的网站。或者，在 Mac / Linux 的终端（utf-8）里抓取了一个 gbk 编码的网站。因为多数网站采用 utf-8 编码，而不少人又是用 windows，所有这种情况相当常见。

如果你发现你抓下来的内容，看上去英文、数字、符号都是对的，但中间夹杂了一些乱码，那基本可以断定是此情况。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43369.html

前端小白的python实战: 报纸分词排序

摘要：先看效果环境位目标抓取一篇报纸，并提取出关键字，然后按照出现次数排序，用在页面上显示出来。首先要抓取网页，但是网页在控制台输出的时候，中文总是乱码。但是不得不承认，上有很多非常优秀的库。例如但是这些包我在上安装的时候总是报错。先看效果： showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 环境 win7 64位 pyt...

cncoder 2019-07-30 14:22 评论0 收藏0
关于使用cheerio抓取一个网页遇见的问题以及解决的过程

摘要：这样尝试了之后，网页中文编码的问题会解决大部分，但是有的地方还是存在中文乱码这样的问题主要是我在进行了转码成之后没有将新插入后的页面转码到初始状态，一旦被浏览器下载之后浏览器会无法识别部分的编码从而导致一部分编码。最近做开发有一个需求需要用cheerio抓取一个网页，然后将一段js脚本插入到标签的末尾。然后还要保证浏览器运行正常。现在把这些遇见过的问题记录一下。这里面就存在一个问题...

hedge_hog 2019-08-21 16:58 评论0 收藏0
Python-爬虫工程师-面试总结

摘要：内存池机制提供了对内存的垃圾收集机制，但是它将不用的内存放到内存池而不是返回给操作系统。为了加速的执行效率，引入了一个内存池机制，用于管理对小块内存的申请和释放。注：答案一般在网上都能够找到。1.对if __name__ == main的理解陈述2.python是如何进行内存管理的？3.请写出一段Python代码实现删除一个list里面的重复元素4.Python里面如何拷贝一个对象？...

antz 2019-07-31 11:06 评论0 收藏0
Python3网络爬虫实战---24、requests：基本使用

摘要：上一篇文章网络爬虫实战使用分析协议下一篇文章在前面一节我们了解了的基本用法，但是其中确实有不方便的地方。发送之后，得到的自然就是，在上面的实例中我们使用了和获取了内容，不过还有很多属性和方法可以获取其他的信息，比如状态码等信息。上一篇文章：Python3网络爬虫实战---23、使用Urllib：分析Robots协议下一篇文章：在前面一节我们了解了 Urllib 的基本用法，但是其中...

lentrue 2019-07-31 10:35 评论0 收藏0
Scrapy 框架入门简介

摘要：解析的方法，每个初始完成下载后将被调用，调用的时候传入从每一个传回的对象来作为唯一参数，主要作用如下负责解析返回的网页数据，提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常...

Coding01 2019-07-30 15:39 评论0 收藏0