资讯专栏INFORMATION COLUMN

关于python编码,你真的明白了吗

darcrand / 1968人阅读

摘要:二进制位,是计算机内部数据储存的最小单位,是一个位二进制数。由于源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为编码。

计算机存储的几个概念

想要彻底搞清楚编码问题,我们必须要先搞清楚计算机是怎么存储数据的,这就涉及到了计算机基础的几个概念了,开篇我们就先来捋捋这几个容易混淆的概念。

bit

二进制位, 是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(2^1);两个二进制位可以表示00、01、10、11四种(2^2)状态;三位二进制数可表示八种状态(2^3)……

Byte

字节,是计算机中数据处理的基本单位,计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。八位二进制数最小为00000000,最大为11111111;通常1个字节可以存入一个ASCII码,2个字节可以存放一个汉字国标码。

在计算机中,一串数码作为一个整体来处理或运算的,称为一个计算机字,简称宇。字通常分为若干个字节(每个字节一般是8位)。在存储器中,通常每个单元存储一个字,因此每个字都是可以寻址的。字的长度用位数来表示。在计算机的运算器、控制器中,通常都是以字为单位进行传送的。

字长

字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。

字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。

常见的编码

ASCII: 1个字节,只编码英文字母和符号

gb2312: 2个字节,增加了中文汉字和符号

Unicode: 把所有语言都统一到一套编码里把所有语言都统一到一套编码里,
一般是2个字节,生僻字4个字节

utf-8: 可变长编码,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码,这样可以节省很多存储空间。

Python编码

注:这里讨论的是python2.7的情况

两个函数

在python中,str和unicode都是basestring的子类,basestring有以下两个方法:

encode(): 将unicode字符串转换为其他编码字符串,参数为转换后编码

decode(): 将其他编码转换为unicode字符串,参数为转换前编码

PS:"string".decode("utf-8") == unicode("string", "utf-8")

一个栗子
s = "中文"
print type(s), len(s)

u = u"中文"
print type(u), len(u)

u2s = u"中文".encode("utf-8")
print type(u2s), len(u2s)

结果是这样的

 6
 2
 6

console下查看u2s

>>> u"中文".encode("utf-8")
"xe4xb8xadxe6x96x87"

结论:

python中定义的一个str变量实则是字节串,由Unicode经过编码(encode)后的字节组成的(
也正好印证了utf8编码中一个中文字符是3个字节)

Unicode才是真正意义上的字符串,由字符组成

再次回顾两个函数用法

s = "中文"
# 这时是str,转为unicode需要用decode
u = s.decode("utf-8")
print type(u)
# 打印 

# unicode转为str ,使用encode
s2 = u.encode("utf-8")
print type(s2)
# 打印 

新结论:不同编码转换,使用Unicode作为中间编码

#s是code_A的str
s.decode("code_A").encode("code_B")

在Python 3.x版本中,把"xxx"u"xxx"已经都统一成Unicode编码了,即写不写前缀u都是一样的,而以字节形式表示的字符串则必须加上b前缀:b"xxx"

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
参考

字节、字、位、比特,这四者之间的关系
廖雪峰:python2.7教程之字符串和编码
PYTHON-进阶-编码处理小结

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38227.html

相关文章

  • 关于解决Python乱码问题的终极解决方案 (TL;DR)

    摘要:关于解决乱码问题的终极解决方案有个特别好玩的现象,当我们为了编码头疼的时候,几乎搜索到所有的文章都会先发一通牢骚。另外,关于的乱码问题,又是一个新的较长篇章。 关于解决Python乱码问题的终极解决方案 (TL;DR) showImg(https://segmentfault.com/img/remote/1460000013229494?w=809&h=184); 有个特别好玩的现象...

    Lemon_95 评论0 收藏0
  • 真的明白 new 了吗

    摘要:如果构造函数有返回值呢一般情况下构造函数没有返回值,但是我们依旧可以得到该对象的实例如果构造函数有返回值,凭直觉来说情况应该会不一样。欢迎光临小弟博客我的博客原文你真的弄明白了吗参考再谈面向对象编程的实例化与继承请停止使用关键字 好久没有写点东西了,总觉得自己应该写点牛逼的,却又不知道如何下笔。既然如此,还是回归最基本的吧,今天就来说一说这个new。关于javascript的new关键...

    tolerious 评论0 收藏0
  • 真的明白javascript中的原型和原型链了吗

    摘要:补充的知识这个是原型中的自带属性,指向构造函数这个属性其实是浏览器实现的,不是标准的访问原型的方式中规定的正式方法是以上知识,最终的图如下思考题在文章开头我们说过函数也是对象,既然是对象就有原型,那的原型指向谁呢是吗 文章开头说的话 首先你必须明白(或者记住)的JavaScript常识: 在JavaScript中每个函数都有一个prototype属性 在JavaScript中每个对象...

    Harpsichord1207 评论0 收藏0
  • 前端阅读笔记 2016-11-23

    摘要:今天阅读量不大。工具目前还很初级,名为,可以在上找到,各方面都还有待改进,以支持更多方式。方才确定不是配置的原因。好了,废话不说了,直接上阅读笔记。方面,国内基本仅此一人。请点击阅读原文查看更多,不止这三篇哦晚安 今天阅读量不大。一则今天的文章确实不多,跟踪的 30+ 博客更新不多。二则今天的主要精力在别的事情上。 首先,之前遇到过一些 CSS 精灵图的问题。同样的图标,切下来的尺寸却...

    wind5o 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<