资讯专栏INFORMATION COLUMN

python基础教程:序列化

gityuan / 1336人阅读

摘要:默认情况下,它也是不安全的,如果数据是由黑客精心设计的,则反序列化的数据可能被植入恶意代码。总结为我们提供了数据序列化的工具。如果是自己内部使用,可以作为一个选择进行复杂对象的序列化。

上一节我们学习了文件的读写,把一个字符串(或字节对象)保存到磁盘是一件很容易的事情。但是在实际编程中,我们经常需要保存结构化数据,比如复杂的字典、嵌套的列表等等,这时候就需要我们想办法把这些结构化数据先转变成一个字符串,这个转换过程就叫做“序列化”,这一过程的逆操作就是“反序列化”。

JSON序列化

序列化数据的操作在各个语言编程中都会遇到,当然也出现了标准化的格式,比如:JSON(JavaScript Object Notation)。JSON格式通常被现代应用程序用于数据交换,尤其是在Web中广为人知,是许多程序员的选择。Python支持JSON的模块叫做json

JSON的数据格式和Python中的字典和列表非常相似,可以说它是字典和列表相互嵌套的结合体,而这些字典和列表的基本数据类型只能是:字符串、整数、浮点数、布尔型、None,不能是自定义的类等复杂对象。

一个对象x可以用一行简单的代码转换成它对应的JSON字符串:

In [124]: import json

In [125]: json.dumps({"Tom": 23, "Jim": 25, "William": 21})
Out[125]: "{"Tom": 23, "Jim": 25, "William": 21}"

把JSON字符串反序列化为Python对象的代码也只有一行:

In [126]: json.loads("{"Tom": 23, "Jim": 25, "William": 21}")
Out[126]: {"Tom": 23, "Jim": 25, "William": 21}

dumps()方法有个变体叫做dump(),它是将对象序列化到文件中。如果f是一个文件对象,我们可以这样操作:

json.dump(x, f)

对应的,从文件对象f中反序列化的操作就是:

x = json.load(f)

dumps()函数有很多参数可选,使我们生成不同格式的JSON字符串,具体可以在IPython中通过json.dumps?来查看。我们可以通过下面的例子来了解一下:

(1)紧凑编码
通过separators参数来实现:

In [130]: json.dumps({"Tom": 23, "Jim": 25, "William": 21}, separators=(",", ":"))
Out[130]: "{"Tom":23,"Jim":25,"William":21}"

(2)美化输出
通过sort_keys, indent参数来实现:

In [132]: print(json.dumps({"Tom": 23, "Jim": 25, "9":3, "3": 10}, sort_keys=True, indent=4))
{
    "3": 10,
    "9": 3,
    "Jim": 25,
    "Tom": 23
}

(3)中文编码
参数ensure_ascii默认为True,会把中文等非ascii字符转义:

In [133]: print(json.dumps({"小刚": 23, "小明": 25, "9":3, "3": 10}, sort_keys=True, indent=4))
{
    "3": 10,
    "9": 3,
    "u5c0fu521a": 23,
    "u5c0fu660e": 25
}

In [134]: print(json.dumps({"小刚": 23, "小明": 25, "9":3, "3": 10}, sort_keys=True, indent=4, ensure_ascii=False))
{
    "3": 10,
    "9": 3,
    "小刚": 23,
    "小明": 25
}
pickle模块序列化

json模块不同,pickle可以对任意复杂的Python对象进行序列化,它是Python特有的,不能与其它语言进行通信。默认情况下,它也是不安全的,如果数据是由黑客精心设计的,则反序列化的数据可能被植入恶意代码。

pickle的接口跟json是一样的,序列化用dumps(x), dump(x, f),反序列化使用loads(s), load(f)。但是,pickle可以序列化任意复杂的对象,比如自定义的类、函数都是可以用它来序列化的。比如下面这个例子就是序列化b并反序列化一个函数:

In [136]: def add(x, y): 
     ...:     print(x+y) 
     ...:

In [137]: import pickle

In [138]: s = pickle.dumps(add)

In [139]: s
Out[139]: b"x80x03c__main__
add
qx00."

In [140]: f = pickle.loads(s)

In [141]: f
Out[141]: 

In [142]: f(2, 3)
5

从这个例子中,我们实现了序列化和反序列化一个函数的功能。这样,我们可以把一些函数、自定义的类等各种对象先序列化到文件,然后把这个文件发给别人,别人可以通过反序列化来使用这些自定义的类和函数。这个过程中,如果有人对序列化文件做了手脚,比如通过修改文件修改了函数add()的实现,就有可能被黑客利用来进行攻击。这也是前面我们为什么说pickle默认是不安全的。所以,在选择是否使用它进行序列化时,要先思考一番。

总结

Python为我们提供了数据序列化的工具。如果需要和其它程序进行数据交换,json是最好的选择。如果是自己内部使用,pickle可以作为一个选择进行复杂对象的序列化。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43810.html

相关文章

  • Python基础教程第二版》第二章-Python列表和元祖

    摘要:第二个索引元素不在分片内。显示操作索引指向第个元素,第个元素不存在。序列加法乘法表示个空列表空列表用初始化成员资格运算符布尔运算符,检查值是否在序列中。修改列表,没有返回值。在原位置对列表排序。 序列 例: Edward = [abc, 12] 序列中的所有元素都是有编号的,从0开始递增。 Note: 使用负数索引-1,Python会从右边,也就是从最后一个元素开始计数。最后一个元素...

    darryrzhong 评论0 收藏0
  • ApacheCN 人工智能知识树 v1.0

    摘要:贡献者飞龙版本最近总是有人问我,把这些资料看完一遍要用多长时间,如果你一本书一本书看的话,的确要用很长时间。为了方便大家,我就把每本书的章节拆开,再按照知识点合并,手动整理了这个知识树。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 贡献者:飞龙版...

    刘厚水 评论0 收藏0
  • python基础教程:流程控制之for循环

    摘要:在中,并不是一个内置函数,而是一个类型,但是在中它是一个内置函数上面是中从看到的的说明,它的是,而不像内置函数的是。虽然的类型从中的内置函数变成了中的,但并不影响我们对它的使用。 循环是计算机程序中经常用到的流程。试想一下,如果我们有一万个数据要处理,每个数据处理的流程都一模一样,如果我们用顺序流程就要把处理流程重复写一万遍,是不是很累?而用for循环就简单多了。 showImg(ht...

    CoderBear 评论0 收藏0
  • Python基础教程第二版》第五章-条件、循环和其他语句(一)

    摘要:所解包的序列中的元素数量必须和赋值符号左边的变量数量完全一致。其中,冒号标识语句块开始块中每一个语句都是缩进相同量退回到和已经闭合的块一样的缩进量时,表示当前块结束。成员资格运算符字符串和序列比较字符串可按照字母顺序比较。 print和import print打印多个表达式,用逗号,隔开 print abc:, 42, nonono #输出在每个参数之间添加空格 print在结尾处加上...

    宋华 评论0 收藏0

发表评论

0条评论

gityuan

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<