Python 数据持久化方式——JSON与Pickle
Python的数据持久化方式有很多种,比较好用又相对轻量级的就属JSON与Pickle这2种了。其实两者的使用方式非常相近,这里记录下来备忘。
JSON
python中处理JSON的库就是json模块,需要用到的方法大致就是以下4个,其实它们的参数有很多这里暂且省略。
1 | import json |
可以看到,结尾带s就是在字符串层面上操作,如果不带s就是在文件层级操作。obj指的是需要转化的对象,可以是一个字典或者列表,fp是文件句柄,用open打开。s则是一个字符串。
dumps返回的是一个字符串,load和loads则会返回python的对象。
以上是最简单的一些使用方式,这里还有一些实用的参数可以选择。
1 | import json |
ensure_ascii参数,是在有中文的情况下,设置为False可以防止将其解码而得到乱码,在loads的时候可以指定encoding来保持编码。(编码问题甚是蛋疼……)
indent参数如果不指定的话,输出的字符串就是紧凑的形式,indent指定为4就可以输出缩进为4的pretty形式,在需要给人看的时候用这个不错。
7.21更新:JSON序列化datetime问题
python自己的json.dumps不能序列化datetime对象,如果需要dump这类对象时可以自己定义JSONEncoder
1 | import json |
这样在dump时指定cls参数就可以完成序列化datetime的任务了,如果觉得麻烦的话,可以使用偏函数的方法自己封装一下。
1 | import functools |
Pickle
这里使用的是与其功能一样的cPickle模块,只不过后者是用C实现的。
常用的函数和JSON的相同,这里只介绍一下dump与load。
1 | import cPickle |
dump的第一个参数为需要存储的对象,第二个参数为文件句柄,第三个参数protocol指的是协议,0表示文本形式,1和2大概表示二进制的形式,默认是-1即采取最高协议。
文件是否按照二进制方式打开好像影响不大,不过为了保险还是按它说的来比较好。
可以看出上面的程序在文件里存储了2个对象,load的时候可以执行2次,x1得到的是之前obj的对象,x2得到的是之前obj2的对象。不要写成这样:
1 | x1 = cPickle.load(open('obj.pkl', 'rb')) |
这样得到的x1,x2都是obj的对象,原因嘛,可以想一想文件操作的方式,很好理解。
但存储了几个对象就只能load几次,如果load超过了存储的对象,会抛出EOFError异常。
这里能够存储的对象可以是任意对象,字典、列表、元组、numpy数组、SocketServer…..
比较
官方文档中对于这2者也有一段比较的话,我就直接拿来用了
- JSON是文本形式的存储,Pickle则是二进制形式(至少常用二进制)
- JSON是人可读的,Pickle不可读
- JSON广泛应用于除Python外的其他领域,Pickle是Python独有的。
- JSON只能dump一些python的内置对象,Pickle可以存储几乎所有对象。
在我看来,如果偏向应用特别是web应用方面,可以常用JSON格式。如果偏向算法方面,尤其是机器学习,则应该使用cPickle,pylearn2库中保存model就是使用这项技术的;)
至于重量级的那就很多了,基本都跟数据库有关,有机会再介绍好了。