Python的数据持久化方式有很多种,比较好用又相对轻量级的就属JSON与Pickle这2种了。其实两者的使用方式非常相近,这里记录下来备忘。

JSON

python中处理JSON的库就是json模块,需要用到的方法大致就是以下4个,其实它们的参数有很多这里暂且省略。

1
2
3
4
5
6
7
8
import json
obj = {'a' : 'b', 'c' : 'd'}
fp = open('obj.json', 'w')
json.dump(obj, fp)
fp.close()
s = json.dumps(obj)
x = json.load(open('obj.json', 'r'))
y = json.loads(s)

可以看到,结尾带s就是在字符串层面上操作,如果不带s就是在文件层级操作。obj指的是需要转化的对象,可以是一个字典或者列表,fp是文件句柄,用open打开。s则是一个字符串。

dumps返回的是一个字符串,load和loads则会返回python的对象。

以上是最简单的一些使用方式,这里还有一些实用的参数可以选择。

1
2
3
4
import json
obj = {u'姓名' : u'无名氏', u'国籍' : u'中国'}
s = json.dumps(obj, ensure_ascii=False, indent=4)
obj2 = json.loads(s, encoding='utf8')

ensure_ascii参数,是在有中文的情况下,设置为False可以防止将其解码而得到乱码,在loads的时候可以指定encoding来保持编码。(编码问题甚是蛋疼……)

indent参数如果不指定的话,输出的字符串就是紧凑的形式,indent指定为4就可以输出缩进为4的pretty形式,在需要给人看的时候用这个不错。

7.21更新:JSON序列化datetime问题

python自己的json.dumps不能序列化datetime对象,如果需要dump这类对象时可以自己定义JSONEncoder

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import json
from datetime import date, datetime

class AdvEncoder(json.JSONEncoder):
def default(self, obj):
if isinstance(obj, datetime):
return obj.strftime('%Y-%m-%d %H:%M:%S')
elif isinstance(obj, date):
return obj.strftime('%Y-%m-%d')
else:
return super().default(self, obj)

obj = {}
json.dumps(obj, cls=MyEncoder)

这样在dump时指定cls参数就可以完成序列化datetime的任务了,如果觉得麻烦的话,可以使用偏函数的方法自己封装一下。

1
2
3
4
import functools
adumps = functools.partial(json.dumps, cls=AdvEncoder)
d = datetime.now()
adumps(d)

Pickle

这里使用的是与其功能一样的cPickle模块,只不过后者是用C实现的。

常用的函数和JSON的相同,这里只介绍一下dump与load。

1
2
3
4
5
6
7
8
9
10
11
12
import cPickle
obj = {'a' : 'b', 'c' : 'd'}
obj2 = [0, 1, 1, 0, 1]
f = open('obj.pkl', 'wb')
cPickle.dump(obj, f, protocol=-1)
cPickle.dump(obj2, f, protocol=-1)
f.close()

f = open('obj.pkl', 'rb')
x1 = cPickle.load(f)
x2 = cPickle.load(f)
f.close()

dump的第一个参数为需要存储的对象,第二个参数为文件句柄,第三个参数protocol指的是协议,0表示文本形式,1和2大概表示二进制的形式,默认是-1即采取最高协议。

文件是否按照二进制方式打开好像影响不大,不过为了保险还是按它说的来比较好。

可以看出上面的程序在文件里存储了2个对象,load的时候可以执行2次,x1得到的是之前obj的对象,x2得到的是之前obj2的对象。不要写成这样:

1
2
x1 = cPickle.load(open('obj.pkl', 'rb'))
x2 = cPickle.load(open('obj.pkl', 'rb'))

这样得到的x1,x2都是obj的对象,原因嘛,可以想一想文件操作的方式,很好理解。

但存储了几个对象就只能load几次,如果load超过了存储的对象,会抛出EOFError异常。

这里能够存储的对象可以是任意对象,字典、列表、元组、numpy数组、SocketServer…..

比较

官方文档中对于这2者也有一段比较的话,我就直接拿来用了

  • JSON是文本形式的存储,Pickle则是二进制形式(至少常用二进制)
  • JSON是人可读的,Pickle不可读
  • JSON广泛应用于除Python外的其他领域,Pickle是Python独有的。
  • JSON只能dump一些python的内置对象,Pickle可以存储几乎所有对象。

在我看来,如果偏向应用特别是web应用方面,可以常用JSON格式。如果偏向算法方面,尤其是机器学习,则应该使用cPickle,pylearn2库中保存model就是使用这项技术的;)

至于重量级的那就很多了,基本都跟数据库有关,有机会再介绍好了。