Python常用标准库详解(pickle序列化和JSON序列化)

2023-05-05 原文

常用的标准库

序列化模块

import pickle

序列化和反序列化

把不能直接存储的数据变得可存储，这个过程叫做序列化。把文件中的数据拿出来，回复称原来的数据类型，这个过程叫做反序列化。

在文件中存储的数据只能是字符串，或者是字节流，不能是其它的数据类型，但是如果想要将其存储就需要序列化。

Python中的序列化模块叫做 pickle，PHP等其它的一些语言将其称作serialize 或者unserialize，每个语言的序列化功能可以序列化它本身的一切数据类型。

使用场景

现在存在一段数据，现在并不需要他，但是说不定什么时候我就要用它，那么最好的方法就是将这段数据保存起来。

保存这段数据一般来说有那么几种方法（入库或者保存文件），但是这段数据很复杂，而保存在数据库中需要特定的数据格式，入库的话就非常的麻烦了，而且我不想破坏数据的原有格式，那么可以选择保存为文件。

如下所示：保存文件会遇到种种的麻烦问题。

# 这是我想要保存的一段数据
lst = ['A', 'B', 'C']
# 直接使用open函数不能将非字符串和非字节流的数据写入文件
with open('data.txt', 'w', encoding='UTF-8') as fp :
fp.write(lst)
# ！！！ TypeError
# 将数据变成字符串就破坏了原有的数据结构（如果很复杂的数据结构几乎没有复原的可能性）
lst = str(lst)
# 将数据变成字节流：只能将字符串变成字节流数据！

现在就可以使用序列化功能，将数据序列化成为字节流的格式，然后存在文件当中，当需要的时候，再从文件中读取出来，然后反序列化成为数据原来的样子，而且保证原数据的数据结构没有变化。

而且可以序列化语言当中的任何数据类型，就是说不止是基本的数据类型，还有函数、类、对象……

dumps & loads

dumps将任意对象序列化成bytes数据，loads将序列化成为bytes的数据反序列成数据原本的格式。

注意：只能反序列化被序列化的数据

import pickle

# 这是我想要保存的一段数据
lst = ['A', 'B', 'C']

# dumps 把任意对象序列化成bytes
res = pickle.dumps(lst)
print(res)  # b'\x80\x03]q\x00(X\x01\x00\x00\x00Aq\x01X\x01\x00\x00\x00Bq\x02X\x01\x00\x00\x00Cq\x03e.'
print(type(res))  # <class 'bytes'>
# 序列化后的bytes数据可以写入文件中。

# loads 把任意bytes反序列化成为原来的数据
lst = pickle.loads(res)
print(lst)  # ['A', 'B', 'C']
print(type(lst))  # <class 'list'>

# 尝试反序列化其它的bytes数据
char = '你好'
by_char = char.encode()
new_char = pickle.loads(by_char)  # _pickle.UnpicklingError: invalid load key, '\xe4'.

dump & load

含义和上述的相同，只是这个可以直接操作IO对象，省时省力。

import pickle

# 这是我想要保存的一段数据
lst = ['A', 'B', 'C']

# dumps 和 loads 配合文件操作
# 序列化后写入文件
with open('test.txt', 'wb') as fp:
    data = pickle.dumps(lst)
    fp.write(data)
# 读取文件反序列化
with open('test.txt', 'rb') as fp:
    data = fp.read()
    lst = pickle.loads(data)

# dump 和 load 配合文件操作
# 序列化写入文件
with open('test.txt', 'wb') as fp:
    pickle.dump(lst, fp)
# 读取文件反序列化
with open('test.txt', 'rb') as fp:
    lst = pickle.load(fp)

JSON序列化模块

import json

使用场景

序列化后的数据，如果想在多种语言中都可以流通怎么办？每种语言都有自己的语言特性，有些语言中的数据是特有的，那么序列化后的数据该怎么流通呢？

每种语言虽然各有自己的特点，但是几乎所以的语言都是师出同门，天下语言无不出C者。所以将每种语言共同存在的数据格式按照统一的标准去序列化就可以了，JSON诞生了。

json一般存储为json文件。

支持的数据类型

python中支持JSON序列化的数据一共有八种类型：

int、float、bool、str、list、tuple、dict、None

JSON序列化支持这几种数据类型是因为JSON中就只支持这几种数据类型：

如下为python中的数据类型对应json中的数据类型；

python数据类型	JSON数据类型
int	int
float	float
bool（True，False）	bool（true，false）
None	null
str	str（必须双引号）
list（[]）、tuple（()）	Array（[]）
dict（{}）	Object（{}）（键必须是双引号）

注意：

JSON中没有元组类型，所以会变成列表；
JSON中的对象必须使用字符串作为键，所以python中的字典数据中的非字符串键，会变成对应的JSON数据然后强转成为字符串；

import json
dict_var = {1: 1, 2.2: 2.2, False: True, '123': '123', "234": "234", None: None}
json_obj = json.dumps(dict_var)
dict_var = json.loads(json_obj)
print(dict_var)
# {'1': 1, '2.2': 2.2, 'false': True, '123': '123', '234': '234', 'null': None}

JSON和pickle的区别

JSON可以序列化python八种数据，序列化为字符串。

pickle可以序列化python所有的数据类型，序列化为字节流。

序列化函数

JSON序列化函数和pickle的一样，名称和使用方法基本一样：

方法	含义
dumps	序列化
loads	反序列化
dump	序列化写入文件
load	读取文件反序列化

这里注意一下序列化方法的几个常用参数：

ensure_asscii 默认为True，以ACSII格式编码，以Unicode显示；

sort_keys 默认为True，对字典的键进行排序；

indent默认为None， json格式化默认是一行不加缩进的，如果indent是一个正整数，就以该缩进级别进行换行，增强可视化。

import json
# 开启排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var)  # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=True)
dict_var = json.loads(json_char)
print(dict_var)  # {'A': '1', 'B': '2'}
# 关闭排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var)  # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=False)
dict_var = json.loads(json_char)
print(dict_var)  # {'B': '2', 'A': '1'}
# dump 也一样哦

json和pickle实际使用过程中的一些问题

在对文件进行操作的时候：

json可以连续dump，但是不能连续load
pickle可以连续dump和load

如下解释：

# json 可以连续dump，但是不能连续load
import json
# 序列化数据
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化写入文件
with open('test.json', 'w', encoding='UTF-8') as fp:
    json.dump(lst1, fp)
    json.dump(lst2, fp)
    json.dump(lst3, fp)
# 读取文件反序列化
with open('test.json', 'r', encoding='UTF-8') as fp:
    data1 = json.load(fp)  # ERROR
    data2 = json.load(fp)
    data3 = json.load(fp)
# ！！！ json.decoder.JSONDecodeError: Extra data: line 1 column 10 (char 9)

因为 json.dump 方法序列化写入文件的时候，写入了两个及以上的数据，之后 json.load 方法在读的时候又是一次性将整个文件中的数据读取出来，这个时候，反序列化的数据成了 [1, 2, 3][4, 5, 6][7, 8, 9] ，这明显不是一个json支持的数据格式，所以 json.load 失败了。

再来看pickle是怎么样的：

# pickle 可以连续dump，也可以连续load
import pickle
# 序列化数据
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化写入文件
with open('pickle.txt', 'wb') as fp:
    pickle.dump(lst1, fp)
    pickle.dump(lst2, fp)
    pickle.dump(lst3, fp)
# 读取文件反序列化
with open('pickle.txt', 'rb') as fp:
    data1 = pickle.load(fp)  # [1, 2, 3]
    print(data1)
    data2 = pickle.load(fp)  # [4, 5, 6]
    print(data2)
    data3 = pickle.load(fp)  # [7, 8, 9]
    print(data3)
# 尝试先逐行读取，再反序列化
with open('pickle.txt', 'rb') as fp:
    datum = fp.readlines()
    print(len(datum))  # 1
    
    for data in datum:
        data = pickle.loads(data)
        print(data)  # [1, 2, 3]   # 只能读出一个

可以看到 pickle.load 将数据都读出来了，这是因为 pickle.dump 在写入数据的时候在每条数据后都加上了一个标记（有些人解释说是换行，但是文件中并没有换行，逐行使用 fp.readlines 逐行读取的时候也只能获取一条，但是在文件中所有的数据都是在同一行的，我也不太懂了(无奈)），然后 pickle.load 每次就只会读一条数据，从IO指针读到每条数据后的那个标记为止，所以，pickle 可以连续的 load。

怎么解决json的这个问题？

其实上面的这个问题，我个人认为是一种不规范的操作。因为 json.load 会一次性的读取整个文件中的内容，你却在一个文件中写入了不止一条的数据，那么在反序列化的时候当然会报错了。所以我认为：

json的主要作用多语言之前的数据传递和数据存储，每个JSON文件中最好只储存一条完整的数据。

但是我就想在一个json文件中存多个数据呢？

其实思路很简单，关键就是读取文件然后反序列化的时候，必须是一条数据、一条数据的反序列化，类似如下：

import json
# 序列化数据
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化写入文件，每写入一条数据插一个换行
with open('test.json', 'w', encoding='UTF-8') as fp:
    json.dump(lst1, fp)
    fp.write('\n')
    json.dump(lst2, fp)
    fp.write('\n')
    json.dump(lst3, fp)
# 读取文件反序列化（逐行读取数据，然后反序列化）
with open('test.json', 'r', encoding='UTF-8') as fp:
    datum = fp.readlines()
    print(len(datum))  # 3
    for data in datum:
        data = json.loads(data)
        print(data)  # [1, 2, 3]
                     # [4, 5, 6]
                     # [7, 8, 9]

pickle和json的区别总结

json序列化后的数据为字符串，pickle序列化后的数据为字节流；
json支持八种数据类型(int、float、bool、str、list、tuple、dict、None)，pickle支持python的一切数据类型；
json一般用于多语言间的数据交流，pickle一般用于python之间数据交流；

到此这篇关于Python常用标准库（pickle序列化和JSON序列化）的文章就介绍到这了,更多相关Python pickle序列化和JSON序列化内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python常用标准库详解(pickle序列化和JSON序列化)的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
ios – CGPath和UIBezierPath()有什么区别？

目前,我正在努力制作一个自定义按钮,我有一个图像,并具有坐标,但我发现您可以通过使用CGPath类或UIBezierPath创建一个按钮/对象类.有人可以告诉我两者有什么区别？解决方法CGPath是CoreGraphics库的不透明类型,而UIBezierPath是UIKit中的Obj-C类.UIBezierPath是一个围绕CGPath的包装,具有更加面向对象的界面和一些方便的方法.使用CGPath可能会略微更快,因为它不必经过Obj-C,并且它具有更高级的功能,如CGPathApply.重要的是,UI
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
swift 快速奔跑的兔几本节的内容是：序列化与反序列化

在cocoa中，我们经常需要向磁盘保存数据块，cocoa将这些数据块表示为NSData对象例如，有一个字符串，将其转换为NSData，可以使用如下方法：我们还可以将对象转化为数据。遵守协议NSCoding的对象可以转换为NSData对象，也可以从NSData对象中加载，方法如下：
Swift中一个类中的枚举enum类型的数据该如何实现序列化NSCoder

简述昨天在开发中遇到了这样一个问题，需要用NSUserDefaults持久化一些数据，其中需要保存一个自己定义的类对象。结束其实枚举本来就是一个Int，因此我们将其声明为Int型就可以根据Int值初始化了，以此实现序列化和反序列化。
swift json的序列化和反序列化

还有一点东西没写完，权作笔记参考：http://www.hangge.com/blog/cache/detail_983.html
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
Swift中对象序列化的实现

Swift中对象序列化的实现在swift中要使某个类可以序列化，只需要类实现NSCoding协议，并实现协议中的一个必要的构造函数和一个方法，分别对应序列化和反序列化的二个过程。
Alamofire 4.0 迁移指南

原文:Alamofire4.0MigrationGuide作者:cnoon译者:kemchenj译者注：最近打算把公司项目迁移到Swift3.0,顺手把Alamofire4.0的迁移指南翻译了,之前虽然读过一部分源码,但还是看到了很多新东西,新的Adapter和Retrier我都打算用到项目里,希望大家看完也能够有收获.Alamofire4.0是Alamofire最新的一个大版本更新,一个基于Sw

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教