Python的Pickle序列化与反序列化(python反序列化json)
ztj100 2025-07-20 00:04 5 浏览 0 评论
动动小手,点击关注,感谢您的阅读,您的关注是我最大的动力!!!!
在 Python 编程中,数据持久化是将程序运行时的对象保存到磁盘,以便后续恢复使用的关键技术。pickle模块作为Python的内置工具,能轻松实现对象的序列化与反序列化。本文将通过核心函数、实战案例和避坑指南,带你掌握这一高效的数据处理利器!
一、Pickle是什么?
pickle是Python的标准库,用于将Python对象(如列表、字典、类实例)转换为字节流(序列化),并在需要时重新转换回对象(反序列化)。
- 简单易用:无需复杂配置,几行代码即可完成对象存储与读取。
- 保留对象类型:反序列化后恢复原始对象的类型和属性。
二 、pickle与json是什么区别?
- pickle定位:Python专属的二进制序列化协议,仅适用于 Python 环境,序列化后的数据无法被其他语言解析。
- JSON定位:跨语言的文本格式(基于JavaScript对象表示法),用于数据交换(如 API 接口、配置文件等)。并且json数据存储的是人类可读的文本字符串,必须处理字符集编码,否则可能出现乱码。
数据类型 | pickle 支持 | JSON 支持(需转换) |
基础类型(int/float) | ||
字符串(str) | (仅 Unicode 字符串) | |
列表 / 元组 | (统一转换为数组) | |
字典 | (键必须为字符串) | |
自定义对象 | (需手动转换为字典) | |
集合(set) | (需转换为列表) | |
函数 / 类对象 | ||
二进制数据(bytes) | (需 base64 编码为字符串) |
三、核心函数与案例
1.pickle.dump():序列化对象并保存到文件
语法:pickle.dump(obj, file)
- obj:要序列化的 Python 对象(如列表、字典)。
- file:文件对象(需以二进制写入模式 'wb' 打开)。
案例:保存字典到文件
import pickle
# 待保存的字典
data = {
"name": "Alice",
"age": 30,
"hobbies": ["reading", "swimming"]
}
# 将数据保存到文件
with open('data.pkl', 'wb') as f:
pickle.dump(data, f)
print("数据已保存到 data.pkl")
2.pickle.load():从文件中读取并反序列化对象
语法:pickle.load(file)
- file:文件对象(需以二进制读取模式 'rb' 打开)。
- 返回值:恢复后的原始 Python 对象。
案例:读取上例保存的字典
import pickle
# 从文件中读取数据
with open('data.pkl', 'rb') as f:
loaded_data = pickle.load(f)
print(loaded_data)
# 输出: {'name': 'Alice', 'age': 30, 'hobbies': ['reading','swimming']}
3.pickle.dumps():将对象序列化为字节串
语法:pickle.dumps(obj)
- 返回值:对象对应的字节串,可用于网络传输或内存存储。
案例:将列表转换为字节串
import pickle
my_list = [1, 2, 3, 4]
byte_string = pickle.dumps(my_list)
print(byte_string)
# 输出: b'\x80\x04\x95\x10\x00\x00\x00\x00\x00\x00\x00]\x94(K\x01K\x02K\x03K\x04e.'
4.pickle.loads():从字节串反序列化为对象
语法:pickle.loads(byte_string)
- byte_string:通过pickle.dumps()生成的字节串。
案例:恢复字节串为列表
import pickle
byte_string = b'\x80\x04\x95\r\x00\x00\x00\x00\x00\x00\x00]\x94(K\x01K\x02K\x03K\x04e.'
original_list = pickle.loads(byte_string)
print(original_list)
# 输出: [1, 2, 3, 4]
案例 1:保存自定义类实例
import pickle
class Person:
def __init__(self, name, age):
self.name = name
self.age = age
# 创建实例
person = Person("Bob", 25)
# 保存实例到文件
with open('person.pkl', 'wb') as f:
pickle.dump(person, f)
# 读取实例
with open('person.pkl', 'rb') as f:
loaded_person = pickle.load(f)
print(loaded_person.name, loaded_person.age)
# 输出: Bob 25
案例 2:批量处理数据
import pickle
# 多个数据对象
data_list = [
{"id": 1, "value": "A"},
{"id": 2, "value": "B"},
{"id": 3, "value": "C"}
]
# 批量保存
with open('batch_data.pkl', 'wb') as f:
for data in data_list:
pickle.dump(data, f)
# 批量读取
with open('batch_data.pkl', 'rb') as f:
while True:
try:
loaded_data = pickle.load(f)
print(loaded_data)
except EOFError:
break
在掌握了Pickle 的基础序列化功能后,其实它还有许多高级用法和隐藏技巧,能应对更复杂的场景。
四、协议版本控制:兼顾兼容性与性能
Pickle 支持多种协议版本,不同版本在兼容性和性能上有所差异。
1. 协议版本说明
协议版本 | Python 支持 | 特点 |
0 | 所有版本 | 人类可读的文本格式,兼容性最强,但速度最慢 |
1 | 所有版本 | 二进制格式,比协议 0 快,仍支持旧版 Python |
2 | 2.3+ | 引入对新类的支持,优化了对象序列化效率 |
3 | 3.0+ | 默认协议(Python 3.0-3.7),明确支持bytes类型 |
4 | 3.4+ | 支持更大对象(>4GB),新增对嵌套对象的优化 |
5 | 3.8+ | 新增零拷贝功能,大幅提升大型 NumPy 数组等二进制数据的序列化性能 |
2. 指定协议版本
import pickle
data = {"大型数据": [1, 2, 3] * 10000}
# 使用最高效的协议(当前Python版本支持的最新协议)
with open('data.pkl', 'wb') as f:
pickle.dump(data, f, protocol=pickle.HIGHEST_PROTOCOL)
# 或指定特定协议(如协议4,兼容Python 3.4+)
with open('data_v4.pkl', 'wb') as f:
pickle.dump(data, f, protocol=4)
闭坑指南:
- 若需兼容旧版 Python(如 2.x),建议使用协议 2:protocol=2。
- 处理大型二进制数据(如 NumPy 数组)时,优先使用协议 5(Python 3.8+)。
五、自定义序列化行为:控制对象如何被 Pickle
通过在类中定义特殊方法,可以自定义对象的序列化逻辑,实现更灵活的控制。
1.__getstate__和__setstate__方法
- __getstate__():定义对象被序列化时要保存的状态。
- __setstate__(state):定义对象被反序列化时如何恢复状态。
案例:自定义序列化一个包含文件句柄的类
import pickle
class FileHandler:
def __init__(self, filename):
self.filename = filename
self.file = open(filename, 'r') # 文件句柄不能直接序列化
def __getstate__(self):
# 只保存文件名,不保存文件句柄
state = self.__dict__.copy()
state['file'] = None # 移除不可序列化的属性
return state
def __setstate__(self, state):
# 恢复状态时重新打开文件
self.__dict__.update(state)
if self.filename:
self.file = open(self.filename, 'r')
# 使用示例
fh = FileHandler('test.txt')
with open('fh.pkl', 'wb') as f:
pickle.dump(fh, f) # 安全序列化,跳过文件句柄
with open('fh.pkl', 'rb') as f:
loaded_fh = pickle.load(f) # 自动恢复文件句柄
2.__reduce__方法:更底层的控制
用于完全自定义对象的序列化方式,适用于复杂对象(如C扩展类型)。
案例:自定义序列化一个数据库连接
import pickle
import sqlite3
class DatabaseConnection:
def __init__(self, db_path):
self.db_path = db_path
self.connection = sqlite3.connect(db_path)
def __reduce__(self):
# 返回一个元组:(重建函数, 函数参数)
return (DatabaseConnection, (self.db_path,))
# 使用示例
db = DatabaseConnection('example.db')
with open('db.pkl', 'wb') as f:
pickle.dump(db, f) # 序列化时仅保存数据库路径
with open('db.pkl', 'rb') as f:
loaded_db = pickle.load(f) # 反序列化时重新创建连接
六、内存优化:使用Pickler和Unpickler类
对于大型数据或需要精细控制的场景,可以使用pickle的Pickler和Unpickler类。
1. 分块处理大型数据
避免一次性加载整个文件到内存,适用于 GB 级数据:
import pickle
# 分块保存大型列表
data = [1, 2, 3] * 1000000
with open('large_data.pkl', 'wb') as f:
pickler = pickle.Pickler(f)
for chunk in [data[i:i+1000] for i in range(0, len(data), 1000)]:
pickler.dump(chunk)
# 分块读取
with open('large_data.pkl', 'rb') as f:
unpickler = pickle.Unpickler(f)
while True:
try:
chunk = unpickler.load()
process_chunk(chunk) # 处理每一块数据
except EOFError:
break
2. 自定义反序列化行为
通过继承Unpickler类,可以拦截并修改反序列化过程:
import pickle
class CustomUnpickler(pickle.Unpickler):
def find_class(self, module, name):
# 自定义类查找逻辑,可用于处理类重命名或移动
if module == 'old_module' and name == 'OldClass':
from new_module import NewClass
return NewClass
return super().find_class(module, name)
# 使用自定义Unpickler
with open('old_data.pkl', 'rb') as f:
data = CustomUnpickler(f).load()
七、安全增强:限制可反序列化的类
为防止恶意代码执行,可以限制 pickle 允许反序列化的类:
1. 使用Unpickler.find_class方法
import pickle
class RestrictedUnpickler(pickle.Unpickler):
# 允许反序列化的类白名单
ALLOWED_CLASSES = {'__builtin__.list', '__builtin__.dict', '__builtin__.str'}
def find_class(self, module, name):
class_name = f'{module}.{name}'
if class_name not in self.ALLOWED_CLASSES:
raise pickle.UnpicklingError(f"不允许反序列化类: {class_name}")
return super().find_class(module, name)
# 使用安全的Unpickler
with open('safe_data.pkl', 'rb') as f:
data = RestrictedUnpickler(f).load() # 只允许白名单中的类
2. 替代方案:使用dill库
dill是pickle 的增强版本,支持更多类型(如函数、类)的序列化,并提供更安全的选项。
安装dill:pip install dill
import dill
# 安全模式:禁用危险类的序列化
dill.settings['recurse'] = True # 递归序列化复杂对象
dill.dump(func, open('func.pkl', 'wb'), safe=True) # 安全模式
八、总结
pickle是 Python 数据持久化的 “瑞士军刀”,适用于快速保存和恢复对象状态。但使用时需牢记安全第一,避免在不可信环境中反序列化数据。结合其他数据存储方案(如 JSON、SQL),能进一步提升项目的灵活性与可靠性!
相关推荐
- 爬取电影视频数据(电影资源爬虫)
-
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。作者:yangrq1018原文链接:https://segmentfault.com/a/11900...
- Python效率倍增的10个实用代码片段
-
引言Python是一门功能强大且灵活的编程语言,广泛应用于数据分析、Web开发、人工智能等多个领域。它的简洁语法和高可读性让开发者能够快速上手,但在实际工作中,我们常常会遇到一些重复性或繁琐的任务。这...
- Python数据处理:深入理解序列化与反序列化
-
在现代编程实践中,数据的序列化与反序列化是数据持久化、网络通信等领域不可或缺的技术。本文将深入探讨Python中数据序列化与反序列化的概念、实现方式以及数据验证的重要性,并提供丰富的代码示例。...
- 亿纬锂能:拟向PKL买地,在马来西亚建立锂电池制造厂
-
亿纬锂能5月12日公告,亿纬马来西亚与PEMAJUKELANGLAMASDN.BHD.(PKL)签订《MEMORANDUMOFUNDERSTANDING》(谅解备忘录),亿纬马来西亚拟向PKL购买标的...
- 一个超强的机器学习库(spark机器学习库)
-
简介PyCaret...
- 30天学会Python编程:9. Python文件与IO操作
-
9.1文件操作基础9.1.1文件操作流程9.1.2文件打开模式表9-1Python文件打开模式...
- Python的Pickle序列化与反序列化(python反序列化json)
-
动动小手,点击关注...
- python进阶突破内置模块——数据序列化与格式
-
数据序列化是将数据结构或对象转换为可存储/传输格式的过程,反序列化则是逆向操作。Python提供了多种工具来处理不同场景下的序列化需求。一、核心内置模块...
- 微信聊天记录可视化工具详细介绍(微信聊天记录分析报告小程序)
-
功能概要能做什么...
- Python常用文件操作库使用详解(python中文件操作的相关函数有哪些)
-
Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能...
- Vue3+Django4全新技术实战全栈项目(已完结)
-
获课》aixuetang.xyz/5739/Django与推荐算法的集成及模型部署实践...
- 性能调优方面,经常要优化跑的最慢的代码,教你一种快速的方法
-
在我们遇到性能问题的时候,很多时候需要去查看性能的瓶颈在哪里,本篇文章就是提供了多种常用的方案来监控函数的运行时间。1.time首先说明,time模块很多是系统相关的,在不同的OS中可能会有一些精度差...
- Python解决读取excel数据慢的问题
-
前言:在做自动化测试的时候,我思考了一个问题,就是如果我们的测试用例随着项目的推进越来越多时,我们做自动化回归的时间也就越来越长,其中影响自动化测试速度的一个原因就是测试用例的读取问题。用例越多,所消...
- 【Python机器学习系列】基于Flask来构建API调用机器学习模型服务
-
这是我的第364篇...
- 不会用mmdet工具?速看MMDetection工具的终极指南
-
来源:计算机视觉工坊添加微信:dddvisiona,备注:目标检测,拉你入群。文末附行业细分群...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)