python进阶突破内置模块——数据序列化与格式
ztj100 2025-07-20 00:04 53 浏览 0 评论
数据序列化是将数据结构或对象转换为可存储/传输格式的过程,反序列化则是逆向操作。Python 提供了多种工具来处理不同场景下的序列化需求。
一、核心内置模块
1.json模块
最常用的轻量级数据交换格式,适用于跨语言交互。
基础用法
import json
data = {
"name": "Alice",
"age": 30,
"skills": ["Python", "SQL"]
}
# 序列化为字符串
json_str = json.dumps(data, indent=2)
# 序列化到文件
with open("data.json", "w") as f:
json.dump(data, f)
# 反序列化
loaded_data = json.loads(json_str)
with open("data.json", "r") as f:
loaded_data = json.load(f)
进阶功能
- 处理复杂对象:自定义序列化逻辑
from datetime import datetime
class User:
def __init__(self, name, join_date):
self.name = name
self.join_date = join_date
def custom_encoder(obj):
if isinstance(obj, datetime):
return obj.isoformat()
elif isinstance(obj, User):
return {"name": obj.name, "join_date": obj.join_date}
raise TypeError("Type not serializable")
user = User("Bob", datetime.now())
json_str = json.dumps(user, default=custom_encoder, indent=2)
性能优化:使用 ujson 或 orjson 第三方库加速
2.pickle模块
Python 专用二进制序列化,支持几乎所有 Python 对象,但存在安全风险。
基础用法
import pickle
data = {"key": "value", "nums": [1, 2, 3]}
# 序列化到字节
bytes_data = pickle.dumps(data)
# 反序列化
loaded_data = pickle.loads(bytes_data)
# 文件操作
with open("data.pkl", "wb") as f:
pickle.dump(data, f)
with open("data.pkl", "rb") as f:
loaded_data = pickle.load(f)
注意事项
- 安全警告:永远不要反序列化不可信来源的数据
- 版本兼容性:不同 Python 版本的 pickle 文件可能不兼容
- 自定义对象:需保证类定义在反序列化环境中可用
二、高级序列化场景
1. 处理复杂数据结构
循环引用处理
import json
data = {}
data["self_ref"] = data # 循环引用
# 默认会报错,使用自定义处理
class CyclicEncoder(json.JSONEncoder):
def default(self, obj):
if isinstance(obj, dict) and id(obj) in self.visited:
return "<<循环引用>>"
self.visited.add(id(obj))
return super().default(obj)
encoder = CyclicEncoder()
encoder.visited = set()
json_str = encoder.encode(data)
2. 高性能二进制序列化
使用marshal(内置模块)
- 专为 Python 字节码设计,性能极高
- 但官方不保证跨版本兼容性
import marshal
data = {"a": 1, "b": [2, 3]}
bytes_data = marshal.dumps(data)
loaded_data = marshal.loads(bytes_data)
三、常用第三方库
1.msgpack
二进制格式,性能优于 JSON,跨语言支持。
import msgpack
data = {"name": "Charlie", "scores": [95, 88]}
packed = msgpack.packb(data) # 序列化
unpacked = msgpack.unpackb(packed) # 反序列化
2.PyYAML
处理 YAML 格式,适合配置文件。
import yaml
config = """
database:
host: localhost
port: 3306
users:
- admin
- guest
"""
data = yaml.safe_load(config) # 安全加载
yaml_str = yaml.dump(data) # 生成 YAML
3.protobuf
Google 的高效跨语言序列化方案。
// person.proto
syntax = "proto3";
message Person {
string name = 1;
int32 id = 2;
repeated string emails = 3;
}
from person_pb2 import Person
person = Person(name="Alice", id=123)
person.emails.append("alice@example.com")
serialized = person.SerializeToString() # 序列化
new_person = Person()
new_person.ParseFromString(serialized) # 反序列化
四、性能对比与选型建议
格式/工具 | 可读性 | 速度 | 跨语言 | 适用场景 |
JSON | 高 | 中 | 是 | Web API、配置文件 |
Pickle | 无 | 快 | 否 | Python 内部数据持久化 |
MessagePack | 无 | 很快 | 是 | 高性能网络通信 |
Protocol Buffers | 无 | 极快 | 是 | 微服务通信、大数据存储 |
YAML | 高 | 慢 | 是 | 复杂配置文件 |
五、最佳实践
- 安全性优先:
- 永远不要使用 pickle 处理不可信数据
- 使用 json.loads() 而非 eval() 解析 JSON
- 性能优化:
- 对大文件使用 json.load()/json.dump() 流式处理
- 使用 orjson 替代标准 json 模块(性能提升3-10倍)
- 版本控制:
- 为序列化数据添加版本字段
{
"version": "1.1",
"data": {...}
}
- 处理日期时间:
from datetime import datetime
from json import JSONEncoder
class DateTimeEncoder(JSONEncoder):
def default(self, obj):
if isinstance(obj, datetime):
return obj.isoformat()
return super().default(obj)
六、实战:自定义序列化协议
实现一个支持自定义类的序列化方案:
import json
from dataclasses import dataclass
@dataclass
class Product:
id: int
name: str
price: float
class CustomEncoder(json.JSONEncoder):
def default(self, obj):
if isinstance(obj, Product):
return {"__product__": True, "id": obj.id, "name": obj.name, "price": obj.price}
return super().default(obj)
def custom_decoder(dct):
if "__product__" in dct:
return Product(dct["id"], dct["name"], dct["price"])
return dct
# 使用
product = Product(1, "Laptop", 999.9)
json_str = json.dumps(product, cls=CustomEncoder)
loaded = json.loads(json_str, object_hook=custom_decoder)
print(type(loaded)) # <class '__main__.Product'>
掌握这些工具和技术后,您将能够:
- 在不同场景选择最优序列化方案
- 处理复杂对象的序列化需求
- 优化大规模数据的处理性能
- 构建安全的跨系统数据交换方案
相关推荐
- Linux集群自动化监控系统Zabbix集群搭建到实战
-
自动化监控系统...
- systemd是什么如何使用_systemd/system
-
systemd是什么如何使用简介Systemd是一个在现代Linux发行版中广泛使用的系统和服务管理器。它负责启动系统并管理系统中运行的服务和进程。使用管理服务systemd可以用来启动、停止、...
- Linux服务器日常巡检脚本分享_linux服务器监控脚本
-
Linux系统日常巡检脚本,巡检内容包含了,磁盘,...
- 7,MySQL管理员用户管理_mysql 管理员用户
-
一、首次设置密码1.初始化时设置(推荐)mysqld--initialize--user=mysql--datadir=/data/3306/data--basedir=/usr/local...
- Python数据库编程教程:第 1 章 数据库基础与 Python 连接入门
-
1.1数据库的核心概念在开始Python数据库编程之前,我们需要先理解几个核心概念。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它就像一个电子化的文件柜,能让我们高效...
- Linux自定义开机自启动服务脚本_linux添加开机自启动脚本
-
设置WGCloud开机自动启动服务init.d目录下新建脚本在/etc/rc.d/init.d新建启动脚本wgcloudstart.sh,内容如下...
- linux系统启动流程和服务管理,带你进去系统的世界
-
Linux启动流程Rhel6启动过程:开机自检bios-->MBR引导-->GRUB菜单-->加载内核-->init进程初始化Rhel7启动过程:开机自检BIOS-->M...
- CentOS7系统如何修改主机名_centos更改主机名称
-
请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1.前言本文将讲解CentOS7系统如何修改主机名。...
- 前端工程师需要熟悉的Linux服务器(SSH 终端操作)指令
-
在Linux服务器管理中,SSH(SecureShell)是远程操作的核心工具。以下是SSH终端操作的常用命令和技巧,涵盖连接、文件操作、系统管理等场景:一、SSH连接服务器1.基本连接...
- Linux开机自启服务完全指南:3步搞定系统服务管理器配置
-
为什么需要配置开机自启?想象一下:电商服务器重启后,MySQL和Nginx没自动启动,整个网站瘫痪!这就是为什么开机自启是Linux运维的必备技能。自启服务能确保核心程序在系统启动时自动运行,避免人工...
- Kubernetes 高可用(HA)集群部署指南
-
Kubernetes高可用(HA)集群部署指南本指南涵盖从概念理解、架构选择,到kubeadm高可用部署、生产优化、监控备份和运维的全流程,适用于希望搭建稳定、生产级Kubernetes集群...
- Linux项目开发,你必须了解Systemd服务!
-
1.Systemd简介...
- Linux系统systemd服务管理工具使用技巧
-
简介:在Linux系统里,systemd就像是所有进程的“源头”,它可是系统中PID值为1的进程哟。systemd其实是一堆工具的组合,它的作用可不止是启动操作系统这么简单,像后台服务...
- Linux下NetworkManager和network的和平共处
-
简介我们在使用CentoOS系统时偶尔会遇到配置都正确但network启动不了的问题,这问题经常是由NetworkManager引起的,关闭NetworkManage并取消开机启动network就能正...
你 发表评论:
欢迎- 一周热门
-
-
MySQL中这14个小玩意,让人眼前一亮!
-
旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起
-
面试官:使用int类型做加减操作,是线程安全吗
-
C++编程知识:ToString()字符串转换你用正确了吗?
-
【Spring Boot】WebSocket 的 6 种集成方式
-
PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL
-
pytorch中的 scatter_()函数使用和详解
-
与 Java 17 相比,Java 21 究竟有多快?
-
基于TensorRT_LLM的大模型推理加速与OpenAI兼容服务优化
-
这一次,彻底搞懂Java并发包中的Atomic原子类
-
- 最近发表
-
- Linux集群自动化监控系统Zabbix集群搭建到实战
- systemd是什么如何使用_systemd/system
- Linux服务器日常巡检脚本分享_linux服务器监控脚本
- 7,MySQL管理员用户管理_mysql 管理员用户
- Python数据库编程教程:第 1 章 数据库基础与 Python 连接入门
- Linux自定义开机自启动服务脚本_linux添加开机自启动脚本
- linux系统启动流程和服务管理,带你进去系统的世界
- CentOS7系统如何修改主机名_centos更改主机名称
- 前端工程师需要熟悉的Linux服务器(SSH 终端操作)指令
- Linux开机自启服务完全指南:3步搞定系统服务管理器配置
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)