百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

Python启航:30天编程速成之旅(第29天)- pandas

ztj100 2025-02-18 14:24 8 浏览 0 评论

喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。

前期基础教程:

「Python3.11.0」手把手教你安装最新版Python运行环境

讲讲Python环境使用Pip命令快速下载各类库的方法

Python启航:30天编程速成之旅(第2天)-IDE安装

【Python教程】JupyterLab 开发环境安装


Python启航:30天编程速成之旅(第29天)- pandas

pandas 是一个功能强大且易于使用的数据处理和分析库,广泛应用于数据分析、数据清洗、数据可视化等领域。它提供了两种主要的数据结构:Series 和 DataFrame,分别用于一维和二维数据的处理。本教程将详细介绍 pandas 的安装、基本用法、高级功能以及一些生动的例子,帮助你更好地理解和使用这个强大的工具。

1. 安装pandas

pandas 是一个第三方库,你需要通过 pip 来安装它。打开命令行并执行以下命令:

pip install pandas

如果你需要安装最新版本或特定版本的 pandas,可以使用以下命令:

pip install --upgrade pandas

2. 导入pandas

安装完成后,你可以通过以下方式导入 pandas:

import pandas as pd

3. 基本概念

Series

Series 是 pandas 中的一维数组对象,类似于 Python 的列表或 NumPy 的数组,但具有标签(索引)。

# 创建一个 Series
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出:

DataFrame

DataFrame 是 pandas 中的二维表格数据结构,类似于 Excel 表格或 SQL 表。它由多个 Series 组成,每个 Series 代表一列数据。

# 创建一个 DataFrame
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
print(df)

输出:

4. 数据读取与写入

pandas 支持多种文件格式的读取和写入,包括 CSV、Excel、JSON、SQL 等。

读取 CSV 文件

# 读取 CSV 文件
df = pd.read_csv(r'./第29天/data.csv')
print(df.head())  # 显示前 5 行

写入 CSV 文件

# 写入 CSV 文件
df.to_csv(r'./第29天/output.csv', index=False)  # 不保存索引

output.csv 文件内容:

读取 Excel 文件

# 读取 Excel 文件
df = pd.read_excel(r'./第29天/data.xlsx', sheet_name='Sheet1')
print(df.head())

写入 Excel 文件

# 写入 Excel 文件
df.to_excel(r'./第29天/data.xlsx', index=False)  # 不保存索引

读取 JSON 文件

# 读取 JSON 文件
df = pd.read_json(r'./第29天/data.json')
print(df.head())

写入 JSON 文件

# 写入 JSON 文件
df.to_json(r'./第29天/data.json', orient='records')

5. 数据选择与过滤

选择单列

# 选择单列
ages = df['年龄']
print(ages)

选择多列

# 选择多列
subset = df[['姓名', '年龄']]
print(subset)

使用loc和iloc

  • loc:基于标签的索引,适用于按行名或列名选择数据。
  • iloc:基于位置的索引,适用于按行号或列号选择数据。
# 使用 loc 选择数据
print(df.loc[0, '姓名'])

# 使用 iloc 选择数据
print(df.iloc[0, 0])

条件过滤

# 条件过滤
filtered_df = df[df['年龄'] > 30]
print(filtered_df)

6. 数据处理与转换

添加新列

# 添加新列
df['职业'] = ['工程师', '设计师', '产品经理', '工程师', '设计师', '产品经理', '工程师', '设计师', '产品经理', '工程师']
print(df)

删除列

# 删除列
df.drop(columns=['职业'], inplace=True)
print(df)

重命名列

# 重命名列
df.rename(columns={'年龄': 'Age'}, inplace=True)
print(df)

处理缺失值

# 查看缺失值
print(df.isnull())

# 删除含有缺失值的行
df.dropna(inplace=True)

# 填充缺失值
df.fillna(value=0, inplace=True)

数据类型转换

# 转换数据类型
df['Age'] = df['Age'].astype(int)
print(df.dtypes)

分组与聚合

# 分组与聚合
grouped = df.groupby('性别').agg({'年龄': 'mean'})
print(grouped)

7. 数据合并与连接

合并两个 DataFrame

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    '姓名': ['张三', '李四'],
    '年龄': [25, 30]
})

df2 = pd.DataFrame({
    '姓名': ['王五', '赵六'],
    '年龄': [35, 40]
})

# 合并两个 DataFrame
merged_df = pd.concat([df1, df2], ignore_index=True)
print(merged_df)

连接两个 DataFrame

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    '姓名': ['张三', '李四'],
    '年龄': [25, 30]
})

df2 = pd.DataFrame({
    '姓名': ['张三', '李四'],
    '城市': ['北京', '上海']
})

# 连接两个 DataFrame
joined_df = pd.merge(df1, df2, on='姓名')
print(joined_df)

8. 数据可视化

pandas 可以与 matplotlib 和 seaborn 结合使用,进行简单的数据可视化。

折线图

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel(r'./第29天/data.xlsx', sheet_name='Sheet1')

import matplotlib.pyplot as plt
# 设置中文字体为 'SimHei'(黑体)
plt.rcParams['font.sans-serif'] = ['SimHei']  # 解决中文乱码问题
plt.rcParams['axes.unicode_minus'] = False    # 解决负号显示问题

# 创建折线图
df.plot(x='姓名', y='年龄', kind='line')
plt.show()

柱状图

# 创建柱状图
df.plot(x='姓名', y='年龄', kind='bar')
plt.show()

散点图

# 创建散点图
df.plot(x='年龄', y='城市', kind='scatter')
plt.show()

直方图

# 创建直方图
df['年龄'].plot(kind='hist', bins=5)
plt.show()

9. 高级功能

时间序列分析

pandas 提供了强大的时间序列分析功能,支持日期时间操作、滚动窗口计算等。

import pandas as pd

# 创建时间序列数据
dates = pd.date_range(start='2023-01-01', periods=10, freq='D')
values = [100, 102, 105, 107, 109, 110, 112, 115, 118, 120]

df = pd.DataFrame({'日期': dates, '价格': values})
df.set_index('日期', inplace=True)

# 计算滚动平均
df['滚动平均'] = df['价格'].rolling(window=3).mean()

print(df)

数据透视表

pandas 提供了 pivot_table 方法,可以轻松创建数据透视表,进行多维度数据分析。

import pandas as pd

# 创建示例数据
data = {
    '产品': ['A', 'B', 'C', 'A', 'B', 'C'],
    '地区': ['北区', '南区', '东区', '北区', '南区', '东区'],
    '销售额': [100, 150, 200, 120, 180, 220]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='销售额', index='产品', columns='地区', aggfunc='sum')

print(pivot_table)

应用自定义函数

你可以使用 apply 方法对 DataFrame 或 Series 应用自定义函数。

import pandas as pd

# 创建示例数据
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 35]
})

# 定义自定义函数
def age_category(age):
    if age < 30:
        return '青年'
    elif age < 40:
        return '中年'
    else:
        return '老年'

# 应用自定义函数
df['年龄类别'] = df['年龄'].apply(age_category)

print(df)

11. 总结

pandas 是一个功能强大且易于使用的数据处理和分析库,广泛应用于各种数据分析任务中。通过本教程,你已经了解了 pandas 的基本用法、高级功能以及一些生动的例子。希望这些内容能够帮助你更好地掌握 pandas,并在你的项目中应用它。

喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。

相关推荐

告别手动操作:一键多工作表合并的实用方法

通常情况下,我们需要将同一工作簿内不同工作表中的数据进行合并处理。如何快速有效地完成这些数据的整合呢?这主要取决于需要合并的源数据的结构。...

【MySQL技术专题】「优化技术系列」常用SQL的优化方案和技术思路

概述前面我们介绍了MySQL中怎么样通过索引来优化查询。日常开发中,除了使用查询外,我们还会使用一些其他的常用SQL,比如INSERT、GROUPBY等。对于这些SQL语句,我们该怎么样进行优化呢...

9.7寸视网膜屏原道M9i双系统安装教程

泡泡网平板电脑频道4月17日原道M9i采用Win8安卓双系统,对于喜欢折腾的朋友来说,刷机成了一件难事,那么原道M9i如何刷机呢?下面通过详细地图文,介绍原道M9i的刷机操作过程,在刷机的过程中,要...

如何做好分布式任务调度——Scheduler 的一些探索

作者:张宇轩,章逸,曾丹初识Scheduler找准定位:分布式任务调度平台...

mysqldump备份操作大全及相关参数详解

mysqldump简介mysqldump是用于转储MySQL数据库的实用程序,通常我们用来迁移和备份数据库;它自带的功能参数非常多,文中列举出几乎所有常用的导出操作方法,在文章末尾将所有的参数详细说明...

大厂面试冲刺,Java“实战”问题三连,你碰到了哪个?

推荐学习...

亿级分库分表,如何丝滑扩容、如何双写灰度

以下是基于亿级分库分表丝滑扩容与双写灰度设计方案,结合架构图与核心流程说明:一、总体设计目标...

MYSQL表设计规范(mysql表设计原则)

日常工作总结,不是通用规范一、表设计库名、表名、字段名必须使用小写字母,“_”分割。...

怎么解决MySQL中的Duplicate entry错误?

在使用MySQL数据库时,我们经常会遇到Duplicateentry错误,这是由于插入或更新数据时出现了重复的唯一键值。这种错误可能会导致数据的不一致性和完整性问题。为了解决这个问题,我们可以采取以...

高并发下如何防重?(高并发如何防止重复)

前言最近测试给我提了一个bug,说我之前提供的一个批量复制商品的接口,产生了重复的商品数据。...

性能压测数据告诉你MySQL和MariaDB该怎么选

1.压测环境为了尽可能的客观公正,本次选择同一物理机上的两台虚拟机,一台用作数据库服务器,一台用作运行压测工具mysqlslap,操作系统均为UbuntuServer22.04LTS。...

屠龙之技 --sql注入 不值得浪费超过十天 实战中sqlmap--lv 3通杀全国

MySQL小结发表于2020-09-21分类于知识整理阅读次数:本文字数:67k阅读时长≈1:01...

破防了,谁懂啊家人们:记一次 mysql 问题排查

作者:温粥一、前言谁懂啊家人们,作为一名java开发,原来以为mysql这东西,写写CRUD,不是有手就行吗;你说DDL啊,不就是设计个表结构,搞几个索引吗。...

SpringBoot系列Mybatis之批量插入的几种姿势

...

MySQL 之 Performance Schema(mysql安装及配置超详细教程)

MySQL之PerformanceSchema介绍PerformanceSchema提供了在数据库运行时实时检查MySQL服务器的内部执行情况的方法,通过监视MySQL服务器的事件来实现监视内...

取消回复欢迎 发表评论: