Pandas基本数据结构之DataFrame简介
ztj100 2024-12-01 07:03 12 浏览 0 评论
DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一,掌握了 DataFrame 的用法,就基本拥有了数据分析的基本能力。DataFrame 是由多种类型的列构成的二维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。DataFrame也称之为异构数据表,所谓异构指的是不同列的数据类型是可以不同的,可以是字符串、整型或者浮点型等,就好比sql表中每列的数据类型可以不相同一个道理。DataFrame的简单结构如下图所示,其中红色的列表示index,蓝色的行表示columns。
DataFrame创建
Pandas中DataFrame的创建非常简单,语法格式如下:
pd.DataFrame( data, index, columns, dtype, copy)
参数 | 说明 |
data | 输入的数据,可以是 ndarray,series,list,dict,标量以及一个 DataFrame。 |
index | 行标签,如果没有传递 index 值,则默认行标签是 np.arange(n),n 代表 data 的元素个数。 |
columns | 列标签,如果没有传递 columns 值,则默认列标签是 np.arange(n)。 |
dtype | dtype表示每一列的数据类型。 |
copy | 默认为 False,表示是否复制数据 data。 |
Pandas提供了多种创建DataFrame的方式,主要包含以下几种最基本的方式:
创建空DataFrame
可以使用下列方式直接创建一个空的DataFrame。
#创建一个空的DataFrame
df = pd.DataFrame()
print(df)
结果如下:
Empty DataFrame
Columns: []
Index: []
使用多维列表DataFrame
使用一维列表创建:
#使用1维度列表
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)
结果如下:
0
0 1
1 2
2 3
3 4
4 5
使用二维列表创建:
#使用2维度列表
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
print(df)
结果如下:
id level rate
0 1 A 3.45
1 2 A 1.68
2 3 E 2.14
3 4 C 3.13
4 5 B 4.33
这里需要注意一点,在使用列表创建时,列表的长度表示行元素的个数,在不指定index和columns的情况下,会默认使用隐式index和columns。
使用Series创建DataFrame
使用Series创建DataFrame时,生成的索引是每个 Series 索引的并集。如果没有指定columns,DataFrame 的columns就是字典键的有序列表。
#使用Series创建DataFrame
data = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)
结果如下:
one two
a 1.0 1.0
b 2.0 2.0
c 3.0 3.0
d NaN 4.0
从Series中指定特定的index
#使用Series创建DataFrame,指定index
data = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d, index = ['d', 'b', 'c'])
print(df)
结果如下:
one two
d NaN 4.0
b 2.0 2.0
c 3.0 3.0
从Series中指定特定的index和columns
#使用Series创建DataFrame,指定index和columns
data = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d, index = ['a', 'b', 'c'], columns=['one','two','three'])
print(df)
结果如下:
one two three
a 1.0 1.0 NaN
b 2.0 2.0 NaN
c 3.0 3.0 NaN
这里需要注意的时,在指定index和colunms时,如果在源数据中没有的,会默认使用NaN来填充。
使用字典列表创建DataFrame
一组字典的列表也可以作为输入数据传递给 DataFrame 构造函数。默认情况下,字典的key会被用作columns。
#使用字典列表创建DataFrame
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)
结果如下:
a b c
0 1 2 NaN
1 5 10 20.0
如果在没有指定index的情况下, DataFrame会默认使用隐式索引,因此也可以手动去指定index:
#使用字典列表创建DataFrame,指定index
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df)
结果如下:
a b c
first 1 2 NaN
second 5 10 20.0
使用字典列表创建DataFrame时,还可以通过指定columns来从字典中挑选出指定的key并按找columns中的顺序来创建DataFrame,如果指定的column在key中不存在,则用NaN来补充数据
#使用字典列表创建DataFrame,指定index和columns
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'], columns=['b','a','d'])
print(df)
结果如下:
b a d
first 2 1 NaN
second 10 5 NaN
DataFrame基本属性
名称 | 基本属性 |
T | 行和列转置 |
axes | 返回一个仅以行索引和列索引的列表。 |
dtypes | 返回每列数据的数据类型 |
empty | DataFrame中没有数据或者任意坐标轴的长度为0,则返回True |
ndim | 轴的数量,也指numpy 数组的维数 |
shape | 返回一个元组,表示了 DataFrame 维度 |
size | DataFrame中的元素数量 |
values | 使用 numpy 数组表示 DataFrame 中的元素值 |
为了对上述基本属性进行演示,这里我们先创建一个DataFrame:
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
print(df)
结果如下:
id level rate
0 1 A 3.45
1 2 A 1.68
2 3 E 2.14
3 4 C 3.13
4 5 B 4.33
T
print(df.T)
结果如下:
0 1 2 3 4
id 1 2 3 4 5
level A A E C B
rate 3.45 1.68 2.14 3.13 4.33
axes
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.axes
结果如下:
[RangeIndex(start=0, stop=5, step=1),
Index(['id', 'level', 'rate'], dtype='object')]
dtypes
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.dtypes
结果如下:
id int64
level object
rate float64
dtype: object
empty
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.empty
结果如下:
False
如果此时我们重新创建一个空的DataFrame
df = pd.DataFrame()
df.empty
结果如下:
True
ndim
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.ndim
结果如下:
2
shape
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.shape
结果如下:
(5, 3)
size
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.size
结果如下:
15
values
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
df.values
结果如下:
array([[1, 'A', 3.45],
[2, 'A', 1.68],
[3, 'E', 2.14],
[4, 'C', 3.13],
[5, 'B', 4.33]], dtype=object)
DataFrame操作
DataFrame 可以分别使用列索引(columns)和行索引(index)来完成数据的选取、添加和删除操作。下面依次对这两种类型的操作进行简单介绍。
列索引操作DataFrame
DataFrame 可以使用列索(columns index)引来完成数据的选取、添加和删除操作。
1.列索引选取列数据
data = [[1,'A',3.45],[2,'A',1.68],[3,'E',2.14],[4,'C',3.13],[5,'B',4.33]]
df = pd.DataFrame(data, columns = ['id','level','rate'])
print(df['rate'])
结果如下:
0 3.45
1 1.68
2 2.14
3 3.13
4 4.33
Name: rate, dtype: float64
2.列索引添加列数据
可以利用其他列的数据来生成新的列数据据
df['flag'] = df['rate'] > 2
print(df)
结果如下:
id level rate flag
0 1 A 3.45 True
1 2 A 1.68 False
2 3 E 2.14 True
3 4 C 3.13 True
4 5 B 4.33 True
也可以直接添加新数据列
df['del'] = [1,1,2,2,3]
print(df)
结果如下:
id level rate flag del
0 1 A 3.45 True 1
1 2 A 1.68 False 1
2 3 E 2.14 True 2
3 4 C 3.13 True 2
4 5 B 4.33 True 3
3.列索引删除列数据
删除列数据的方式有多种,首先可以使用del进行删除:
del df['del']
print(df)
结果如下:
id level rate flag
0 1 A 3.45 True
1 2 A 1.68 False
2 3 E 2.14 True
3 4 C 3.13 True
4 5 B 4.33 True
另外还可以通过pop进行列数据的删除:
df.pop('flag')
结果如下:
0 True
1 False
2 True
3 True
4 True
Name: flag, dtype: bool
这个时候原DataFrame变成了
id level rate
0 1 A 3.45
1 2 A 1.68
2 3 E 2.14
3 4 C 3.13
4 5 B 4.33
行索引操作DataFrame
行索引操作和列索引操作类似,也分别包括行索引取数,添加行,删除行等
1.index索引取数
index索引取数时通过将行索引传递给函数loc来实现的
#使用字典列表创建DataFrame,指定index
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df.loc['first']
结果如下:
a 1.0
b 2.0
c NaN
Name: first, dtype: float64
2.隐式索引取数
隐式索引为0~range(n)的整数,可以通过方法iloc来对指定行进行取数
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df.iloc[0]
结果如下:
a 1.0
b 2.0
c NaN
Name: first, dtype: float64
3.多行索引取数
DataFrame还支持以切片的方式进行多行取数,需要注意的是,中括号内如果不是切片,那么则是按列索引进行取数,这是需要注意的一点
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df[0:2])
结果如下:
a b c
first 1 2 NaN
second 5 10 20.0
另外还可以使用head()方法进行头部n行取数,如果不指定参数,默认取5行。
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df.head(1))
结果如下:
a b c
first 1 2 NaN
另外还可以使用tail()方法进行尾部n行取数,如果不指定参数,默认取5行。
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df.tail(1))
结果如下:
a b c
second 5 10 20.0
4.多行索引取数
DataFrame还支持以切片的方式进行多行取数,需要注意的是,中括号内如果不是切片,那么则是按列索引进行取数,这是需要注意的一点
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
print(df[0:2])
结果如下:
a b c
first 1 2 NaN
second 5 10 20.0
5.添加数据行
与添加列数据不同的是,添加行需要使用cancat()方法进行追加,也可以使用append()方法,但是append已被弃用。
data1 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df1 = pd.DataFrame(data, index=['first', 'second'])
data2 = [{'a': 7, 'b': 3,'c':6}, {'a': 5, 'c': 9}]
df2 = pd.DataFrame(data, index=['third', 'fourth'])
df = pd.concat([df1, df2])
print(df)
结果如下:
a b c
first 1 2 NaN
second 5 10 20.0
third 1 2 NaN
fourth 5 10 20.0
6.行索引删除数据
行索引删除数据使用drop()方法,由于Pandas的行索引是可以允许重复的,因此当有多个index重复时,删除某个index中的行数据会将所有index为改值的行全部删除。
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20},{'a': 7, 'b': 3,'c':6}, {'a': 5, 'c': 9}]
df = pd.DataFrame(data, index=['first', 'second','third', 'fourth'])
print(df.drop('first'))
结果如下:
a b c
second 5 10.0 20.0
third 7 3.0 6.0
fourth 5 NaN 9.0
关于DataFrame就简单的介绍到这里,由于Pandas是个面向数据分析的工具,因此内部集成了很多数据分析使用到的方法,这些方法作用在Series和DataFrame上来实现特定的数据分析需求,后面如果有时间,会简单介绍几个在数据分析中常用的一些方法。
相关推荐
- 电脑装系统用GHOST好,还是原装版本好?老司机都是这么装的
-
Hello大家好,我是兼容机之家的咖啡。安装Windows系统是原版ISO好还是ghost好呢?针对这个的问题,我们先来科普一下什么是ghost系统,和原版ISO镜像两者之间有哪些优缺点。如果是很了解...
- 苹果 iOS 14.5.1/iPadOS 14.5.1 正式版发布
-
IT之家5月4日消息今日凌晨,苹果发布了iOS14.5.1与iPadOS14.5.1正式版更新。这一更新距iOS14.5正式版发布过去了一周时间。IT之家了解到,苹果表示,...
- iOS 13.1.3 正式版发布 包含错误修复和改进
-
苹果今天发布了iOS13.1.3和iPadOS13.1.3,这是iOS13发布之后第四个升级补丁。iOS13.1.2两周前发布。iOS13.1.3主要包括针对iPad和...
- 还不理解 Error 和 Exception 吗,看这篇就够了
-
在Java中的基本理念是结构不佳的代码不能运行,发现错误的理想时期是在编译期间,因为你不用运行程序,只是凭借着对Java基本理念的理解就能发现问题。但是编译期并不能找出所有的问题,有一些N...
- Linux 开发人员发现了导致 MacBook“无法启动”的 macOS 错误
-
“多个严重”错误影响配备ProMotion显示屏的MacBookPro。...
- 启动系统时无法正常启动提示\windows\system32\winload.efi
-
启动系统时无法正常启动提示\windows\system32\winload.efi。该怎么解决? 最近有用户遇到了开机遇到的问题,是Windows未能启动。原因可能是最近更改了硬件或软件。虽然提...
- 离线部署之两种构建Ragflow镜像的方式,dify同理
-
在实际项目交付过程中,经常遇到要离线部署的问题,生产服务器无法连接外网,这时就需要先构建好ragflow镜像,然后再拷到U盘或刻盘,下面介绍两种构建ragflow镜像的方式。性能测试(网络情况好的情况...
- Go语言 error 类型详解(go语言 异常)
-
Go语言的error类型是用于处理程序运行中错误情况的核心机制。它通过显式的返回值(而非异常抛出)来管理错误,强调代码的可控性和清晰性。以下是详细说明及示例:一、error类型的基本概念内置接口...
- Mac上“闪烁的问号”错误提示如何修复?
-
现在Mac电脑的用户越来越多,Mac电脑在使用过程中也会出现系统故障。当苹果电脑无法找到系统软件时,Mac会给出一个“闪烁的问号”的标志。很多用户受到过闪烁问号这一常见的错误提示的影响,如何解决这个问...
- python散装笔记——177 sys 模块(python sys模块详解)
-
sys模块提供了访问程序运行时环境的函数和值,例如命令行参数...
- 30天自制操作系统:第一天(30天自制操作系统电子书)
-
因为咱们的目的是为了研究操作系统的组成,所以直接从系统启动的第二阶段的主引导记录开始。前提是将编译工具放在该文件目录的同级目录下,该工具为日本人川合秀实自制的编译程序,优化过的nasm编译工具。...
- 五大原因建议您现在不要升级iOS 13或iPadOS
-
今天苹果放出了iPadOS和iOS13的公测版本,任何对新版功能感兴趣的用户都可以下载安装参与测试。除非你想要率先体验Dark模式,以及使用AppleID来登陆Facebook等服务,那么外媒CN...
- Python安装包总报错?这篇解决指南让你告别pip烦恼!
-
在Python开发中,...
- 苹果提供了在M1 Mac上修复macOS重装错误的方案
-
#AppleM1芯片#在苹果新的M1Mac推出后不久,我们看到有报道称,在这些机器上恢复和重新安装macOS,可能会导致安装错误,使你的Mac无法使用。具体来说,错误信息如下:"An...
- 黑苹果卡代码篇三:常见卡代码问题,满满的干货
-
前言...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 电脑装系统用GHOST好,还是原装版本好?老司机都是这么装的
- 苹果 iOS 14.5.1/iPadOS 14.5.1 正式版发布
- iOS 13.1.3 正式版发布 包含错误修复和改进
- 还不理解 Error 和 Exception 吗,看这篇就够了
- Linux 开发人员发现了导致 MacBook“无法启动”的 macOS 错误
- 启动系统时无法正常启动提示\windows\system32\winload.efi
- 离线部署之两种构建Ragflow镜像的方式,dify同理
- Go语言 error 类型详解(go语言 异常)
- Mac上“闪烁的问号”错误提示如何修复?
- python散装笔记——177 sys 模块(python sys模块详解)
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- node卸载 (33)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- exceptionininitializererror (33)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)