百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

关于Python绘制柱状图等图形,以及数据拆分与合并详细讲解

ztj100 2025-02-10 15:16 11 浏览 0 评论

项目的结构为:

代码字体以及Excel到这里面取:
https://download.csdn.net/download/aaa123_456aaa/54707165

1、使用plot()方法绘制柱状图和折线图:
DataFrame结构的plot()方法可以绘制折线图、柱状图、饼状图等
各种形状的图形来展示数据,通过plot()方法的kind参数,也可以使用
line()、bar()或其它方法绘制相应形状的图形。例如:
df.plot(kind=‘bar’)
df.plot.line()

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm


df = pd.read_excel(r'超市营业额2.xlsx')


df.loc[df.交易额 > 3000,'交易额'] = 3000
df.loc[df.交易额 < 200,'交易额'] = 200


df.drop_duplicates(inplace=True)


df['交易额'].fillna(df['交易额'].mean(),inplace=True)


print(''.ljust(20,'='))
df_group = pd.crosstab(df.姓名,df.柜台,df.交易额,
                       aggfunc='mean').apply(round)


df_group.plot(kind='bar')
df_group.plot.line()

font = fm.FontProperties(fname=r'书法.ttf')
plt.xlabel('员工业绩分布',fontproperties='simhei')
plt.xticks(fontproperties='simhei')
plt.legend(prop=font)


plt.show()
123456789101112131415161718192021222324252627282930313233



注意:
a、使用交叉表得到每个人在柜台交易额平均值时,我们使用了crosstab()函数,crosstab()函数的第一个参数是指定index,也就是DataFrame结构的索引。第二个参数是指定column,也就是首行。第三个参数是values,也就是表格值。第四个参数 aggfun=mean,代表要求什么值,mean代表均值,当然sum就是代表和的值了:
b、pandas中可以使用round(n)方法返回 x 的小数点四舍五入到n个数字。简洁的说就是,四舍五入地保留小数点后面的几个数字。round()不添加任何参数的时候,等同于round(0)就是取整:
那么代码中的这一行:
df_group = pd.crosstab(df.姓名,df.柜台,df.交易额,aggfunc=‘mean’).apply(round)


c、我们为什么要给他设置字体呢?其实不设置也是可以的,但是显示不出来中文字体,所以要默认中文字体,还有就是plot()的调用好像和plt的使用没什么关系,其实不然,在使用DataFrame(df_group)的结构调用plot()方法时会自动调用扩展库matplotlib的功能,而plt就属于扩展库matplotlib的功能,所以可以直接绘画图形里面的值。

2、查看DataFrame的内存占用情况:
DataFrame结构的memory_usage()方法可以查看内存占用情况,返
回一个Series对象。例如:

import pandas as pd


df = pd.read_excel(r'超市营业额2.xlsx')

print('交易额列占用内存情况'.ljust(20,'='))
print(df['交易额'].memory_usage())

print('内存占用情况'.ljust(20,'='))
print(df.memory_usage())

print('内存占用总额情况'.ljust(20,'='))
print(df.memory_usage().sum())

print('使用df.info()查看内存占用情况'.ljust(20,'='))
df.info()
12345678910111213141516

运行结果:

交易额列占用内存情况==========
2072
内存占用情况==============
Index      80
工号       1992
姓名       1992
日期       1992
时段       1992
交易额      1992
柜台       1992
dtype: int64
内存占用总额情况============
12032
使用df.info()查看内存占用情况=

RangeIndex: 249 entries, 0 to 248
Data columns (total 6 columns):
工号     249 non-null int64
姓名     249 non-null object
日期     249 non-null object
时段     249 non-null object
交易额    246 non-null float64
柜台     249 non-null object
dtypes: float64(1), int64(1), object(4)
memory usage: 11.8+ KB
12345678910111213141516171819202122232425

3、concat()函数与append()方法:
concat()函数
pandas提供了concat()函数用于合并多个DataFrame结构,语法如下:
concat(objs, axis=0, ignore_index=False, …)
#1、参数obj表示包含多个Series、DataFrame或Panel对象的序列;
#2、参数axis默认为0,表示按行进行纵向合并和扩展;
#3、当然后面还有很多参数,执行import pandas pd,使用help(pd.concat)进行查看。
append()方法
也可以使用append进行合并,语法格式如下:
append(other, ignore_index=False, verify_integrity=False)
#1、这里面的假如我们写verify_integrity=True表示当列的索引有一样的时候就会报错。

import pandas as pd


pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)


df = pd.read_excel(r'超市营业额2.xlsx')
df5 = pd.read_excel(r'超市营业额2.xlsx',sheetname='Sheet2')


df1 = df[:3]
df2 = df[50:53]


df3 = pd.concat([df1,df2,df5])


df4 = df1.append([df2,df5],ignore_index=True)


df6 = df.loc[0:8,['姓名','柜台','交易额']]

print(df1,df2,df3,df4,df6[:5],sep='\n\n')
123456789101112131415161718192021222324

运行结果为:

   工号  姓名        日期           时段  交易额    柜台
0  1001  张三  2019-03-01   9:00-14:00  1664.0  化妆品
1  1002  李四  2019-03-01  14:00-21:00   954.0  化妆品
2  1003  王五  2019-03-01   9:00-14:00  1407.0    食品

    工号  姓名        日期           时段  交易额    柜台
50  1004  赵六  2019-03-07   9:00-14:00  1340.0    食品
51  1004  赵六  2019-03-07  14:00-21:00   942.0    食品
52  1005  周七  2019-03-07   9:00-14:00  1465.0  日用品

    工号  姓名        日期           时段  交易额      柜台
0   1001  张三  2019-03-01   9:00-14:00  1664.0    化妆品
1   1002  李四  2019-03-01  14:00-21:00   954.0    化妆品
2   1003  王五  2019-03-01   9:00-14:00  1407.0      食品
50  1004  赵六  2019-03-07   9:00-14:00  1340.0      食品
51  1004  赵六  2019-03-07  14:00-21:00   942.0      食品
52  1005  周七  2019-03-07   9:00-14:00  1465.0    日用品
0   1001  张三  2019-04-01   9:00-14:00  1367.0    化妆品
1   1002  李四  2019-04-01  14:00-21:00  1005.0    化妆品
2   1003  王五  2019-04-01   9:00-14:00  1460.0      食品
3   1004  赵六  2019-04-01  14:00-21:00  1270.0      食品
4   1005  周七  2019-04-01   9:00-14:00  1123.0    日用品
5   1006  钱八  2019-04-01  14:00-21:00  1321.0    日用品
6   1007  孙九  2019-04-01   9:00-14:00  1364.0  蔬菜水果
7   1007  孙九  2019-04-01  14:00-21:00  1633.0  蔬菜水果

    工号  姓名        日期           时段  交易额      柜台
0   1001  张三  2019-03-01   9:00-14:00  1664.0    化妆品
1   1002  李四  2019-03-01  14:00-21:00   954.0    化妆品
2   1003  王五  2019-03-01   9:00-14:00  1407.0      食品
3   1004  赵六  2019-03-07   9:00-14:00  1340.0      食品
4   1004  赵六  2019-03-07  14:00-21:00   942.0      食品
5   1005  周七  2019-03-07   9:00-14:00  1465.0    日用品
6   1001  张三  2019-04-01   9:00-14:00  1367.0    化妆品
7   1002  李四  2019-04-01  14:00-21:00  1005.0    化妆品
8   1003  王五  2019-04-01   9:00-14:00  1460.0      食品
9   1004  赵六  2019-04-01  14:00-21:00  1270.0      食品
10  1005  周七  2019-04-01   9:00-14:00  1123.0    日用品
11  1006  钱八  2019-04-01  14:00-21:00  1321.0    日用品
12  1007  孙九  2019-04-01   9:00-14:00  1364.0  蔬菜水果
13  1007  孙九  2019-04-01  14:00-21:00  1633.0  蔬菜水果

   姓名    柜台  交易额
0  张三  化妆品  1664.0
1  李四  化妆品   954.0
2  王五    食品  1407.0
3  赵六    食品  1320.0
4  周七  日用品   994.0
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748

注意:
a、拆分时我们可以看见使用了loc,其实还有一个iloc,两者的区别是:
首先df.loc[0:8,[‘姓名’,‘柜台’,‘交易额’]]这个的意思就是取前面的索引为0到8的行,并且列为 ‘姓名’,‘柜台’,‘交易额’:

那么df.iloc[0:8,0:4],前面是一共取8行,而ilocd的i表示Integer整数的意思,就是后面只能取整数列也就是0到4列的值,并且只能是整数,不能写成df.iloc[0:8,[‘工号’,‘姓名’,‘日期’,‘时段’]],因为里面不是整数值:

4、merge()方法与join()方法:
merge()方法:
DataFrame结构merge()方法也可以实现合并功能,语法如下:
merge(right, how=‘inner’, on=None, left_on=None, right_on=None, suffixes=(’_x’, ‘_y’), …)
#1、参数right表示另一个DataFrame结构;
#2、参数how的取值可以是’left’、‘right’、‘outer’或’inner’之一,表示数据连接的方式;
#3、参数on用来指定连接时依据的列名或包含的若干列名的列表,要求指定的列名在两个DataFrame中都存在,如果没有任何参数指定连接键则根据两个DataFrame的列名交集进行连接;
#4、参数left_on和right_on分别用来指定连接时依据的左右侧列名标签。
join()方法:
DataFrame结构join()方法也可以实现按列对左表(调用join()方法的DataFrame)和右表合并,如果右表other索引与左表某列的值相同可以直接连接,如果根据右表other中某列的值与左表进行连接,需要先对右表other调用set_index()方法设定该列作为索引。语法格式如下:
join(other, on=None, how=‘left’, lsuffix=’’, rsuffix=’’, sort=False)
#1、参数other表示另一个DataFrame结构,也就是右表;
#2、参数on用来指定连接时依据的左表列名,如果不指定则按左表索引index的值进行连接;
#3、参数how的含义与merge()方法的how相同;
#4、参数lsuffix和rsuffix用来指定列名的后缀。

import numpy as np
import pandas as pd


pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)


df1 = pd.read_excel(r'超市营业额2.xlsx')
df2 = pd.read_excel(r'超市营业额2.xlsx',sheetname='Sheet3')


rows = np.random.randint(0,len(df1),3)
print(pd.merge(df1,df2).iloc[rows,0:7],end='\n\n')


print(pd.merge(df1,df2,on='工号',suffixes=['_x','_y']).iloc[rows,:],end='\n\n')


print(df1.set_index('工号').join(df2.set_index('工号'),lsuffix='x',rsuffix='y').iloc[rows,:])
1234567891011121314151617181920

运行结果为:

     工号  姓名        日期           时段  交易额    柜台  职级
21   1001  张三  2019-03-19   9:00-14:00  1376.0  日用品  店长
89   1003  王五  2019-03-04   9:00-14:00  1590.0    食品  组长
130  1004  赵六  2019-03-05  14:00-21:00   974.0    食品  员工

     工号 姓名_x        日期           时段  交易额    柜台 姓名_y  职级
21   1001   张三  2019-03-19   9:00-14:00  1376.0  日用品   张三  店长
89   1003   王五  2019-03-04   9:00-14:00  1590.0    食品   王五  组长
130  1004   赵六  2019-03-05  14:00-21:00   974.0    食品   赵六  员工

     姓名x        日期           时段  交易额    柜台 姓名y  职级
工号                                                             
1001  张三  2019-03-19   9:00-14:00  1376.0  日用品  张三  店长
1003  王五  2019-03-04   9:00-14:00  1590.0    食品  王五  组长
1004  赵六  2019-03-05  14:00-21:00   974.0    食品  赵六  员工
123456789101112131415

注意:
a、我们可以看见使用join指定索引之后,我们原来的索引就不见了,但是merge没有不见,这是因为merge只是按哪一个属性值合并,并不改变原来的索引,但是后面的join是直接确定了新的索引,也就是我们的工号。
b、聊聊’left’、‘right’、'outer’或’inner’这些数据连接方式的区别:
1、‘left’ 左(外)连接,左表(a_table)的记录将会全部表示出来,而右表(b_table)只会显示符合搜索条件的记录。右表记录不足的地方均为NULL。大白话讲就是左连接left是以左表为主的连接
2、'right 与左(外)连接相反,右(外)连接,左表(a_table)只会显示符合搜索条件的记录,而右表(b_table)的记录将会全部表示出来。左表记录不足的地方均为NULL。大白话讲就是右连接right是以右表为主的连接
3、‘outer’ 返回左表和右表中的所有行。当某行在另一个表中没有匹配行时,则另一个表的选择列表列包含空值。如果表之间有匹配行,则整个结果集行包含基表的数据值。大白话讲就是外连接outer是全部连接,没有的直接填null
4、‘inner’ 结果集中只保留了符合连接条件的元组,而排除了两个表中没有对应的或匹配的元组的操作称为内连接。大白话就是内连接inner就是只有共同存在的才连接.

相关推荐

再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香

背景最近,栈长发现某些国内的开源项目都使用到了Knife4j技术,看名字就觉得很锋利啊!...

Spring Boot自动装配黑魔法:手把手教你打造高逼格自定义Starter

如果你是SpringBoot深度用户,是否经历过这样的痛苦:每个新项目都要重复配置Redis连接池,反复粘贴Swagger配置参数,在微服务架构中为统一日志格式疲于奔命?本文将为你揭开Spring...

Spring Boot(十五):集成Knife4j(spring boot 集成)

Knife4j的简介Knife4j是一个集Swagger2和OpenAPI3为一体的增强解决方案,它的前身是上一篇文章中介绍的swagger-bootstrap-ui。swagger-bootstra...

swagger-bootstrap-ui:swagger改进版本,界面更美观易于阅读

swagger作为一款在线文档生成工具,用于自动生成接口API,避免接口文档和代码不同步,但原生的界面不是很友好,下面介绍一款改进版本swagger-bootstrap-ui,界面左右侧布局,可以打开...

界面美观功能强大,终于可以告别单调的swagger ui了——knife4j

介绍knife4j是为JavaMVC框架集成Swagger生成Api文档的增强解决方案(在非Java项目中也提供了前端UI的增强解决方案),前身是swagger-bootstrap-ui,取名kni...

从 0 到 1 实战 Spring Boot 3:手把手教你构建高效 RESTful 接口

从0到1实战SpringBoot3:手把手教你构建高效RESTful接口在微服务架构盛行的今天,构建高效稳定的RESTful接口是后端开发者的核心技能。SpringBoot凭...

SpringBoot动态权限校验终极指南:3种高赞方案让老板主动加薪!

“上周用这套方案重构权限系统,CTO当着全组的面摔了祖传代码!”一位脉脉匿名网友的血泪经验:还在用硬编码写Shiro过滤器?RBAC模型搞出200张表?是时候用SpringSecurity+动态路...

一个基于 Spring Boot 的在线考试系统

今天推荐一款超级美观的在线考试系统,感兴趣可以先去预览地址看看该项目。在线Demo预览,http://129.211.88.191,账户分别是admin、teacher、student,密码是ad...

SpringBoot API开发的十大专业实践指南

在SpringBoot应用开发领域,构建高效、可靠的API需遵循系统化的开发规范。本文结合实战编码示例,详细解析10项关键开发实践,助您打造具备工业级标准的后端接口。一、RESTful...

震碎认知!将原理融会贯通到顶点的SpringBoot实战项目

SpringBoot是什么?我们知道,从2002年开始,Spring一直在飞速的发展,如今已经成为了在JavaEE(JavaEnterpriseEdition)开发中真正意义上的标准,但...

Spring Boot 整合 Knife4j 实现接口文档编写?

Knife4j增强版的SwaggerUI实现,在Knife4j中提供了很多功能并且用户体验也随之有了很大的提升。Knife4j主要基于Swagger2.0构建的,主要的用途就是在SpringBo...

前端同事老是说swagger不好用,我用了knife4j后,同事爽得不行

日常开发当中,少不了前端联调,随着协同开发的发展,前端对接口要求也变得越来越高了。所以我使用了knife4j,同事用完觉得太舒服了。knife4j简介:Knife4j...

一个基于spring boot的Java开源商城系统

前言一个基于springboot的JAVA开源商城系统,是前后端分离、为生产环境多实例完全准备、数据库为b2b2c商城系统设计、拥有完整下单流程和精美设计的java开源商城系统https://www...

再见 Swagger!国人开源了一款超好用的 API 文档生成框架真香

Knife4j是为JavaMVC框架集成Swagger生成Api文档的增强解决方案,前身是swagger-bootstrap-ui,取名kni4j是希望她能像一把匕首一样小巧,轻量,并且功能强悍!...

Spring Boot整合MybatisPlus和Druid

在Java中,我比较ORM熟悉的只有...

取消回复欢迎 发表评论: