百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

从零到一:Pandas 数据分析全流程(pandas数据分析实战)

ztj100 2025-03-20 21:17 9 浏览 0 评论

内容概要:数据分析全流程:数据清洗→异常处理→多维分析→可视化报告

构建模拟数据集

import pandas as pdimport numpy as np# 生成模拟电商数据np.random.seed(2025)  # 固定随机种子data_dict = {    'order_id': [f'DD00{i}'for i in range(1, 1001)],  # 订单编号    'user_type': np.random.choice([        '山海摸鱼人', '山海游侠', '山海闲云野鹤', '山海浪人', '山海悠然客'    ], 1000),  # 用户类型    'region': np.random.choice(['华东', '华南', '华北', '华中', '西北'], 1000),    'sales_volume': np.round(np.random.gamma(shape=2, scale=500, size=1000), 2),    'quantity': np.random.randint(1, 20, 1000),    'order_date': pd.date_range('2024-01-01', periods=1000, freq='8H')}# 创建原始DataFrameraw_df = pd.DataFrame(data_dict)# 人为添加数据问题raw_df.loc[10:15, 'user_type'] = np.nan          # 缺失值raw_df.loc[[20,50], 'sales_volume'] = 99999.99   # 异常大值raw_df.loc[[30,60], 'sales_volume'] = -100       # 异常负值raw_df.loc[100:105, 'region'] = '未知地区'        # 错误分类

数据清洗与异常处理

处理缺失值

# 创建清洗副本clean_df = raw_df.copy()# 填充缺失的用户类型clean_df['user_type'] = clean_df['user_type'].fillna('未知类型')# 删除完全重复的行clean_df = clean_df.drop_duplicates()print(f"清洗后数据量变化:{len(raw_df)} → {len(clean_df)}")

修正异常值

# 销售金额修正(排除异常值)sales_q1 = clean_df['sales_volume'].quantile(0.05)sales_q3 = clean_df['sales_volume'].quantile(0.95)clean_df['sales_volume'] = clean_df['sales_volume'].mask(    (clean_df['sales_volume'] < sales_q1 clean_dfsales_volume> sales_q3),    clean_df['sales_volume'].median())# 修正错误分类region_list = ['华东', '华南', '华北', '华中', '西北']clean_df['region'] = clean_df['region'].where(    clean_df['region'].isin(region_list),    '其他地区')

多维数据分析

用户维度分析

# 按用户类型分组统计user_type_df = clean_df.groupby('user_type').agg({    'sales_volume': ['sum', 'mean'],    'quantity': 'sum'}).reset_index()user_type_df.columns = ['用户类型', '总销售额', '客单价', '总销量']print(user_type_df.sort_values('总销售额', ascending=False))

时间序列分析

# 按月统计销售额time_analysis = clean_df.set_index('order_date').resample('M')['sales_volume'].sum()print(f"\n月度销售趋势:\n{time_analysis.apply(lambda x: f'¥{x:,.2f}')}")

可视化报告生成

创建分析画布

import matplotlib.pyplot as pltplt.style.use('seaborn')  # 应用样式# 覆盖样式中的字体配置plt.rcParams.update({    'font.family': 'SimHei',        # 主字体    'font.sans-serif': ['SimHei'],  # 无衬线字体(覆盖seaborn默认)    'axes.unicode_minus': False     # 修复负号})fig, axes = plt.subplots(2, 2, figsize=(16, 10))plt.suptitle('2024电商销售分析报告', fontsize=18, y=1.02)

用户类型分析

# 用户类型销售额分布user_type_df.plot.bar(x='用户类型', y='总销售额',                      ax=axes[0,0], color='#2b8cbe',                      title='用户类型销售额分布')axes[0,0].set_ylabel('销售额(万元)')# 用户类型-客单价散点图axes[0,1].scatter(user_type_df['总销量'],                  user_type_df['客单价'],                 s=user_type_df['总销售额']/1000)axes[0,1].set_title('用户价值气泡图')axes[0,1].set_xlabel('总销量')axes[0,1].set_ylabel('客单价')

时空分析

# 区域销售分布region_data = clean_df.groupby('region')['sales_volume'].sum()axes[1,0].pie(region_data,               labels=region_data.index,              autopct='%1.1f%%',              colors=['#8dd3c7','#ffffb3','#bebada','#fb8072','#80b1d3'])# 月度趋势图time_analysis.plot(ax=axes[1,1], marker='o',                   color='#2ca25f', linewidth=2,                  title='月度销售趋势')axes[1,1].set_ylabel('销售额')# 保存报告plt.tight_layout()plt.savefig('sales_report.png', dpi=300, bbox_inches='tight')plt.show()

技巧总结

# 生成数据摘要报告report = clean_df.describe(percentiles=[.25, .5, .75])report.loc['range'] = report.loc['max'] - report.loc['min']print(report.round(2).T[['mean', '50%', 'range']])

数据质量三重校验:通过描述统计、数值分布、业务逻辑三个维度验证数据

动态阈值检测:使用分位数替代固定阈值处理异常值,适配数据分布变化

分析报告四要素:核心指标趋势(折线图),构成分析(饼图/堆积图),对比分析(柱状图),相关性分析(散点图/热力图)

相关推荐

使用 Pinia ORM 管理 Vue 中的状态

转载说明:原创不易,未经授权,谢绝任何形式的转载状态管理是构建任何Web应用程序的重要组成部分。虽然Vue提供了管理简单状态的技术,但随着应用程序复杂性的增加,处理状态可能变得更具挑战性。这就是为什么...

Vue3开发企业级音乐Web App 明星讲师带你学习大厂高质量代码

Vue3开发企业级音乐WebApp明星讲师带你学习大厂高质量代码下栽课》jzit.top/392/...

一篇文章说清 webpack、vite、vue-cli、create-vue 的区别

webpack、vite、vue-cli、create-vue这些都是什么?看着有点晕,不要怕,我们一起来分辨一下。...

超赞 vue2/3 可视化打印设计VuePluginPrint

今天来给大家推荐一款非常不错的Vue可拖拽打印设计器Hiprint。引入使用//main.js中引入安装import{hiPrintPlugin}from'vue-plugin-...

搭建Trae+Vue3的AI开发环境(vue3 ts开发)

从2024年2025年,不断的有各种AI工具会在自媒体中火起来,号称各种效率王炸,而在AI是否会替代打工人的话题中,程序员又首当其冲。...

如何在现有的Vue项目中嵌入 Blazor项目?

...

Vue中mixin怎么理解?(vue的mixins有什么用)

作者:qdmryt转发链接:https://mp.weixin.qq.com/s/JHF3oIGSTnRegpvE6GSZhg前言...

Vue脚手架安装,初始化项目,打包并用Tomcat和Nginx部署

1.创建Vue脚手架#1.在本地文件目录创建my-first-vue文件夹,安装vue-cli脚手架:npminstall-gvue-cli安装过程如下图所示:创建my-first-vue...

新手如何搭建个人网站(小白如何搭建个人网站)

ElementUl是饿了么前端团队推出的桌面端UI框架,具有是简洁、直观、强悍和低学习成本等优势,非常适合初学者使用。因此,本次项目使用ElementUI框架来完成个人博客的主体开发,欢迎大家讨论...

零基础入门vue开发(vue快速入门与实战开发)

上面一节我们已经成功的安装了nodejs,并且配置了npm的全局环境变量,那么这一节我们就来正式的安装vue-cli,然后在webstorm开发者工具里运行我们的vue项目。这一节有两种创建vue项目...

.net core集成vue(.net core集成vue3)

react、angular、vue你更熟悉哪个?下边这个是vue的。要求需要你的计算机安装有o.netcore2.0以上版本onode、webpack、vue-cli、vue(npm...

使用 Vue 脚手架,为什么要学 webpack?(一)

先问大家一个很简单的问题:vueinitwebpackprjectName与vuecreateprojectName有什么区别呢?它们是Vue-cli2和Vue-cli3创建...

vue 构建和部署(vue项目部署服务器)

普通的搭建方式(安装指令)安装Node.js检查node是否已安装,终端输入node-v会使用命令行(安装)npminstallvue-cli-首先安装vue-clivueinitwe...

Vue.js 环境配置(vue的环境搭建)

说明:node.js和vue.js的关系:Node.js是一个基于ChromeV8引擎的JavaScript运行时环境;类比:Java的jvm(虚拟机)...

vue项目完整搭建步骤(vuecli项目搭建)

简介为了让一些不太清楚搭建前端项目的小白,更快上手。今天我将一步一步带领你们进行前端项目的搭建。前端开发中需要用到框架,那vue作为三大框架主流之一,在工作中很常用。所以就以vue为例。...

取消回复欢迎 发表评论: