数据分析-相关性分析可视化(相关性分析数据处理)
ztj100 2025-06-15 20:41 26 浏览 0 评论
前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。然后把Excel、PowerBI和Python来实现来实现《相关性分析(PowerBI、Excel)》、《Python相关性分析》,这个内容今天最后完结,有的时候数据报告可能需要,所以把数据相关性可视化的部分最后补上。
在数据分析中,相关性分析是一种用于探索和量化变量之间关系的重要方法。通过相关性分析,数据分析师可以识别变量之间的依赖关系,从而为进一步的建模和决策提供依据。相关性分析可视化通过直观的图形展示变量间的关系,使复杂的数据模式更易理解和解释。常用的相关性分析可视化方法包括散点图、热图和配对图。
【散点图(Scatter Plot)】
散点图是一种二维图表,用于展示两个变量之间的关系。每个点在图上表示一对数据点的值,横坐标和纵坐标分别表示两个变量。通过观察点的分布形态,可以直观地判断变量之间的相关性类型(正相关、负相关或无相关)。
我们用电商数据中的广告费用投入、访客人数、支付人数、支付金额四个维度举例。我们将生成模拟数据并分别使用Python、R语言和Excel进行相关性分析的可视化展示。
【Python散点图】
首先模拟数据,导入相关的包,然后模拟生成相关数据,代码和结果如下↓
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(21)
days = 200
ad_spend = np.random.normal(10000, 2000, days) # 广告费用
visitors = ad_spend + np.random.normal(100000, 1000, days) # 访客人数
paying_visitors = (visitors * 0.2 + np.random.normal(2000, 400, days)) # 支付人数
revenue = paying_visitors * 3 + np.random.normal(5000, 1500, days) # 支付金额
data = pd.DataFrame({
'广告费': ad_spend,
'访客': visitors,
'买家数': paying_visitors,
'销售金额': revenue
})
然后简单绘制一个散点图,代码和结果如下↓
# 绘制广告费用与访客人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['广告费'], data['访客'])
plt.xlabel('广告费(元)')
plt.ylabel('访客数')
plt.title('Scatter Plot of Ad Spend vs Visitors')
plt.show()
# 绘制访客人数与支付人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['访客'], data['买家数'])
plt.xlabel('访客')
plt.ylabel('买家数')
plt.title('绘制访客人数与支付人数的散点图')
plt.show()
从结果可以看出,广告费用的投入和访客人数还是有很强的相关性;而访客人数和支付人数之间虽然也是正相关,但是整体相关性不是特别强。
【R语言散点图】
R语言也比较简单,还是同样的数据,绘图代码如下↓
library(ggplot2)
data <- read.delim("clipboard")
library(sysfonts)
library(showtextdb)
library(showtext)
showtext_auto()
ggplot(data, aes(x = 广告费, y = 访客)) +
geom_point() +
labs(title = "广告费与访客数的散点图", x = "广告费", y = "访客数")+
theme(text = element_text(size = 22))
【Excel散点图】
Excel里面直接选择两列,然后插入散点图就行了。
【热图(Heatmap)】
热图是一种用颜色表示数据矩阵的图表,通常用于展示变量之间的相关性矩阵。颜色深浅代表相关系数的大小,颜色变化可以帮助快速识别强相关和弱相关的变量对。
【Python热图】
绘制热图先要计算各列数据之间的相关性,结果是一个矩阵,如下图↓
# 计算相关性矩阵
corr_matrix = data.corr()
然后就对这个矩阵的数据进行可视化,其实就是对数据大小的颜色进行填充,代码和结果如下↓
# 绘制热图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()
【R语言热图】
R语言也是同样的原理,直接上代码↓
library(reshape2)
# 计算相关性矩阵
corr_matrix <- cor(data)
# 绘制热图
corr_melt <- melt(corr_matrix)
ggplot(data = corr_melt, aes(Var1, Var2, fill = value)) +
geom_tile() +
scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
theme_minimal() +
ggtitle('Correlation Matrix Heatmap')+
theme(text = element_text(size = 30))
【Excel热图】
Excel里面需要分两步,第一步是通过数据分析工具,选择相关性分析;然后设置一下参数,如下↓
结果就是如下的一个数据矩阵↓
最后就是把数据格式按照需求进行条件格式填充即可↓
【配对图(Pair Plot)】
配对图是一种多变量数据的可视化方法,展示所有变量两两组合的散点图,并在对角线上显示每个变量的分布。配对图适用于快速检查多变量之间的相关性和分布模式。
【Python配对图】
# 绘制配对图
sns.pairplot(data,
diag_kws=dict(fill=False))
plt.show()
【R语言配对图】
library(GGally)
# 绘制配对图
ggpairs(data)
GGally包可以有很丰富的可视化功能,这里只是使用最简单的代码就能绘制成比较成型的图形。后续会根据情况单独写一篇完整的介绍。
链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓
https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9
End
相关推荐
- 这个 JavaScript Api 已被废弃!请慎用!
-
在开发过程中,我们可能会不自觉地使用一些已经被标记为废弃的JavaScriptAPI。这些...
- JavaScript中10个“过时”的API,你的代码里还在用吗?
-
JavaScript作为一门不断发展的语言,其API也在持续进化。新的、更安全、更高效的API不断涌现,而一些旧的API则因为各种原因(如安全问题、性能瓶颈、设计缺陷或有了更好的替代品)被标记为“废...
- 几大开源免费的 JavaScript 富文本编辑器测评
-
MarkDown编辑器用的时间长了,发现发现富文本编辑器用起来是真的舒服。...
- 比较好的网页里面的 html 编辑器 推荐
-
如果您正在寻找嵌入到网页中的HTML编辑器,以便用户可以直接在网页上编辑HTML内容,以下是几个备受推荐的:CKEditor:CKEditor是一个功能强大的、开源的富文本编辑器,可以嵌入到...
- Luckysheet 实现excel多人在线协同编辑
-
前言前些天看到Luckysheet支持协同编辑Excel,正符合我们协同项目的一部分,故而想进一步完善协同文章,但是遇到了一下困难,特此做声明哈,若侵权,请联系我删除文章!若侵犯版权、个人隐私,请联系...
- 从 Element UI 源码的构建流程来看前端 UI 库设计
-
作者:前端森林转发链接:https://mp.weixin.qq.com/s/ziDMLDJcvx07aM6xoEyWHQ引言...
- 手把手教你如何用 Decorator 装饰你的 Typescript?「实践」
-
作者:Nealyang转发连接:https://mp.weixin.qq.com/s/PFgc8xD7gT40-9qXNTpk7A...
- 推荐五个优秀的富文本编辑器
-
富文本编辑器是一种可嵌入浏览器网页中,所见即所得的文本编辑器。对于许多从事前端开发的小伙伴来说并不算陌生,它的应用场景非常广泛,平时发个评论、写篇博客文章等都能见到它的身影。...
- 基于vue + element的后台管理系统解决方案
-
作者:林鑫转发链接:https://github.com/lin-xin前言该方案作为一套多功能的后台框架模板,适用于绝大部分的后台管理系统(WebManagementSystem)开发。基于v...
- 开源富文本编辑器Quill 2.0重磅发布
-
开源富文本编辑器Quill正式发布2.0版本。官方TypeScript声明...
- Python之Web开发框架学习 Django-表单处理
-
在Django中创建表单实际上类似于创建模型。同样,我们只需要从Django类继承,则类属性将是表单字段。让我们在myapp文件夹中添加一个forms.py文件以包含我们的应用程序表单。我们将创建一个...
- Django测试入门:打造坚实代码基础的钥匙
-
这一篇说一下django框架的自动化测试,...
- Django ORM vs SQLAlchemy:到底谁更香?从入门到上头的选择指南
-
阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。...
- 超详细的Django 框架介绍,它来了!
-
时光荏苒,一晃小编的Tornado框架系列也结束了。这个框架虽然没有之前的FastAPI高流量,但是,它也是小编的心血呀。总共16篇博文,从入门到进阶,包含了框架的方方面面。虽然小编有些方面介绍得不是...
- 20《Nginx 入门教程》使用 Nginx 部署 Python 项目
-
今天的目标是完成一个PythonWeb项目的线上部署,我们使用最新的Django项目搭建一个简易的Web工程,然后基于Nginx服务部署该PythonWeb项目。1.前期准备...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)