数据分析-相关性分析可视化(相关性分析数据处理)
ztj100 2025-06-15 20:41 3 浏览 0 评论
前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。然后把Excel、PowerBI和Python来实现来实现《相关性分析(PowerBI、Excel)》、《Python相关性分析》,这个内容今天最后完结,有的时候数据报告可能需要,所以把数据相关性可视化的部分最后补上。
在数据分析中,相关性分析是一种用于探索和量化变量之间关系的重要方法。通过相关性分析,数据分析师可以识别变量之间的依赖关系,从而为进一步的建模和决策提供依据。相关性分析可视化通过直观的图形展示变量间的关系,使复杂的数据模式更易理解和解释。常用的相关性分析可视化方法包括散点图、热图和配对图。
【散点图(Scatter Plot)】
散点图是一种二维图表,用于展示两个变量之间的关系。每个点在图上表示一对数据点的值,横坐标和纵坐标分别表示两个变量。通过观察点的分布形态,可以直观地判断变量之间的相关性类型(正相关、负相关或无相关)。
我们用电商数据中的广告费用投入、访客人数、支付人数、支付金额四个维度举例。我们将生成模拟数据并分别使用Python、R语言和Excel进行相关性分析的可视化展示。
【Python散点图】
首先模拟数据,导入相关的包,然后模拟生成相关数据,代码和结果如下↓
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(21)
days = 200
ad_spend = np.random.normal(10000, 2000, days) # 广告费用
visitors = ad_spend + np.random.normal(100000, 1000, days) # 访客人数
paying_visitors = (visitors * 0.2 + np.random.normal(2000, 400, days)) # 支付人数
revenue = paying_visitors * 3 + np.random.normal(5000, 1500, days) # 支付金额
data = pd.DataFrame({
'广告费': ad_spend,
'访客': visitors,
'买家数': paying_visitors,
'销售金额': revenue
})
然后简单绘制一个散点图,代码和结果如下↓
# 绘制广告费用与访客人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['广告费'], data['访客'])
plt.xlabel('广告费(元)')
plt.ylabel('访客数')
plt.title('Scatter Plot of Ad Spend vs Visitors')
plt.show()
# 绘制访客人数与支付人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['访客'], data['买家数'])
plt.xlabel('访客')
plt.ylabel('买家数')
plt.title('绘制访客人数与支付人数的散点图')
plt.show()
从结果可以看出,广告费用的投入和访客人数还是有很强的相关性;而访客人数和支付人数之间虽然也是正相关,但是整体相关性不是特别强。
【R语言散点图】
R语言也比较简单,还是同样的数据,绘图代码如下↓
library(ggplot2)
data <- read.delim("clipboard")
library(sysfonts)
library(showtextdb)
library(showtext)
showtext_auto()
ggplot(data, aes(x = 广告费, y = 访客)) +
geom_point() +
labs(title = "广告费与访客数的散点图", x = "广告费", y = "访客数")+
theme(text = element_text(size = 22))
【Excel散点图】
Excel里面直接选择两列,然后插入散点图就行了。
【热图(Heatmap)】
热图是一种用颜色表示数据矩阵的图表,通常用于展示变量之间的相关性矩阵。颜色深浅代表相关系数的大小,颜色变化可以帮助快速识别强相关和弱相关的变量对。
【Python热图】
绘制热图先要计算各列数据之间的相关性,结果是一个矩阵,如下图↓
# 计算相关性矩阵
corr_matrix = data.corr()
然后就对这个矩阵的数据进行可视化,其实就是对数据大小的颜色进行填充,代码和结果如下↓
# 绘制热图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()
【R语言热图】
R语言也是同样的原理,直接上代码↓
library(reshape2)
# 计算相关性矩阵
corr_matrix <- cor(data)
# 绘制热图
corr_melt <- melt(corr_matrix)
ggplot(data = corr_melt, aes(Var1, Var2, fill = value)) +
geom_tile() +
scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
theme_minimal() +
ggtitle('Correlation Matrix Heatmap')+
theme(text = element_text(size = 30))
【Excel热图】
Excel里面需要分两步,第一步是通过数据分析工具,选择相关性分析;然后设置一下参数,如下↓
结果就是如下的一个数据矩阵↓
最后就是把数据格式按照需求进行条件格式填充即可↓
【配对图(Pair Plot)】
配对图是一种多变量数据的可视化方法,展示所有变量两两组合的散点图,并在对角线上显示每个变量的分布。配对图适用于快速检查多变量之间的相关性和分布模式。
【Python配对图】
# 绘制配对图
sns.pairplot(data,
diag_kws=dict(fill=False))
plt.show()
【R语言配对图】
library(GGally)
# 绘制配对图
ggpairs(data)
GGally包可以有很丰富的可视化功能,这里只是使用最简单的代码就能绘制成比较成型的图形。后续会根据情况单独写一篇完整的介绍。
链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓
https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9
End
相关推荐
- 再说圆的面积-蒙特卡洛(蒙特卡洛方法求圆周率的matlab程序)
-
在微积分-圆的面积和周长(1)介绍微积分方法求解圆的面积,本文使用蒙特卡洛方法求解圆面积。...
- python创建分类器小结(pytorch分类数据集创建)
-
简介:分类是指利用数据的特性将其分成若干类型的过程。监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知数据进行分类。...
- matplotlib——绘制散点图(matplotlib散点图颜色和图例)
-
绘制散点图不同条件(维度)之间的内在关联关系观察数据的离散聚合程度...
- python实现实时绘制数据(python如何绘制)
-
方法一importmatplotlib.pyplotaspltimportnumpyasnpimporttimefrommathimport*plt.ion()#...
- 简单学Python——matplotlib库3——绘制散点图
-
前面我们学习了用matplotlib绘制折线图,今天我们学习绘制散点图。其实简单的散点图与折线图的语法基本相同,只是作图函数由plot()变成了scatter()。下面就绘制一个散点图:import...
- 数据分析-相关性分析可视化(相关性分析数据处理)
-
前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考...
- 免费Python机器学习课程一:线性回归算法
-
学习线性回归的概念并从头开始在python中开发完整的线性回归算法最基本的机器学习算法必须是具有单个变量的线性回归算法。如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是...
- 用Python进行机器学习(2)之逻辑回归
-
前面介绍了线性回归,本次介绍的是逻辑回归。逻辑回归虽然名字里面带有“回归”两个字,但是它是一种分类算法,通常用于解决二分类问题,比如某个邮件是否是广告邮件,比如某个评价是否为正向的评价。逻辑回归也可以...
- 【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂
-
一、拟合和回归的区别拟合...
- 推荐2个十分好用的pandas数据探索分析神器
-
作者:俊欣来源:关于数据分析与可视化...
- 向量数据库:解锁大模型记忆的关键!选型指南+实战案例全解析
-
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...
- 用Python进行机器学习(11)-主成分分析PCA
-
我们在机器学习中有时候需要处理很多个参数,但是这些参数有时候彼此之间是有着各种关系的,这个时候我们就会想:是否可以找到一种方式来降低参数的个数呢?这就是今天我们要介绍的主成分分析,英文是Princip...
- 神经网络基础深度解析:从感知机到反向传播
-
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...
- Python实现基于机器学习的RFM模型
-
CDA数据分析师出品作者:CDALevelⅠ持证人岗位:数据分析师行业:大数据...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)