百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

数据分析-相关性分析可视化(相关性分析数据处理)

ztj100 2025-06-15 20:41 42 浏览 0 评论

前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。然后把Excel、PowerBI和Python来实现来实现《相关性分析(PowerBI、Excel)》《Python相关性分析》,这个内容今天最后完结,有的时候数据报告可能需要,所以把数据相关性可视化的部分最后补上。

在数据分析中,相关性分析是一种用于探索和量化变量之间关系的重要方法。通过相关性分析,数据分析师可以识别变量之间的依赖关系,从而为进一步的建模和决策提供依据。相关性分析可视化通过直观的图形展示变量间的关系,使复杂的数据模式更易理解和解释。常用的相关性分析可视化方法包括散点图、热图和配对图。

【散点图(Scatter Plot)】

散点图是一种二维图表,用于展示两个变量之间的关系。每个点在图上表示一对数据点的值,横坐标和纵坐标分别表示两个变量。通过观察点的分布形态,可以直观地判断变量之间的相关性类型(正相关、负相关或无相关)。

我们用电商数据中的广告费用投入、访客人数、支付人数、支付金额四个维度举例。我们将生成模拟数据并分别使用Python、R语言和Excel进行相关性分析的可视化展示。

【Python散点图】

首先模拟数据,导入相关的包,然后模拟生成相关数据,代码和结果如下↓

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(21)
days = 200
ad_spend = np.random.normal(10000, 2000, days)  # 广告费用
visitors = ad_spend + np.random.normal(100000, 1000, days)  # 访客人数
paying_visitors = (visitors * 0.2 + np.random.normal(2000, 400, days))  # 支付人数
revenue = paying_visitors * 3 + np.random.normal(5000, 1500, days)  # 支付金额
data = pd.DataFrame({
    '广告费': ad_spend,
    '访客': visitors,
    '买家数': paying_visitors,
    '销售金额': revenue
})

然后简单绘制一个散点图,代码和结果如下↓

# 绘制广告费用与访客人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['广告费'], data['访客'])
plt.xlabel('广告费(元)')
plt.ylabel('访客数')
plt.title('Scatter Plot of Ad Spend vs Visitors')
plt.show()
# 绘制访客人数与支付人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['访客'], data['买家数'])
plt.xlabel('访客')
plt.ylabel('买家数')
plt.title('绘制访客人数与支付人数的散点图')
plt.show()

从结果可以看出,广告费用的投入和访客人数还是有很强的相关性;而访客人数和支付人数之间虽然也是正相关,但是整体相关性不是特别强。

【R语言散点图】

R语言也比较简单,还是同样的数据,绘图代码如下↓

library(ggplot2)
data <- read.delim("clipboard")
library(sysfonts)
library(showtextdb)
library(showtext)
showtext_auto()
ggplot(data, aes(x = 广告费, y = 访客)) +
  geom_point() +
  labs(title = "广告费与访客数的散点图", x = "广告费", y = "访客数")+
  theme(text = element_text(size = 22))

【Excel散点图】

Excel里面直接选择两列,然后插入散点图就行了。

【热图(Heatmap)】

热图是一种用颜色表示数据矩阵的图表,通常用于展示变量之间的相关性矩阵。颜色深浅代表相关系数的大小,颜色变化可以帮助快速识别强相关和弱相关的变量对。

【Python热图】

绘制热图先要计算各列数据之间的相关性,结果是一个矩阵,如下图↓

# 计算相关性矩阵
corr_matrix = data.corr()

然后就对这个矩阵的数据进行可视化,其实就是对数据大小的颜色进行填充,代码和结果如下↓

# 绘制热图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()

【R语言热图】

R语言也是同样的原理,直接上代码↓

library(reshape2)
# 计算相关性矩阵
corr_matrix <- cor(data)
# 绘制热图
corr_melt <- melt(corr_matrix)
ggplot(data = corr_melt, aes(Var1, Var2, fill = value)) + 
  geom_tile() + 
  scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
  theme_minimal() +
  ggtitle('Correlation Matrix Heatmap')+
  theme(text = element_text(size = 30))

【Excel热图】

Excel里面需要分两步,第一步是通过数据分析工具,选择相关性分析;然后设置一下参数,如下↓

结果就是如下的一个数据矩阵↓

最后就是把数据格式按照需求进行条件格式填充即可↓

【配对图(Pair Plot)】

配对图是一种多变量数据的可视化方法,展示所有变量两两组合的散点图,并在对角线上显示每个变量的分布。配对图适用于快速检查多变量之间的相关性和分布模式。

【Python配对图】

# 绘制配对图
sns.pairplot(data,
             diag_kws=dict(fill=False))
plt.show()

【R语言配对图】

library(GGally)
# 绘制配对图
ggpairs(data)

GGally包可以有很丰富的可视化功能,这里只是使用最简单的代码就能绘制成比较成型的图形。后续会根据情况单独写一篇完整的介绍。

链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓

https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9

End

相关推荐

Linux集群自动化监控系统Zabbix集群搭建到实战

自动化监控系统...

systemd是什么如何使用_systemd/system

systemd是什么如何使用简介Systemd是一个在现代Linux发行版中广泛使用的系统和服务管理器。它负责启动系统并管理系统中运行的服务和进程。使用管理服务systemd可以用来启动、停止、...

Linux服务器日常巡检脚本分享_linux服务器监控脚本

Linux系统日常巡检脚本,巡检内容包含了,磁盘,...

7,MySQL管理员用户管理_mysql 管理员用户

一、首次设置密码1.初始化时设置(推荐)mysqld--initialize--user=mysql--datadir=/data/3306/data--basedir=/usr/local...

Python数据库编程教程:第 1 章 数据库基础与 Python 连接入门

1.1数据库的核心概念在开始Python数据库编程之前,我们需要先理解几个核心概念。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它就像一个电子化的文件柜,能让我们高效...

Linux自定义开机自启动服务脚本_linux添加开机自启动脚本

设置WGCloud开机自动启动服务init.d目录下新建脚本在/etc/rc.d/init.d新建启动脚本wgcloudstart.sh,内容如下...

linux系统启动流程和服务管理,带你进去系统的世界

Linux启动流程Rhel6启动过程:开机自检bios-->MBR引导-->GRUB菜单-->加载内核-->init进程初始化Rhel7启动过程:开机自检BIOS-->M...

CentOS7系统如何修改主机名_centos更改主机名称

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1.前言本文将讲解CentOS7系统如何修改主机名。...

前端工程师需要熟悉的Linux服务器(SSH 终端操作)指令

在Linux服务器管理中,SSH(SecureShell)是远程操作的核心工具。以下是SSH终端操作的常用命令和技巧,涵盖连接、文件操作、系统管理等场景:一、SSH连接服务器1.基本连接...

Linux开机自启服务完全指南:3步搞定系统服务管理器配置

为什么需要配置开机自启?想象一下:电商服务器重启后,MySQL和Nginx没自动启动,整个网站瘫痪!这就是为什么开机自启是Linux运维的必备技能。自启服务能确保核心程序在系统启动时自动运行,避免人工...

Kubernetes 高可用(HA)集群部署指南

Kubernetes高可用(HA)集群部署指南本指南涵盖从概念理解、架构选择,到kubeadm高可用部署、生产优化、监控备份和运维的全流程,适用于希望搭建稳定、生产级Kubernetes集群...

Linux项目开发,你必须了解Systemd服务!

1.Systemd简介...

Linux系统systemd服务管理工具使用技巧

简介:在Linux系统里,systemd就像是所有进程的“源头”,它可是系统中PID值为1的进程哟。systemd其实是一堆工具的组合,它的作用可不止是启动操作系统这么简单,像后台服务...

Red Hat Enterprise Linux 10 安装 Kubernetes (K8s) 集群及高级管理

一、前言...

Linux下NetworkManager和network的和平共处

简介我们在使用CentoOS系统时偶尔会遇到配置都正确但network启动不了的问题,这问题经常是由NetworkManager引起的,关闭NetworkManage并取消开机启动network就能正...

取消回复欢迎 发表评论: