百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

如何使用Q-Q图验证数据的分布

ztj100 2025-01-05 00:59 28 浏览 0 评论

Q-Q图是检验任何随机变量(如正态分布、指数分布、对数正态分布等)分布的图形方法,是观察任何分布性质的一种统计方法。

例如,如果给定的一个分布需要验证它是否是正态分布,我们运行统计分析并将未知分布与已知正态分布进行比较。然后通过观察Q-Q图的结果,我们可以确定给定的分布是否正态分布。

绘制Q-Q图的步骤:

  1. 给定一个未知的随机变量。
  2. 找到每个百分位值
  3. 生成一个已知的随机分布,根据该分布同样遵循步骤1-2。
  4. 绘制Q-Q图

给定一个随机分布,需要验证它是否为正态/高斯分布。为了便于理解,我们将这个未知分布命名为X,将已知的正态分布命名为Y。

生成未知分布X:

X = np.random.normal(loc=50, scale=25, size=1000)

我们正在生成一个正态分布,有1000个值,平均值=50,标准差=25。

查找1%~100%:

X_100 = []
for i in range(1,101):
    X_100.append(np.percentile(X, i))

计算每个百分位数(1%,2%,3%,. . .,99%,100%)X的随机分布值,并将其存储在X_100中。

生成已知的随机分布Y及其百分位值:

Y = np.random.normal(loc=0, scale=1, size=1000)

生成一个正态分布,其平均值为0,标准偏差为1,需要与未知分布X进行比较,以验证X分布是否正态分布。

Y_100 = []
for i in range(101):
    Y_100.append(np.percentile(Y, i))

计算每个百分位数(1%,2%,3%,. . .,99%,100%)Y的随机分布值,并将其存储在Y_100中。

绘图:

为以上获得的未知分布值绘制散点图。

这里X是未知分布,要与Y这个正态分布相比。

对于Q-Q图,如果图中的散点在一条直线上,则两个随机变量具有相同的分布,否则它们具有不同的分布。

从上面的Q-Q图可以看出X是正态分布的。

如果两个分布不一样呢?

如果X不是正态分布,并且它有其他分布,那么如果Q-Q图是在X和正态分布之间绘制的,那么散射点就不会在一条直线上。

这里,X分布是对数正态分布,因此Q-Q图中的散射点不是直线。

让我们再观察一下:

这是4个不同条件下X和Y分布的Q-Q图。

  • 左上:对数正态分布与正态分布的QQ图
  • 右上:正态与指数分布的QQ图
  • 左下:指数与指数分布的QQ图
  • 右下:logistic与logistic分布的QQ图

python实现:

import numpy as np
import matplotlib.pyplot as plt

X = np.random.normal(loc=50, scale=25, size=1000)
X_100 = []
for i in range(1,101):
  X_100.append(np.percentile(X, i))

Y = np.random.normal(loc=0, scale=1, size=1000)
Y_100 = []
for i in range(1,101):
  Y_100.append(np.percentile(Y, i))

plt.scatter(X_100, Y_100)
plt.grid()
plt.ylabel("Y - normal distribution")
plt.xlabel("X - normal distribution")
plt.show()

结论

Q-Q图可以用来比较任意两个分布,并且可以通过与已知分布的比较来验证未知分布。这种方法有一个主要的局限性,即需要大量的数据点,因为得出较少的数据不是明智的决定。通过观察Q-Q图可以预测这两种分布是否相同。

相关推荐

再说圆的面积-蒙特卡洛(蒙特卡洛方法求圆周率的matlab程序)

在微积分-圆的面积和周长(1)介绍微积分方法求解圆的面积,本文使用蒙特卡洛方法求解圆面积。...

python编程:如何使用python代码绘制出哪些常见的机器学习图像?

专栏推荐...

python创建分类器小结(pytorch分类数据集创建)

简介:分类是指利用数据的特性将其分成若干类型的过程。监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知数据进行分类。...

matplotlib——绘制散点图(matplotlib散点图颜色和图例)

绘制散点图不同条件(维度)之间的内在关联关系观察数据的离散聚合程度...

python实现实时绘制数据(python如何绘制)

方法一importmatplotlib.pyplotaspltimportnumpyasnpimporttimefrommathimport*plt.ion()#...

简单学Python——matplotlib库3——绘制散点图

前面我们学习了用matplotlib绘制折线图,今天我们学习绘制散点图。其实简单的散点图与折线图的语法基本相同,只是作图函数由plot()变成了scatter()。下面就绘制一个散点图:import...

数据分析-相关性分析可视化(相关性分析数据处理)

前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考...

免费Python机器学习课程一:线性回归算法

学习线性回归的概念并从头开始在python中开发完整的线性回归算法最基本的机器学习算法必须是具有单个变量的线性回归算法。如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是...

用Python进行机器学习(2)之逻辑回归

前面介绍了线性回归,本次介绍的是逻辑回归。逻辑回归虽然名字里面带有“回归”两个字,但是它是一种分类算法,通常用于解决二分类问题,比如某个邮件是否是广告邮件,比如某个评价是否为正向的评价。逻辑回归也可以...

【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂

一、拟合和回归的区别拟合...

推荐2个十分好用的pandas数据探索分析神器

作者:俊欣来源:关于数据分析与可视化...

向量数据库:解锁大模型记忆的关键!选型指南+实战案例全解析

本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...

用Python进行机器学习(11)-主成分分析PCA

我们在机器学习中有时候需要处理很多个参数,但是这些参数有时候彼此之间是有着各种关系的,这个时候我们就会想:是否可以找到一种方式来降低参数的个数呢?这就是今天我们要介绍的主成分分析,英文是Princip...

神经网络基础深度解析:从感知机到反向传播

本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在...

Python实现基于机器学习的RFM模型

CDA数据分析师出品作者:CDALevelⅠ持证人岗位:数据分析师行业:大数据...

取消回复欢迎 发表评论: