【Python机器学习系列】一文教你绘制校准曲线(案例+源码)
ztj100 2024-11-08 15:07 19 浏览 0 评论
这是我的第240篇原创文章。
一、引言
校准曲线绘制的基本步骤如下:
1. 首先根据预测模型输出目标事件的预测概率;
2. 根据预测概率从小到大进行排序,并按照等分位点划分成N组;
3. 分别计算各组的实际事件发生率,以及预测概率的平均值
4. 根据各组的预测概率以及实际事件发生率绘制校准曲线
如果模型预测发生率与实际发生率完全一致,模型既不会高估结局风险,也不会低估结局风险,那么根据上述步骤绘制的线会是一条Y=X的标准曲线。
二、实现过程
2.1 校准曲线绘制函数
def calibration_plot(true ,pred ,n):
"""
参数说明:
true: 实际标签值
pred: 模型输出的预测概率
n: 分组数目 (校准区间中有几个点)
先加工绘图需要的数据形式:df_cal_trans
然后绘图,可以选择是否带误差棒
"""
df_cal = pd.DataFrame({'y_true' :true ,'y_pred' :pred}) # 现将实际值和预测值拼接成一个dataframe
df_cal = df_cal.sort_values(by='y_pred') ## 根据预测概率值进行排序
df_cal['group'], cut_bin = pd.qcut(df_cal['y_pred'] ,q=n ,retbins=True ,labels = list(range(1 , n +1))) ## 将数据进行分箱
output_list = list()
for i in range(1 , n +1):
true_pos_rate = 1 - df_cal.loc[df_cal['group' ]==i ,'y_true'].value_counts(1)[0]
y_pred_mean = df_cal.loc[df_cal['group' ]==i ,'y_pred'].mean()
y_pred_sd = df_cal.loc[df_cal['group' ]==i ,'y_pred'].std()
output = {'group' :i ,'true_pos_rate' :true_pos_rate ,'y_pred_mean' :y_pred_mean ,'y_pred_sd' :y_pred_sd}
output_list.append(output)
df_cal_trans = pd.DataFrame(output_list)
calibration_slop = round(scipy.stats.linregress(df_cal_trans['y_pred_mean'] ,df_cal_trans['true_pos_rate']).slope
,3)
plt.figure(figsize=(6 ,4))
plt.rcParams['axes.spines.right'] = False # 不绘制右边的框线
plt.rcParams['axes.spines.top'] = False # 不绘制上方的框线
line = plt.errorbar(df_cal_trans['y_pred_mean'] ,df_cal_trans['true_pos_rate'],
# yerr=df_cal_trans['y_pred_sd'],
fmt='--o', # 数据点标记式样和数据点标记的连线式样
ecolor="#00688B", # 误差棒的颜色
elinewidth=0.8, # 误差棒线条粗细
ms=4, # 数据点大小
mfc = "#00688B", # 数据点颜色
capthick = 1, # 误差棒边界横线的厚度
capsize = 2 # 误差棒边界横线的大小
)
limits = round(max(df_cal_trans['true_pos_rate'].max() ,df_cal_trans['y_pred_mean'].max()) + 0.02 ,3)
plt.plot([0 ,limits] ,[0 ,limits] ,"--" ,lw=1 ,color="grey")
plt.xlim(0 ,limits)
plt.ylim(0 ,limits)
plt.xlabel('Predicted event probability' ,fontsize=10)
plt.ylabel('Observed event probability' ,fontsize=10)
# plt.legend(handles=[line],labels=['HL P-value: > 0.05'], loc='best')
plt.legend(handles=[line] ,labels=['Calibration slope: {}'.format(calibration_slop)], loc='best') # 'lower right'
plt.grid(axis="y") # 设置横向网格线
plt.show()
# return df_cal_trans
2.2 案例应用
# 准备数据
data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)
# 提取目标变量和特征变量
target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df[features], df[[target]], test_size=0.2, random_state=0)
# 归一化
mm1 = MinMaxScaler() # 特征进行归一化
X_train_m = mm1.fit_transform(X_train)
mm2 = MinMaxScaler() # 标签进行归一化
y_train_m = mm2.fit_transform(y_train)
# 模型的构建与训练
model = LogisticRegression()
model.fit(X_train_m, y_train_m)
# 模型推理与评价
# 对测试集特征进行相同规则mm1的归一化处理,然后输入到模型进行预测
X_test_m = mm1.transform(X_test) #注意fit_transform() 和 transform()的区别
y_pred_m = model.predict(X_test_m) #利用输入特征input1和input2测试模型
y_scores = model.predict_proba(X_test_m)
y_pred = mm2.inverse_transform(np.reshape(y_pred_m, (-1, 1)))
calibration_plot(y_test[target], list(y_scores[:, 1]), 3)
三、结果
作者简介:
读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历不定期持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。致力于只做原创,以最简单的方式理解和学习,关注gzh:数据杂坛,获取数据和源码学习更多内容。
原文链接:
相关推荐
- 如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL
-
阿里云AnalyticDBforPostgreSQL(以下简称ADBPG,即原HybridDBforPostgreSQL)为基于PostgreSQL内核的MPP架构的实时数据仓库服务,可以...
- Python数据分析:探索性分析
-
写在前面如果你忘记了前面的文章,可以看看加深印象:Python数据处理...
- C++基础语法梳理:算法丨十大排序算法(二)
-
本期是C++基础语法分享的第十六节,今天给大家来梳理一下十大排序算法后五个!归并排序...
- C 语言的标准库有哪些
-
C语言的标准库并不是一个单一的实体,而是由一系列头文件(headerfiles)组成的集合。每个头文件声明了一组相关的函数、宏、类型和常量。程序员通过在代码中使用#include<...
- [深度学习] ncnn安装和调用基础教程
-
1介绍ncnn是腾讯开发的一个为手机端极致优化的高性能神经网络前向计算框架,无第三方依赖,跨平台,但是通常都需要protobuf和opencv。ncnn目前已在腾讯多款应用中使用,如QQ,Qzon...
- 用rust实现经典的冒泡排序和快速排序
-
1.假设待排序数组如下letmutarr=[5,3,8,4,2,7,1];...
- ncnn+PPYOLOv2首次结合!全网最详细代码解读来了
-
编辑:好困LRS【新智元导读】今天给大家安利一个宝藏仓库miemiedetection,该仓库集合了PPYOLO、PPYOLOv2、PPYOLOE三个算法pytorch实现三合一,其中的PPYOL...
- C++特性使用建议
-
1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...
- Qt4/5升级到Qt6吐血经验总结V202308
-
00:直观总结增加了很多轮子,同时原有模块拆分的也更细致,估计为了方便拓展个管理。把一些过度封装的东西移除了(比如同样的功能有多个函数),保证了只有一个函数执行该功能。把一些Qt5中兼容Qt4的方法废...
- 到底什么是C++11新特性,请看下文
-
C++11是一个比较大的更新,引入了很多新特性,以下是对这些特性的详细解释,帮助您快速理解C++11的内容1.自动类型推导(auto和decltype)...
- 掌握C++11这些特性,代码简洁性、安全性和性能轻松跃升!
-
C++11(又称C++0x)是C++编程语言的一次重大更新,引入了许多新特性,显著提升了代码简洁性、安全性和性能。以下是主要特性的分类介绍及示例:一、核心语言特性1.自动类型推导(auto)编译器自...
- 经典算法——凸包算法
-
凸包算法(ConvexHull)一、概念与问题描述凸包是指在平面上给定一组点,找到包含这些点的最小面积或最小周长的凸多边形。这个多边形没有任何内凹部分,即从一个多边形内的任意一点画一条线到多边形边界...
- 一起学习c++11——c++11中的新增的容器
-
c++11新增的容器1:array当时的初衷是希望提供一个在栈上分配的,定长数组,而且可以使用stl中的模板算法。array的用法如下:#include<string>#includ...
- C++ 编程中的一些最佳实践
-
1.遵循代码简洁原则尽量避免冗余代码,通过模块化设计、清晰的命名和良好的结构,让代码更易于阅读和维护...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- node卸载 (33)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- exceptionininitializererror (33)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)