百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

通过交叉验证构建可靠的机器学习模型

ztj100 2024-11-10 13:12 16 浏览 0 评论

交叉验证是一种用来衡量和评估机器学习模型性能的技术。在培训期间,我们创建了训练集的多个分区,并在这些分区的不同子集上进行训练/测试。

交叉验证经常用于为给定的数据集训练、测量和最终选择机器学习模型,因为它有助于评估模型的结果在实践中如何推广到独立的数据集。最重要的是,交叉验证已经被证明可以产生比其他方法更低的偏差的模型。

本教程将重点介绍交叉验证的一种变体,称为k-fold交叉验证。

在本教程中,我们将介绍以下内容:

  • 概述K-Fold交叉验证
  • 使用Scikit-Learn和com .ml的示例

K-fold交叉验证

交叉验证是一种重采样技术,用于评估有限数据集上的机器学习模型。

交叉验证的最常见用途是k-fold交叉验证方法。我们的训练集分为K个分区,模型在K-1分区上训练,测试误差在K分区上预测和计算。对每个唯一组重复此操作,并对测试错误进行平均。

步骤描述:

1.将训练集拆分为K(K = 10是常见选项)分区

对于每个分区:

2.设置分区是测试集

3.在其余分区上训练模型

4.测量测试集中的性能。

5.保留性能指标

6.探索不同folds的模型性能

交叉验证通常被使用,因为它易于解释,并且因为它通常导致比其他方法(例如简单的训练/测试拆分)更少偏差。使用交叉验证的最大缺点之一是增加了训练时间,因为我们基本上是训练K次而不是1次。

使用scikit-learn的交叉验证示例

Scikit-learn是一种流行的机器学习库,它还提供了许多用于数据采样,模型评估和训练的工具。我们将使用Kfold该类来生成folds。这是一个基本概述:

from sklearn.model_selection import KFold

X = [...] # My training dataset inputs/features

y = [...] # My training dataset targets

kf = KFold(n_splits=2)

kf.get_n_splits(X)

for train_index, test_index in kf.split(X):

X_train, X_test = X[train_index], X[test_index]

y_train, y_test = y[train_index], y[test_index]

model = train_model(X_train,y_train)

score = eval_model(X_test,y_test)

现在让我们使用scikit-learn和Comet.ml训练一个端到端的例子。

此示例在新闻组数据集上训练文本分类器(http://scikit-learn.org/stable/datasets/twenty_newsgroups.html)。给定一段文本(字符串),模型将其分类为以下类之一:“atheism”,”christian”,”computer graphics”, “medicine”。Python代码如下:

from __future__ import print_function

from comet_ml import Experiment

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.pipeline import Pipeline

from sklearn.datasets import fetch_20newsgroups

from sklearn.linear_model import SGDClassifier

from sklearn.metrics import accuracy_score

from sklearn.model_selection import KFold

import numpy as np

def convert_to_np(dataset):

return np.asarray(dataset.data), dataset.target

experiment = Experiment(api_key="YOUR KEY HERE", project_name="cross-validation")

experiment.set_name("20 newsgroups cross validated")

# Get dataset and put into train,test lists

categories = ['alt.atheism', 'soc.religion.christian',

'comp.graphics', 'sci.med']

x_validation,y_validation =convert_to_np(fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=42))

x_train,y_train = convert_to_np(fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42))

kf = KFold(n_splits=10)

curr_fold = 0

acc_list = []

for train_idx, test_idx in kf.split(x_train):

text_clf = Pipeline([('vect', CountVectorizer()), # Counts occurrences of each word

('tfidf', TfidfTransformer()), # Normalize the counts based on document length

('clf', SGDClassifier(loss='hinge', penalty='l2', # Call classifier with vector

alpha=1e-3, random_state=42,

max_iter=5, tol=None)),

])

text_clf.fit(x_train[train_idx].tolist(), y_train[train_idx])

# Predict unseen test data based on fitted classifer

predicted = text_clf.predict(x_train[test_idx])

# Compute accuracy

acc = accuracy_score(y_train[test_idx].tolist(), predicted)

acc_list.append(acc)

experiment.log_metric("accuracy_fold_%s" % curr_fold, acc)

curr_fold += 1

experiment.log_metric("average accuracy", np.average(acc_list))

在每个fold上,我们向Comet.ml报告准确性,最后我们报告所有folds的平均准确度。实验结束后,我们可以访问Comet.ml并检查我们的模型(https://www.comet.ml/gidim/cross-validation/dd73c9696cbc497cb8274abcb883e03e/chart):

图表是由Comet.ml自动生成的。最右边的条形(紫色部分)表示folds的平均精度。正如您所看到的,一些folds前置形式明显优于平均值,并显示了k-fold交叉验证的重要性。

您可能已经注意到我们没有计算测试精度。在您完成所有实验之前,不应该以任何方式使用测试集。如果我们根据测试精度改变超参数或模型类型,我们实际上是将超参数过度拟合到测试分布。

相关推荐

30天学会Python编程:16. Python常用标准库使用教程

16.1collections模块16.1.1高级数据结构16.1.2示例...

强烈推荐!Python 这个宝藏库 re 正则匹配

Python的re模块(RegularExpression正则表达式)提供各种正则表达式的匹配操作。...

Python爬虫中正则表达式的用法,只讲如何应用,不讲原理

Python爬虫:正则的用法(非原理)。大家好,这节课给大家讲正则的实际用法,不讲原理,通俗易懂的讲如何用正则抓取内容。·导入re库,这里是需要从html这段字符串中提取出中间的那几个文字。实例一个对...

Python数据分析实战-正则提取文本的URL网址和邮箱(源码和效果)

实现功能:Python数据分析实战-利用正则表达式提取文本中的URL网址和邮箱...

python爬虫教程之爬取当当网 Top 500 本五星好评书籍

我们使用requests和re来写一个爬虫作为一个爱看书的你(说的跟真的似的)怎么能发现好书呢?所以我们爬取当当网的前500本好五星评书籍怎么样?ok接下来就是学习python的正确姿...

深入理解re模块:Python中的正则表达式神器解析

在Python中,"re"是一个强大的模块,用于处理正则表达式(regularexpressions)。正则表达式是一种强大的文本模式匹配工具,用于在字符串中查找、替换或提取特定模式...

如何使用正则表达式和 Python 匹配不以模式开头的字符串

需要在Python中使用正则表达式来匹配不以给定模式开头的字符串吗?如果是这样,你可以使用下面的语法来查找所有的字符串,除了那些不以https开始的字符串。r"^(?!https).*&...

先Mark后用!8分钟读懂 Python 性能优化

从本文总结了Python开发时,遇到的性能优化问题的定位和解决。概述:性能优化的原则——优化需要优化的部分。性能优化的一般步骤:首先,让你的程序跑起来结果一切正常。然后,运行这个结果正常的代码,看看它...

Python“三步”即可爬取,毋庸置疑

声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。#第一步导入模块importreimportrequests#第二步获取你想爬取的网页地址,发送请求,获取网页内...

简单学Python——re库(正则表达式)2(split、findall、和sub)

1、split():分割字符串,返回列表语法:re.split('分隔符','目标字符串')例如:importrere.split(',','...

Lavazza拉瓦萨再度牵手上海大师赛

阅读此文前,麻烦您点击一下“关注”,方便您进行讨论和分享。Lavazza拉瓦萨再度牵手上海大师赛标题:2024上海大师赛:网球与咖啡的浪漫邂逅在2024年的上海劳力士大师赛上,拉瓦萨咖啡再次成为官...

ArkUI-X构建Android平台AAR及使用

本教程主要讲述如何利用ArkUI-XSDK完成AndroidAAR开发,实现基于ArkTS的声明式开发范式在android平台显示。包括:1.跨平台Library工程开发介绍...

Deepseek写歌详细教程(怎样用deepseek写歌功能)

以下为结合DeepSeek及相关工具实现AI写歌的详细教程,涵盖作词、作曲、演唱全流程:一、核心流程三步法1.AI生成歌词-打开DeepSeek(网页/APP/API),使用结构化提示词生成歌词:...

“AI说唱解说影视”走红,“零基础入行”靠谱吗?本报记者实测

“手里翻找冻鱼,精心的布局;老漠却不言语,脸上带笑意……”《狂飙》剧情被写成歌词,再配上“科目三”背景音乐的演唱,这段1分钟30秒的视频受到了无数网友的点赞。最近一段时间随着AI技术的发展,说唱解说影...

AI音乐制作神器揭秘!3款工具让你秒变高手

在音乐创作的领域里,每个人都有一颗想要成为大师的心。但是面对复杂的乐理知识和繁复的制作过程,许多人的热情被一点点消磨。...

取消回复欢迎 发表评论: