图像分类的技能包及每一项的实验验证
ztj100 2024-11-03 16:15 12 浏览 0 评论
作者:Pavel Semkin
编译:ronghuaiyang
导读
通过实验验证了图像分类技能包中每种技巧是否有效。
介绍
图像分类是计算机视觉中的一个关键问题。
在图像分类任务中,输入是一幅图像,输出是通常描述图像内容的类标签(如“猫”、“狗”等)。
近十年来,神经网络在解决图像分类问题方面取得了很大进展。神经网络在分类问题上的应用始于2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton引入AlexNet。他们的模型在ImageNet挑战中达到了63.3%的第一名精度。目前,(截至2020年8月)排名第一的是名为“FixEfficientNet-l2”的网络,其成绩为88.5%。
人们对给图片分配标签的任务进行了详细的研究。通常,在GitHub上搜索一个模型(或自己实现它)并在数据上训练它就足够了。你得到了一个可以准确预测标签的解决方案。
然而,当你对结果不满意时,改进模型可能会很棘手。你可以尝试以下方法之一:
- 使用另一个模型。例如,如果你使用ResNet系列,你可以尝试使用更大的模型或切换到最近的修改,如ResNeSt。然而,这并不总是可能的,因为你可能受到资源的限制(例如,如果你的目标部署在一个像Raspberry Pi这样的小设备),拥有数亿个参数的最先进的模型可能无法放入内存,或者推理可能太慢。此外,通常,我们使用的是预先训练好的模型来做迁移学习,你需要为你的模型找到权重,但如果你做一些自定义更新或在GitHub上找到一个模型,这可能是一个问题。这就是为什么有时你必须修复所选择的模型,并找到其他方法来提高质量。
- 增加数据集大小。增加额外的样本可以提高质量。这是一个很明显的选择,它确实可以帮助模型更好地泛化,但也存在一些问题。首先,你需要标记新数据或找到标记良好的公共数据集。在分类任务中,标记通常被认为是简单的,但这在很大程度上取决于任务的细节。例如,医学图像可能很难获取,甚至更难标记。此外,还需要确保这些新数据具有类似的分布,不会干扰模型。
- 微调超参数。神经网络自己会更新数百万个参数,但有几个超参数,如优化器参数,损失权重等,需要研究人员去设置。由于超参数有很多可能的组合,如果没有任何先验知识或直觉,可能很难找到最好的一个。
- 使用一些“技巧”。它们是人们用来提高性能的最佳实践。这些技巧与超参数调优不同,因为你需要了解模型内部和训练过程中发生了什么。通过在训练期间更新一些参数(例如使用一个特定的学习率策略)或在模型权值初始化期间以一种特定的方式初始化,你可以使训练更加稳定并提高最后的结果。
今天我们要用最后最后一条,通过使用一些技巧来提升模型性能,这些技巧都在“Bag of Tricks for Image Classification with Convolutional Neural Networks”中被测试过,这里会重新验证一遍。
数据集
在我们的实验中,我们使用Food-101数据集。它可以在Kaggle上下载。Lukas Bossard、Matthieu Guillaumin和Luc Van Gool在food101 - Mining Discriminative Components with Random Forests中介绍了该数据集。
它包括101种食物。每个类包含1000个图像。因此,整个数据集包含101,000张图像,并被划分为train和test两个子集。train部分为每个类包含750个图像。然而,为了提高训练速度,我们将类别数量从101个减少到21个。
请按照指示准备数据集:
- 从Kaggle网站下载zip-archive:https://www.kaggle.com/dansbecker/food101/download
- 解压缩数据
- 使用split_food-101.py将Food-101分割为训练/测试文件夹。这个脚本会解析train.txt和test.txt并复制图像到相应的子文件夹。注意,我们硬编码了将要使用的类。
基线
我们使用ResNet-18架构作为基线。为了提升结果,我们使用了一个预训练过的ImageNet模型,该模型使用Adam优化器和交叉熵损失函数。默认LR为1e-4,在epochs 15和30之后,每次乘以0.1。总的来说,模型在1个Nvidia 1080Ti GPU上训练了40个epoch,batch size大小为32。我们使用PyTorch-Lightning框架来组织我们的代码。
注:为了使我们的结果更可靠,我们在每个实验中使用不同的种子启动3次,并提供平均结果。
由于我们的数据集很大而且很多样,所以我们使用一个简单的增强策略。在训练期间,我们使用:
- RandomResizedCrop
- HorizontalFlip
- Normalization
def get_training_augmentation():
augmentations_train = A.Compose(
[
A.RandomResizedCrop(224, 224, scale=(0.8, 1.0)),
A.HorizontalFlip(),
A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
ToTensorV2(),
],
)
return lambda img: augmentations_train(image=np.array(img))
在验证过程中,我们遵循作者的策略,将图像的短边调整为256,保持宽高比不变。然后使用中心裁剪,得到224×224的方形区域:
def get_test_augmentation():
augmentations_val = A.Compose(
[
A.SmallestMaxSize(256),
A.CenterCrop(224, 224),
A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
ToTensorV2(),
],
)
return lambda img: augmentations_val(image=np.array(img))
图像分类的技巧
首先,让我们把技巧分成两类:
- 高效的训练技巧 — 硬件和模型相结合的技巧,可能提高性能
- 训练优化 — 进一步提高质量的几个有趣的方法。
让我们详细讨论每一个技巧。
高效的训练技巧
Trick #1: 大Batch训练
Batch大小是一个至关重要的训练参数,尽管Batch越大收敛速度越快,效果越好,但对于其最优值却不一定。这是一个有争议的,同时也是一个被广泛研究的话题。下面是一些处理这个问题的启发式方法。由于资源有限,我们试验了batch大小16、32、64、96。
当我们增加batch大小时,我们不改变随机梯度的期望,但减少噪音,因此,减少了方差。这意味着,batch越大,我们的学习效率就越高。一种流行的方法是在训练过程中线性缩放学习率。例如,假设我们选择1e-4作为batch大小为32的初始学习率。然后,通过改变batch大小,我们增加学习率为1e-4*b/32。然而,在我们的案例中,我们发现,Adam优化器1e-4的收敛性和稳定性更好,所以我们没有进行太多的线性缩放实验。
batch越大,训练时间越短,训练精度越低。
Trick #2: LR Warm-up
遵循这一启发式,我们使用最初的几个epochs来“热身”学习率。在训练开始时(当所有的参数都远离最优参数时)使用较高的学习率可能会导致数值不稳定性的而导致质量下降。假设我们想要在前m个epochs上热身,使用初始学习率,在第i个epoch中,1≤i≤m,学习率为:
def optimizer_step(self, epoch, batch_idx, optimizer, *args, **kwargs):
# Learning Rate warm-up
if self.args.warmup != -1 and epoch < self.args.warmup:
lr = self.args.lr * (epoch + 1) / self.args.warmup
for pg in optimizer.param_groups:
pg["lr"] = lr
在那之后,我们可以使用任何策略(multi-step衰减,plateau衰减)。在我们的实验中,我们使用6 epochs 热身,直到学习率变为1e-4,然后在15和30个epochs上衰减到得1e-5,1e-6。
总的来说,这个技巧提高了0.08%的准确率,不是很显著。
Trick #3: 混合精度
在常用框架(PyTorch、TensorFlow)中,我们用32位浮点精度格式(FP32)训练我们的模型。换句话说,所有的参数,梯度,算术运算的结果都以这种格式存储。然而,由于优化的逻辑单元,现代硬件在精度较低的数据类型上可能表现出更好的性能。文章的作者表示,他们的Nvidia V100在FP32上具有14个TFLOPS,而在FP16中具有100个TFLOPS。不幸的是,我们的GPU (Nvidia 1080Ti)FP16时速度较低,所以我们不会看到FP32和FP16性能的任何显著差异。
如你所见,FP16提高了所有batch大小(BS)设置的训练速度,而且也提高了准确度。我们使用了Nvidia apex库,其中有FP32的O0优化级别和FP16的O1优化级别。在 PyTorch-Lightning 中,可以通过在命令行参数中添加--amp_level [Opt_level]在FP32和FP16之间切换。
训练优化
Trick #4: 余弦学习率衰减
除了多步衰减学习率策略外,还有一些我们可以使用的策略。例如,我们可以应用一个余弦函数来将学习率从初始值降低到0。假设有T个epoch(忽略热身阶段),初始学习率为l,那么在epoch T时,学习率l~T~的计算为:
这样做的目的是为了平稳地降低学习率,与步进衰减策略相比,可以获得更好的训练效果。在余弦衰减过程中,我们在开始和结束时慢慢降低学习速率,而在中间,下降速率几乎是线性的。
可以注意到,在我们的案例中,这种方法提高了准确率。此外,使用余弦策略的实验时间更短。
Trick #5: 标签平滑
在图像分类中,我们通常使用交叉熵损失函数:
通过标签平滑,我们将二元指标yi替换为:
代码实现:
# Based on https://github.com/pytorch/pytorch/issues/7455
class LabelSmoothingLoss(nn.Module):
def __init__(self, n_classes, smoothing=0.0, dim=-1):
super(LabelSmoothingLoss, self).__init__()
self.confidence = 1.0 - smoothing
self.smoothing = smoothing
self.cls = n_classes
self.dim = dim
def forward(self, output, target, *args):
output = output.log_softmax(dim=self.dim)
with torch.no_grad():
# Create matrix with shapes batch_size x n_classes
true_dist = torch.zeros_like(output)
# Initialize all elements with epsilon / N - 1
true_dist.fill_(self.smoothing / (self.cls - 1))
# Fill correct class for each sample in the batch with 1 - epsilon
true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
return torch.mean(torch.sum(-true_dist * output, dim=self.dim))
对于独热编码,模型通常对其预测过于自信,因为这种方法迫使模型做出最大可能的logit差距。这意味着正确的类的logit和其他类别的logit之间的训练结果会有巨大的差异,同时也可能导致错误的类的logit彼此之间有很大的差异。
标签平滑的使用鼓励模型从全连接层产生有限的输出,这可能导致更好的泛化。它迫使模型将正确类的logit与其他类的logit之间的差异设置为依赖于ε的常数。
总的来说,标签平滑使我们的结果提高了0.9%,我们还减少了6分钟的训练时间。
Trick #6: 知识蒸馏
知识蒸馏,就是先训练一个复杂而重的模型(我们使用ResNet-50),即教师模型,然后在教师的帮助下训练一个较轻的模型(学生模型)。我们假设一个更复杂的模型应该具有更高的准确率,因此,理论上,它可以提高学生模型的结果,同时保持其简单性。学生试图复制老师的结果。
为了进行蒸馏,我们修改了损失函数。我们根据老师和学生的得分的差别来进行惩罚。我们的损失函数从交叉熵损失,变成:
代码实现:
# Based on https://github.com/peterliht/knowledge-distillation-pytorch/blob/master/model/net.py
class KnowledgeDistillationLoss(nn.Module):
def __init__(self, alpha, T, criterion=nn.CrossEntropyLoss()):
super().__init__()
self.criterion = criterion
self.KLDivLoss = nn.KLDivLoss(reduction="batchmean")
self.alpha = alpha
self.T = T
def forward(self, input, target, teacher_target):
loss = self.KLDivLoss(
F.log_softmax(input / self.T, dim=1),
F.softmax(teacher_target / self.T, dim=1),
) * (self.alpha * self.T * self.T) + self.criterion(input, target) * (
1.0 - self.alpha
)
return loss
我们使用ResNet-50作为教师模型。对模型进行了标签平滑、余弦退火LR和线性预热的训练,获得了92.18%的Top-1准确率。
我们在准确率上取得了显著的增长,但增加了训练时间,因为我们需要从老师那里得到预测。
Trick #7: Mix-up 增强
Mix-up是一种增强技术,构造一个新的图像作为两个其他的线性组合。假设我们有两个batch的样本(我们取当前的batch和早期迭代中的batch),我们所做的是随机洗牌第二个batch,并从这两个batch中创建一个线性组合图像:
作为目标,我们从这两个batch中取标签。我们计算每个标签的损失,并返还加权总和作为总损失:
λ是一个来自β分布的随机数。
此外,还可以为这个新样本创建一个增强目标,作为原始目标的线性组合(如果目标是one-ho编码或平滑的)。
这一技巧有助于减少高置信度预测的数量,并可以提高准确率,但对人类来说,可能很难判断增强的图片是什么。
代码实现:
def mixup_batch(self, x, y, x_previous, y_previous):
lmbd = (
np.random.beta(self.args.mixup_alpha, self.args.mixup_alpha)
if self.args.mixup_alpha > 0
else 1
)
if x_previous is None:
x_previous = torch.empty_like(x).copy_(x)
y_previous = torch.empty_like(y).copy_(y)
batch_size = x.size(0)
index = torch.randperm(batch_size)
# If current batch size != previous batch size, we take only a part of the previous batch
x_previous = x_previous[:batch_size, ...]
y_previous = y_previous[:batch_size, ...]
x_mixed = lmbd * x + (1 - lmbd) * x_previous[index, ...]
y_a, y_b = y, y_previous[index]
return x_mixed, y_a, y_b, lmbd
class MixUpAugmentationLoss(nn.Module):
def __init__(self, criterion):
super().__init__()
self.criterion = criterion
def forward(self, input, target, *args):
# Validation step
if isinstance(target, torch.Tensor):
return self.criterion(input, target, *args)
target_a, target_b, lmbd = target
return lmbd * self.criterion(input, target_a, *args) + (
1 - lmbd
) * self.criterion(input, target_b, *args)
应用该技术的结果如下表所示:
通过平滑标签来进行两个batch之间的Mix-up增强,可以提高准确率,但需要更多的时间。
福利: 技巧组合
最后,我们将这些技巧结合在一起,重新进行了实验。总体来说,我们使用了:
- 线性学习率热身
- 余弦学习率策略
- 标签平滑
- 知识蒸馏
可以预料,这些技巧的组合会给我们带来强大的改进,因为我们结合了最好的技巧。这种设置可以得到性能的提升。总的来说,我们将基线准确率提高了1%。你可以看到汇总表如下:
总结
如上所示,以不同的方式改变训练过程可以帮助你提高准确率,但它是依赖于任务和数据的。这就是为什么,在我们的案例中,改进并不是那么显著,因为基线模型已经能够达到很高的结果了。
英文原文:https://www.learnopencv.com/bag-of-tricks-for-image-classification/
更多内容,请关注微信公众号“AI公园”。
相关推荐
- Linux日志相关命令—查看\关键词查询\截取\日志压缩备份
-
一、查看1、动态日志查看。说明:程序启动可以动态查看运行日志。...
- Dify+微信智能生态:手把手教你搭建私有化客服解决方案
-
一、Dify简介1.为什么要使用Dify?零代码门槛:通过直观界面和预设模板,非技术人员也能快速创建智能助手1。模型生态丰富...
- 小白入门必知必会-RocketMQ安装(rocketmq下载安装)
-
一RocketMQ基础1.1介绍MQ是一种提供消息队列服务的中间件,也称为消息中间件,是一套提供了消息生产、存储、消费全过程API的软件系统。RocketMQ是使用Java语言开发的一款MQ产品,...
- Linux搭建Weblogic集群(linux weblogic安装与配置图文详解)
-
一、Java环境配置拿到新申请的两台Linux机器后,首先需要安装JDK,下载地址请戳这里。1、执行命令:rpm-qa|grepjava,查询是否存在系统自带的openjdk。如果为空,...
- 从0开始,让你的Spring Boot项目跑在Linux服务器
-
1搭建Linux服务器1.1购买阿里云服务器或安装虚拟机这里建议是CentOS7.X或CentOS8.X,当然其他的Linux如deepin、Ubuntu也可以,只是软件环境的安装包和安装方式...
- 搞定这8个Kafka生产级容量评估,每日10亿+请求轻松拿捏
-
本篇文章通过场景驱动的方式来深度剖析Kafka生产级容量评估方案如何分析,申请和实施。...
- 还在用nohup启动java jar服务?试试强大的systemctl吧
-
nohup直译过来就是不挂断,要运行后台中的nohup命令,添加&(表示“and”的符号)到命令的尾部,使用nohup启动的例子:nohup/usr/bin/java-jar/dat...
- prometheus、exporter和grafana的简单使用
-
一、基本介绍1、prometheusPrometheus(普罗米修斯)是一套开源的监控&报警&时间序列数据库的组合,由SoundCloud公司开发。...
- Mock工具之Moco使用教程(mock 工具)
-
目录一、什么是Moco二、安装&配置...
- SpringBoot入门系列(三十)Spring Boot项目打包、发布与部署
-
今天介绍SpringBoot项目是如何打包、发布的。SpringBoot使用了内嵌容器,因此它的部署方式也变得非常简单灵活,一方面可以将SpringBoot项目打包成独立的jar或者war包来运...
- chatgpt-on-wechat:智能对话的全新可能与开源魅力
-
简介chatgpt-on-wechat(简称CoW)项目是基于大模型的智能对话机器人,支持微信公众号、企业微信应用、飞书、钉钉接入,可选择GPT3.5/GPT4.0/Claude/Gemini/Lin...
- 免费快速实现内网穿透:windows远程桌面连接实战
-
本次介绍使用frp实现内网穿透,文章是之前写的,写了很多篇,后续会一一整理出来,希望帮助到有需要的朋友。frp简介...
- 手摸手教你 CentOS 入门必备基础知识(建议收藏)
-
这里记录一下我的CentOS学习过程,相当于自己记个笔记,同时分享出来,如果有同学刚好有需要而这个文章帮助到了你的话,在下也会十分开心。文章最后推介了几个免费视频,B站和慕课上的免费学习视频挺多...
- 分布式数据库基础性能测试(分布式数据库实验)
-
最近对原生HTAP(cockroachdb和tidb)数据库同时以数仓为起点做HTAP数据库的greenplum进行了相关场景性能测试,场景分为OLTP的TPC-C和TPC-B测试以及简单的OL...
-
- 使用X11VNC远程连接统信UOS(vnc 远程连接)
-
原文链接:使用X11VNC远程连接统信UOS...
-
2025-05-02 14:51 ztj100
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Linux日志相关命令—查看\关键词查询\截取\日志压缩备份
- Dify+微信智能生态:手把手教你搭建私有化客服解决方案
- 小白入门必知必会-RocketMQ安装(rocketmq下载安装)
- Linux搭建Weblogic集群(linux weblogic安装与配置图文详解)
- 从0开始,让你的Spring Boot项目跑在Linux服务器
- 搞定这8个Kafka生产级容量评估,每日10亿+请求轻松拿捏
- 还在用nohup启动java jar服务?试试强大的systemctl吧
- prometheus、exporter和grafana的简单使用
- Mock工具之Moco使用教程(mock 工具)
- SpringBoot入门系列(三十)Spring Boot项目打包、发布与部署
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- node卸载 (33)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- exceptionininitializererror (33)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)