百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

深度学习中的「卷积层」如何深入理解?

ztj100 2024-12-19 17:56 29 浏览 0 评论

原文来源:medium

作者:ApilTamang

「雷克世界」编译:嗯~阿童木呀 多啦A亮

近来,深度学习的火爆程度显而易见,而在深度学习领域,卷积网络则是引起这许多令人惊叹的结果的主要原因。自从2012年AlexNet公开亮相之后,现如今,我们很难列举一个根本不使用卷积架构,具有突破性的计算机视觉架构。

在现有深度学习框架下,我们所编写的卷积层往往是一个单行语句,它可以抽象出许多结构细节。不过,有时候后退一步去揭开一些抽象概念也是一个不错的选择。本文试图阐述卷积层的一个特定的解剖特征,而这是在大多数文章和相关讨论中被忽略的问题。

许多卷积架构是从一个外部卷积单元开始的,它将信道RGB的输入图像映射到一系列内部过滤器中。在当下最通用的深度学习框架中,这个代码可能如下所示:

out_1=Conv2d(input=image, filter=32, kernel_size=(3,3), strides=(1,1))

relu_out=relu(out_1)

pool_out=MaxPool(relu_out, kernel_size=(2,2), strides=2)

对许多人来说,我们都很清楚,上面的结果是一系列的具有32层深度的过滤器。我们不知道的是,该如何将具有3个信道的图像精确地映射到这32层中!另外,我们也不清楚该如何应用最大池(max-pool)操作符。例如,是否一次性将最大池化应用到了所有的过滤层中以有效地生成一个单一的过滤映射?又或者,是否将最大池独立应用于每个过滤器中,以产生相同的32层的池化过滤器?

如何做

一张图胜过千言万语,下面有一个图表,可以显示上述代码片段中所有的操作。

卷积层的应用

观察上图,可以看到最显著的一点是,步骤1中的每个过滤器(即过滤器-1、过滤器-2……)实际上包含一组3个卷积核(Wt-R、Wt-G和WT-B)。这些内核中的每一个分别保存为输入图像中的红(R)、绿(G)和蓝(B)信道。

在正向传播期间,图像中的R、G和B像素值分别与Wt-R、Wt-G和Wt-B内核相乘以产生一个间歇激活映射(intermittent activation map)(图中未标出)。然后将三个核的输出相加以为每个过滤器产生一个激活映射。

随后,这些激活中的每一个都要受到ReLu函数的支配,最后运行到最大池化层,而后者主要负责减少输出激活映射的维度。最后,我们得到的是一组激活映射,通常其维数是输入图像的一半,但现在其信号跨越了一组32个选择(我们选择作为过滤器的数量)作为二维张量。

来自卷积层的输出经常用作后续卷积层的输入。因此,如果我们的第二个卷积单元如下:

conv_out_2 = Conv2d(input = relu_out,filters = 64)

那么框架就需要实例化64个过滤器,每个过滤器使用一组32个独特的核。

为什么

另一个微妙的但重要的一点,就是为什么我们为第一个卷积层使用了32个过滤器。在许多常用的体系结构中,随着我们深入网络,所使用的过滤器数量也越来越大(例如,第二个为64,第三个为128,依此类推)。

在本文中,Matt Zeiler使用了一个反卷积算子,以便可视化深度卷积结构的不同层次和深度的核在训练过程中得到调谐。普遍的共识是,在经过最优训练的卷积网络中,在边缘(接近图像)的滤波器对基本边缘和图案变得敏感。深层中的过滤器对逐渐升高的阶数形状和模式敏感。这些现象在Matt论文的图表中得到了很好的总结:

在第一层和第二层(最外层)上过滤器激活的可视化

第三层过滤器激活的可视化

第4层和第5层的过滤器的可视化激活

另一个我想了很长一段时间的问题是,为什么不同的过滤器,即使在任何给定的层,都会被调整到一个特定的形状或模式。毕竟,任何内核的权重都没有什么异常的,这可以保证观察到的结果。正是到了这一点:随机梯度下降(SGD)的过程自动纠正权重,使内核获得以上的特征。唯一重要的是:

?核(或权重矩阵)被随机初始化,以确保每个核都被优化到一个独特的解决方案空间。

?我们定义了足够多的过滤器来最大限度地捕获我们数据集中的各种特征,同时针对所发生的计算成本实现了平衡。

最后,许多论文还提出,过滤器激活的可视化为卷积结构的性能提供了一个窗口。一个平衡的和高性能的网络通常显示如上所述的激活,具有明确的边缘和形状检测器的表现。一个过度拟合、欠拟合和泛化的网络往往无法显示这些观察结果。因此,使用(2)中使用的过程来测试网络是一个好主意,以查看实验性的卷积网络是否产生了良好的结果。

参考文献:

深度卷积神经网络的ImageNet分类,Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton,https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

卷积网络的可视化与理解,Matthew D Zeiler,Rob Fergus https://arxiv.org/abs/1311.2901

相关推荐

sharding-jdbc实现`分库分表`与`读写分离`

一、前言本文将基于以下环境整合...

三分钟了解mysql中主键、外键、非空、唯一、默认约束是什么

在数据库中,数据表是数据库中最重要、最基本的操作对象,是数据存储的基本单位。数据表被定义为列的集合,数据在表中是按照行和列的格式来存储的。每一行代表一条唯一的记录,每一列代表记录中的一个域。...

MySQL8行级锁_mysql如何加行级锁

MySQL8行级锁版本:8.0.34基本概念...

mysql使用小技巧_mysql使用入门

1、MySQL中有许多很实用的函数,好好利用它们可以省去很多时间:group_concat()将取到的值用逗号连接,可以这么用:selectgroup_concat(distinctid)fr...

MySQL/MariaDB中如何支持全部的Unicode?

永远不要在MySQL中使用utf8,并且始终使用utf8mb4。utf8mb4介绍MySQL/MariaDB中,utf8字符集并不是对Unicode的真正实现,即不是真正的UTF-8编码,因...

聊聊 MySQL Server 可执行注释,你懂了吗?

前言MySQLServer当前支持如下3种注释风格:...

MySQL系列-源码编译安装(v5.7.34)

一、系统环境要求...

MySQL的锁就锁住我啦!与腾讯大佬的技术交谈,是我小看它了

对酒当歌,人生几何!朝朝暮暮,唯有己脱。苦苦寻觅找工作之间,殊不知今日之事乃我心之痛,难道是我不配拥有工作嘛。自面试后他所谓的等待都过去一段时日,可惜在下京东上的小金库都要见低啦。每每想到不由心中一...

MySQL字符问题_mysql中字符串的位置

中文写入乱码问题:我输入的中文编码是urf8的,建的库是urf8的,但是插入mysql总是乱码,一堆"???????????????????????"我用的是ibatis,终于找到原因了,我是这么解决...

深圳尚学堂:mysql基本sql语句大全(三)

数据开发-经典1.按姓氏笔画排序:Select*FromTableNameOrderByCustomerNameCollateChinese_PRC_Stroke_ci_as//从少...

MySQL进行行级锁的?一会next-key锁,一会间隙锁,一会记录锁?

大家好,是不是很多人都对MySQL加行级锁的规则搞的迷迷糊糊,一会是next-key锁,一会是间隙锁,一会又是记录锁。坦白说,确实还挺复杂的,但是好在我找点了点规律,也知道如何如何用命令分析加...

一文讲清怎么利用Python Django实现Excel数据表的导入导出功能

摘要:Python作为一门简单易学且功能强大的编程语言,广受程序员、数据分析师和AI工程师的青睐。本文系统讲解了如何使用Python的Django框架结合openpyxl库实现Excel...

用DataX实现两个MySQL实例间的数据同步

DataXDataX使用Java实现。如果可以实现数据库实例之间准实时的...

MySQL数据库知识_mysql数据库基础知识

MySQL是一种关系型数据库管理系统;那废话不多说,直接上自己以前学习整理文档:查看数据库命令:(1).查看存储过程状态:showprocedurestatus;(2).显示系统变量:show...

如何为MySQL中的JSON字段设置索引

背景MySQL在2015年中发布的5.7.8版本中首次引入了JSON数据类型。自此,它成了一种逃离严格列定义的方式,可以存储各种形状和大小的JSON文档,例如审计日志、配置信息、第三方数据包、用户自定...

取消回复欢迎 发表评论: