百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

卷积神经网络(CNN)数据流转详细流程,结合YOLO的实进行说明

ztj100 2025-04-24 10:43 10 浏览 0 评论


1. 输入预处理(Input Preprocessing)

作用:将原始数据转换为适合CNN处理的格式。

  • 图像尺寸统一化:如YOLOv5默认输入尺寸为640x640,所有输入图像会被缩放到这个尺寸。
  • 归一化:像素值从[0,255]缩放到[0,1]或[-1,1]。
  • 通道处理:BGR转RGB(OpenCV读取的图像需要转换)。
  • 批处理:多个样本打包成batch(如batch_size=16)。

Python复制

# YOLO中的典型预处理代码
img = cv2.resize(img, (640, 640))  # Resize
img = img / 255.0  # 归一化
img = np.transpose(img, (2,0,1))  # HWC → CHW

2. 卷积层(Convolutional Layer)

核心操作:局部感受野的特征提取。

  • 输入张量:形状为 [B, C, H, W](Batch, Channels, Height, Width)。
  • 卷积核:可学习的权重矩阵,形状为 [K, C, Fh, Fw]。
  • K:输出通道数(即filter数量)。
  • Fh/Fw:滤波器高度/宽度(如3x3)。
  • 计算过程:Output_{i,j,k} = ∑_{c=0}^{C-1} ∑_{m=0}^{Fh-1} ∑_{n=0}^{Fw-1} Input_{c, i+m, j+n} * Filter_{k,c,m,n} + Bias_k
  • 输出维度
  • 复制
  • H_out = (H_in + 2*pad - Fh) / stride + 1 W_out同理

YOLO应用:Darknet骨干网络中使用大量3x3卷积,配合1x1卷积调整通道数。


3. 激活函数(Activation Function)

作用:引入非线性。

  • 常见选择
  • ReLU:f(x) = max(0, x)(YOLO主要使用)。
  • LeakyReLU(解决“神经元死亡”问题)。
  • SiLU(YOLOv5/v6使用)。

数据变化:不改变张量维度,只进行逐元素运算。


4. 池化层(Pooling Layer)

作用:降维并保留主要特征。

  • 最大池化:取窗口内最大值(YOLO常用)。
  • 平均池化:取窗口内平均值。
  • 步长影响:一般stride=2,输出尺寸减半。

示例

输入尺寸:64x64 → 2x2池化 → 输出32x32


5. 特征图堆叠(Feature Hierarchy)

典型结构

Input → Conv1 → ReLU → Pool1 → Conv2 → ReLU → Pool2 → ... → Flatten

YOLO特色

  • 使用跨阶段部分连接(CSPNet)减少计算量。
  • SPP层(Spatial Pyramid Pooling)融合多尺度特征。

6. 全连接层(Fully Connected Layer)

作用:将高维特征映射到目标空间。

  • 输入:展平后的特征向量(如7x7x512 → 25088维)。
  • 输出:根据任务设计(分类任务输出类别概率,检测任务输出坐标+类别)。

YOLO变体

  • 使用1x1卷积代替全连接层(保留空间信息)。
  • 检测头输出形状:[B, anchors*(5+classes), H, W]。

7. 输出处理(Output Processing)

分类任务

  • Softmax归一化得到概率分布。

目标检测任务(YOLO)

  • 边界框解码:
  • 复制
  • # 将网络输出的偏移量转换为实际坐标 pred_x = (sigmoid(tx) * 2 - 0.5) + grid_x pred_y = (sigmoid(ty) * 2 - 0.5) + grid_y pred_w = (sigmoid(tw) * 2)^2 * anchor_w pred_h = (sigmoid(th) * 2)^2 * anchor_h
  • 非极大值抑制(NMS)去除冗余框。

8. 反向传播(Backpropagation)

虽然主要关注前向流程,但理解反向传播有助于把握数据流转:

  1. 计算损失函数(YOLO使用CIoU Loss)。
  2. 通过链式法则逐层计算梯度。
  3. 优化器(如SGD/Adam)更新权重。

YOLO数据流示例(简化版)

输入图像 → 数据增强 → Backbone(CSPDarknet) → Neck(PANet) → Head(检测输出) → 后处理(NMS)


关键参数计算技巧

  1. 感受野计算:当前层感受野 = 上一层感受野 + (kernel_size - 1) * 所有前面层的stride乘积
  2. FLOPs估算:FLOPs = H_out * W_out * C_in * C_out * K_h * K_w

通过这个流程,可以更清晰地理解CNN/YOLO内部的数据流转机制。实际应用中可以使用TensorBoard或Netron可视化网络结构辅助理解。

相关推荐

如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL

阿里云AnalyticDBforPostgreSQL(以下简称ADBPG,即原HybridDBforPostgreSQL)为基于PostgreSQL内核的MPP架构的实时数据仓库服务,可以...

Python数据分析:探索性分析

写在前面如果你忘记了前面的文章,可以看看加深印象:Python数据处理...

CSP-J/S冲奖第21天:插入排序

...

C++基础语法梳理:算法丨十大排序算法(二)

本期是C++基础语法分享的第十六节,今天给大家来梳理一下十大排序算法后五个!归并排序...

C 语言的标准库有哪些

C语言的标准库并不是一个单一的实体,而是由一系列头文件(headerfiles)组成的集合。每个头文件声明了一组相关的函数、宏、类型和常量。程序员通过在代码中使用#include<...

[深度学习] ncnn安装和调用基础教程

1介绍ncnn是腾讯开发的一个为手机端极致优化的高性能神经网络前向计算框架,无第三方依赖,跨平台,但是通常都需要protobuf和opencv。ncnn目前已在腾讯多款应用中使用,如QQ,Qzon...

用rust实现经典的冒泡排序和快速排序

1.假设待排序数组如下letmutarr=[5,3,8,4,2,7,1];...

ncnn+PPYOLOv2首次结合!全网最详细代码解读来了

编辑:好困LRS【新智元导读】今天给大家安利一个宝藏仓库miemiedetection,该仓库集合了PPYOLO、PPYOLOv2、PPYOLOE三个算法pytorch实现三合一,其中的PPYOL...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

Qt4/5升级到Qt6吐血经验总结V202308

00:直观总结增加了很多轮子,同时原有模块拆分的也更细致,估计为了方便拓展个管理。把一些过度封装的东西移除了(比如同样的功能有多个函数),保证了只有一个函数执行该功能。把一些Qt5中兼容Qt4的方法废...

到底什么是C++11新特性,请看下文

C++11是一个比较大的更新,引入了很多新特性,以下是对这些特性的详细解释,帮助您快速理解C++11的内容1.自动类型推导(auto和decltype)...

掌握C++11这些特性,代码简洁性、安全性和性能轻松跃升!

C++11(又称C++0x)是C++编程语言的一次重大更新,引入了许多新特性,显著提升了代码简洁性、安全性和性能。以下是主要特性的分类介绍及示例:一、核心语言特性1.自动类型推导(auto)编译器自...

经典算法——凸包算法

凸包算法(ConvexHull)一、概念与问题描述凸包是指在平面上给定一组点,找到包含这些点的最小面积或最小周长的凸多边形。这个多边形没有任何内凹部分,即从一个多边形内的任意一点画一条线到多边形边界...

一起学习c++11——c++11中的新增的容器

c++11新增的容器1:array当时的初衷是希望提供一个在栈上分配的,定长数组,而且可以使用stl中的模板算法。array的用法如下:#include<string>#includ...

C++ 编程中的一些最佳实践

1.遵循代码简洁原则尽量避免冗余代码,通过模块化设计、清晰的命名和良好的结构,让代码更易于阅读和维护...

取消回复欢迎 发表评论: