输入层
接收原始图像或数据作为输入。
卷积层
卷积作:通过卷积核(过滤器)在输入上滑动,提取特征。
特征图:卷积作的结果,每个特征图代表一种特定的特征。
偏置项:给特征图添加一个常数。
活函数:对特征图应用一个非线性函数,如 ReLU 或 Leaky ReLU。
池化层
池化作:对特征图进行下采样,减少计算量和特征维度。
最大池化:选择每个区域的最大值。
平均池化:计算每个区域的平均值。
重复卷积和池化层
多个卷积层和池化层可以堆叠在一起,形成更深的网络。
每层提取不同的特征,复杂性逐渐提高。
全连接层
将特征图展开成一维向量。
使用全连接网络对特征向量进行分类或回归。
输出层
输出层的节点数等于分类的类别数(对于分类任务)或回归任务的目标维度。
示例网络结构
一个常见的 CNN 结构为:
Input -> Conv1 -> Pool1 -> Conv2 -> Pool2 -> Conv3 -> Pool3 -> Flatten -> FC1 -> FC2 -> Output
其中:
Conv1-3:卷积层
Pool1-3:池化层
FC1-2:全连接层
Flatten:将特征图展开成一维向量
其他层
CNN 还可以包含其他层,例如:
批归一化层:减轻训练过程中的内部协变量偏移。
丢弃层:随机丢弃神经元,防止过拟合。
注意力机:引导网络关注图像中的重要区域。