填充-


  1. 定义与概念
  2. 在深度学习领域,特别是卷积神经网络(CNN)中,“padding”(填充)是一种操作。它是指在输入数据(通常是图像、文本序列等)的边缘添加额外的像素(对于图像)或元素(对于序列)。例如,在一个二维图像卷积操作前,在图像的四周添加一圈像素值,这些添加的像素就是填充。

  3. 目的和作用

  4. 保持输出特征图尺寸:在卷积操作中,不使用填充时,输出特征图的尺寸会随着卷积操作而逐渐减小。例如,对于一个大小为(n\times n)的输入图像,使用大小为(k\times k)的卷积核,步长为(1),若不进行填充,每次卷积操作后,输出特征图的边长会减少((k - 1))。通过填充合适数量的像素,可以使输出特征图的尺寸保持与输入特征图相同或接近。这对于构建深度网络时,保持各层之间数据维度的一致性非常重要,方便后续的计算和处理。
  5. 帮助卷积核覆盖边缘信息:如果没有填充,卷积核在处理边缘像素时,只能部分覆盖边缘区域,可能会丢失边缘信息。填充可以确保卷积核能够完全覆盖输入数据的边缘像素,使网络能够充分利用边缘信息进行特征提取。例如,在图像识别任务中,物体的边缘特征可能对于识别物体的形状、轮廓等非常关键,填充操作有助于更好地提取这些边缘特征。

  6. 填充类型

  7. Valid Padding(有效填充):这是一种不进行填充的方式,即卷积核只在输入数据有效的范围内进行卷积操作。在这种情况下,输出特征图的尺寸会根据卷积核大小和步长而减小。例如,对于一个大小为(5\times5)的输入图像,使用大小为(3\times3)的卷积核,步长为(1),按照Valid Padding方式,输出特征图的大小为((5 - 3 + 1)\times(5 - 3 + 1)=3\times3)。
  8. Same Padding(相同填充):这种填充方式的目的是使得输出特征图的尺寸与输入特征图的尺寸相同(在步长为(1)的情况下)。对于一个大小为(n\times n)的输入图像,使用大小为(k\times k)的卷积核,需要填充的像素数量为(\left\lfloor\frac{k - 1}{2}\right\rfloor)(在二维情况下,上下左右都填充相同数量的像素)。例如,对于一个大小为(6\times6)的输入图像,使用大小为(3\times3)的卷积核,步长为(1),需要在图像四周各填充(\left\lfloor\frac{3 - 1}{2}\right\rfloor = 1)个像素,这样输出特征图的大小依然是(6\times6)。

  9. 应用场景

  10. 计算机视觉领域:在图像分类、目标检测、语义分割等任务中广泛应用。例如,在ResNet(残差网络)等深度卷积神经网络架构用于图像分类时,通常会采用Same Padding的方式来保持特征图尺寸的稳定,使得网络能够更好地学习图像中的层次化特征。在语义分割任务中,填充操作可以帮助网络准确地提取图像边缘区域的语义信息,对于精细地划分不同物体和背景的边界非常重要。
  11. 自然语言处理领域(对于基于卷积架构的模型):在处理文本序列时,填充用于处理不同长度的文本输入。例如,在情感分析任务中,对于长短不一的句子,通过在句子两端填充特殊的标记(如零向量等),可以将所有句子的长度统一,方便卷积神经网络进行处理,并且能够确保卷积核在处理文本边缘的词汇时也能获取足够的上下文信息。