700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 【ResNet翻译】Deep Residual Learning for Image Recognition

【ResNet翻译】Deep Residual Learning for Image Recognition

时间:2021-05-09 21:32:38

相关推荐

【ResNet翻译】Deep Residual Learning for Image Recognition

文章目录

ResNetAbstract1. Introduction在深度重要性的驱动下,出现了一个问题:学习更好的网络是否和堆叠更多层一样容易?更深网络的退化问题更深的层,使用添加的层是恒等映射引入深度残差学习框架快捷连接效果好2. Related Work残差表示Shortcut Connections3. Deep Residual Learning3.1. Residual Learning设计残差的动机3.2. Identity Mapping by Shortcuts3.3. Network ArchitecturesVGG简单基线Resnet3.4. Implementation4. Experiments34 层plainnet 更高的验证错误34 层的普通网络仍然能够达到具有竞争力的精度34 层的普通网络收敛速度可能呈指数级低Residual Networks.Identity vs. Projection ShortcutsDeeper Bottleneck Architectures50-layer ResNetComparisons with State-of-the-art Methods4.2. CIFAR-10 and Analysis层响应分析Exploring Over 1000 layers4.3. Object Detection on PASCAL and MS COCO

ResNet

/pdf/1512.03385v1.pdf

Abstract

目的:

更深的神经网络更难训练。 我们提出了一种残差的学习框架,以简化对比以前使用的网络要深得多的网络的训练。

方法:

我们参考层输入明确地将层重新构造为学习残差函数,而不是学习未引用的函数。

效果:

我们提供的综合经验证据表明,这些残差网络更易于优化,并且可以通过深度增加而获得准确性。 在ImageNet数据集上,我们评估深度最大为152层的残差网络-比VGG网络要深8倍[41],但复杂度仍然较低。 这些残留网络的整体在ImageNettestset上实现3.57%的误差。 该结果在ILSVRC 分类任务中获得第一名。 我们还将介绍具有100和1000层的CIFAR-10的分析。

表示的深度对于许多视觉识别任务至关重要。 仅由于我们的极深表示,我们在COCO对象检测数据集上获得了28%的相对改进。 深度残差网络是我们提交ILSVRC&COCO 竞赛1的基础,在该竞赛中,我们还获得了ImageNet检测,ImageNet本地化,COCO检测和COCO分割等任务的第一名

1. Introduction

深度卷积神经网络[22,21]为图像分类带来了一系列突破[21,50,40]。 深度网络自然地以端到端的多层方式集成了低/中/高级功能[50]和分类器,并且功能的“级别”可以通过堆叠的层数(深度)来丰富。 最近的证据[41,44]揭示了网络深度至关重要,而具有挑战性的ImageNet数据集[36]上的领先结果[41,44,13,16]都利用了“非常深”的模型[41],具有深度 16 [41]到30 [16]的比例。许多其他非平凡的视觉识别任务[8、12、7、32、27]也从非常深入的模型中受益匪浅。

图1.在带有20层和56层“普通”网络的CIFAR-10上的训练错误(左)和测试错误(右)。 较深的网络具有较高的训练错误,从而导致测试错误。 ImageNet上的类似现象如图4所示。

在深度重要性的驱动下,出现了一个问题:学习更好的网络是否和堆叠更多层一样容易?

回答这个问题的一个障碍是梯度消失/爆炸的臭名昭著的问题 [1, 9],这从一开始就阻碍了收敛。

然而,这个问题已经在很大程度上通过

归一化初始化 normalized initial-ization [23, 9, 37, 13]中间归一化层 intermediate normalization layers [16]

[9] Understanding the difficulty of trainingdeep feedforward neural networks. InAISTATS, 13] Delving deep into rectifiers:Surpassing human-level performance on imagenet classification. InICCV, [37] Exact solutions tothe nonlinear dynamics of learning in deep linear neural networks.arXiv:1312.6120, .

[16] Batch normalization: Accelerating deepnetwork training by reducing internal covariate shift. InICML,

得到解决,这使得具有数十层的网络能够开始收敛以进行随机梯度下降 (SGD) 使用反向传播 [22]。

更深网络的退化问题

当更深的网络能够开始收敛时,退化问题就暴露出来了:随着网络深度的增加准确度会饱和(这可能不足为奇)然后迅速下降

出乎意料的是,这种退化不是由过度拟合引起的,向适当深度的模型添加更多层会导致更高的训练误差,如 [11, 42] 中所报告的那样,并经过我们的实验彻底验证。

11] Convolutional neural networks at constrained timecost. InCVPR, [42] Highway networks.arXiv:1505.00387,

图 1 显示了一个典型的例子。

(训练准确度的下降)表明并非所有系统都同样易于优化。

让我们考虑一个较浅的架构及其在其上添加更多层的较深的对应部分。

更深的层,使用添加的层是恒等映射

构造更深的模型存在一个解决方案:添加的层是恒等映射,其他层是从学习的更浅模型中复制的。

这种构造解决方案的存在表明,更深的模型不应产生比其更浅的对应部分更高的训练误差。 但是实验表明,我们现有的求解器无法找到与构建的解决方案相当或更好的解决方案(或无法在可行的时间内找到)

引入深度残差学习框架

在本文中,我们通过引入深度残差学习框架来解决退化问题。 与其希望每几个堆叠层都直接适合所需的底层映射,我们明确地让这些层适合残差映射。

形式上,将所需的基础映射表示为H(x),我们让堆叠的非线性层适合F(x):= H(x)-x的另一个映射。

原始映射被重铸为 F(x)+x。

我们假设优化残差映射比优化原始的、未引用的映射更容易。

极端情况下,如果恒等映射是最优的,那么将残差推为零通过一堆非线性层拟合恒等映射更容易

快捷连接

F(x)+x 的公式可以通过具有“快捷连接”的前馈神经网络来实现(图 2)。 快捷连接 [2, 34, 49] 是那些跳过一层或多层的连接。

F(x)+x 的公式可以通过具有“快捷连接”的前馈神经网络来实现(图 2)。 快捷连接 [2, 34, 49] 是那些跳过一层或多层的连接。

在我们的例子中,快捷连接只是执行身份映射,它们的输出被添加到堆叠层的输出中(图 2)。 身份捷径连接既不增加额外参数,也不增加计算复杂性。 整个网络仍然可以通过带有反向传播的 SGD 进行端到端的训练,并且可以使用通用库(例如 Caffe [19])轻松实现,而无需修改求解器。

效果好

我们在 ImageNet[36] 上进行了全面的实验,以展示退化问题并评估我们的方法。 我们表明:1)我们的极深残差网络很容易优化,但是当深度增加时,对应的“普通”网络(即堆叠层)表现出更高的训练误差; 2)我们的深度残差网络可以很容易地从大大增加的深度中获得准确度,产生的结果比以前的网络要好得多。

类似的现象也出现在 CIFAR-10 集 [20] 上,这表明我们的方法的优化困难和效果不仅仅类似于特定的数据集。我们在这个具有 100 多个层的数据集上展示了成功训练的模型,并探索模型 超过1000层。

在 ImageNet 分类数据集 [36] 上,我们通过极深的残差网络获得了出色的结果。 我们的 152 层残差网络是 ImageNet 上有史以来最深的网络,同时仍然比 VGGnets [41] 具有更低的复杂性。 我们的集成在 ImageNet 测试集上有 3.57% 的 top-5 错误,并在 ILSVRC 分类竞赛中获得第一名。 极深的表示在其他识别任务上也具有出色的泛化性能,并带领我们在 ILSVRC & COCO 竞赛中进一步在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割上获得第一名。 这个强有力的证据表明残差学习原理是通用的,我们希望它适用于其他视觉和非视觉问题

2. Related Work

残差表示

残差表示。 在图像识别中,VLAD[18] 是一种由残差向量相对于字典编码的表示,Fisher Vector [30] 可以表示为 VLAD 的概率版本 [18]。 它们都是用于图像检索和分类的强大浅层表示 [4, 48]。 对于矢量量化,编码残差矢量 [17] 被证明比编码原始矢量更有效。

在低级视觉和计算机图形学中,为了求解偏微分方程 (PDE),广泛使用的多重网格方法 [3] 将系统重新表述为多个尺度的子问题,其中每个子问题负责残差解 介于较粗和较细之间。

Multigrid 的一种替代方法是分层基础预处理 [45, 46],它依赖于代表两个尺度之间残差向量的变量。 已经表明 [3, 45, 46] 这些求解器比不知道解的残差性质的标准求解器收敛得快得多。 这些方法表明,良好的重构或预处理可以简化优化

Shortcut Connections

快捷方式连接。

导致捷径连接的实践和理论 [2, 34, 49] 已经被研究了很长时间。

添加 a linear layer ,训练多层感知器(MLP)的早期实践是添加从网络输入连接到输出的线性层[34,49]。

在 [44, 24] 中,一些中间层直接连接到辅助分类器,用于解决梯度消失/爆炸问题。

使用shortcut connections, [39, 38, 31, 47] 的论文提出了通过快捷连接实现的居中层响应、梯度和传播错误的方法。

在[44]中,一个“inception”层由一个快捷分支和一些更深的分支组成。

“highway networks”[42, 43] 方法,该方法展示了具有门控功能 [15] 的shortcut connections。这些gates 是数据相关的并且具有参数,与我们的无参数identity shortcuts形成对比。当门控捷径是“close”(接近于零),“highway networks”中的层代表非残差函数。另外,“highway networks”还没有显示出深度大大增加的准确性(例如超过100层)。

相反,我们的公式总是学习残差函数;我们的 identity shortcuts方式永远不会关闭,所有信息始终都会通过传递,还需要学习其他剩余功能。

3. Deep Residual Learning

3.1. Residual Learning

让我们将 H(x) 视为适合几个堆叠层(不一定是整个网络)的底层映射,其中 x 表示这些层中第一层的输入。

如果假设多个非线性层可以渐近逼近复杂函数2,那么假设它们可以渐近逼近残差函数,即 H(x)−x(假设输入和输出为 相同的尺寸)。

因此,

不期待堆叠层近似 H(x),我们明确地让这些层近似一个残差函数 F(x) :=H(x)−x。原来的函数因此变成了 F(x)+x。

尽管这两种形式都应该能够渐近地逼近所需的函数(如假设的那样),但学习的难易程度可能不同。

设计残差的动机

这个改写是有动机的,因为图1的深层网络的退化问题(图 1,左)。

正如在介绍中讨论的那样,如果添加的层可以构造为身份映射(identity mappings),那么更深的模型的训练误差应该不大于其更浅的对应部分。

退化问题表明求解器可能难以通过多个非线性层逼近恒等映射。 通过残差学习重新制定,如果恒等映射是最优的,求解器可以简单地将多个非线性层的权重推向零以接近恒等映射

在实际情况下,身份映射不太可能是最佳的,但我们的重新表述可能有助于先决问题。 如果最优函数更接近恒等映射而不是零映射,则求解器应该更容易参考恒等映射找到扰动,而不是将函数作为新函数学习。 我们通过实验(图 7)表明,学习到的残差函数通常具有很小的响应,这表明身份映射提供了合理的预处理。

3.2. Identity Mapping by Shortcuts

我们对每几个堆叠层采用残差学习。一个构建块如图 2 所示。正式地,在本文中,我们考虑一个定义为的构建块

y=F(x,Wi)+xy=F(x,{W_i}) +xy=F(x,Wi​)+x

这里 x 和 y 是所考虑层的输入和输出向量。 函数 F(x,{Wi}) 表示要学习的残差映射。 对于图 2 中具有两层的示例,F=W2σ(W1x) 其中 σ 表示 ReLU [29],并且为了简化符号省略了偏差。 操作 F+x 是通过快捷连接和元素级加法来执行的。 我们采用加法后的第二个非线性(即 σ(y),见图 2)。

等式(1)中的快捷连接既不引入额外参数,也不引入计算复杂度。 这不仅在实践中具有吸引力,而且在我们比较普通网络和残差网络时也很重要。 我们可以相当地比较同时具有相同数量的参数、深度、宽度和计算成本(除了可以忽略不计的元素添加)的普通/残差网络。

x 和 F 的维度在等式(1)中必须相等。 如果不是这种情况(例如,在更改输入/输出通道时),我们可以通过快捷连接执行线性投影 Ws 以匹配维度:

y=F(x,Wi)+Wsxy=F(x,{W_i}) +W_sxy=F(x,Wi​)+Ws​x

我们也可以在方程(1)中使用方阵 Ws。 但是我们将通过实验证明恒等映射足以解决退化问题并且是经济的,因此Ws仅在匹配维度时使用。

残差函数 F 的形式是灵活的。 本文中的实验涉及具有两层或三层的函数 F(图 5),但更多层也是可能的。 但如果 F 只有单层,则 Eqn.(1) 类似于线性层:y=W1x+x,对此我们没有观察到优势。

我们还注意到,虽然为了简单起见,上述符号是全连接层,但它们适用于卷积层。 函数F(x,{Wi})可以表示多个卷积层。 逐个通道在两个特征图上执行逐元素添加。

3.3. Network Architectures

我们已经测试了各种普通/残差网络,并观察到了一致的现象。 为了提供讨论的实例,我们描述了 ImageNet 的两个模型如下。

VGG简单基线

普通网络。 我们的简单基线(图 3,中)主要受到 VGG 网络 [41](图 3,左)哲学的启发。 卷积层大多有 3×3 个过滤器,并遵循两个简单的设计规则:(i)对于相同的输出特征图大小,层具有相同数量的过滤器; (ii)如果特征图的大小减半,则过滤器的数量将增加一倍,以保持每层的时间复杂度。 我们直接通过步长为 2 的卷积层执行下采样。网络以全局平均池化层和具有 softmax 的 1000-wayfully-connected 层结束。 图3中的加权层总数为34(中)

值得注意的是,我们的模型比 VGG 网络具有更少的过滤器和更低的复杂性 [41](图 3,左)。 我们的 34 层基线有 36 亿次 FLOP(乘加),仅为 VGG-19(196 亿次 FLOP)的 18%。

Resnet

残差网络。基于上述普通网络,我们插入快捷连接(图 3,右),将网络变成对应的残差版本。 当输入和输出具有相同的维度时,可以直接使用身份快捷方式(Eqn.(1))(图 3 中的实线快捷方式)。 当维度增加时(图 3 中的虚线快捷方式),我们考虑两个选项:(A)快捷方式仍然执行恒等映射,填充额外的零条目以增加维度。 这个选项没有引入额外的参数; (B) Eqn.(2) 中的投影快捷方式用于匹配维度(由 1×1 卷积完成)。 对于两个选项,当快捷方式穿过两个大小的特征图时,它们的步长为 2

图 3. ImageNet 的示例网络架构。左:VGG-19 模型 [41](196 亿 FLOP)作为参考。中:具有 34 个参数层(36 亿 FLOP)的普通网络。右:具有 34 个参数层(36 亿次浮点运算)。 虚线快捷方式增加了维度。表 1 显示了更多细节和其他变体

3.4. Implementation

我们对 ImageNet 的实现遵循 [21, 41] 中的实践。图像被调整大小,其较短的边在 [256,480] 中随机采样以进行缩放 [41]。从图像或其水平翻转中随机采样 224×224 的裁剪,并减去每个像素的平均值 [21]。使用了 [21] 中的标准颜色增强。我们在每次卷积之后和激活之前采用批量归一化(BN)[16],遵循 [16]。我们在 [13] 中初始化权重并从头开始训练所有普通/残差网络。我们使用 SGD,mini-batch 大小为 256。学习率从 0.1 开始,当误差平稳时除以 10,模型最多训练 60×104 次迭代。我们使用 0.0001 的权重衰减和 0.9 的动量。我们不使用 dropout [14],遵循 [16] 中的做法。

在测试中,对于比较研究,我们采用标准 10 作物测试 [21]。为了获得最佳结果,我们采用 [41, 13] 中的全卷积形式,并在多个尺度上平均得分(调整图像大小,使短边在 {224,256,384,480,640} 中)。

4. Experiments

普通网络。我们首先评估 18 层和 34 层普通网络。 34层素网如图3(中)。 18层平网也是类似的形式。 详细架构见表1

34 层plainnet 更高的验证错误

表 2 中的结果表明,较深的 34 层plainnet 比较浅的 18 层plainnet 具有更高的验证错误。

为了揭示原因,在图 4(左)中,我们比较了他们在训练过程中的训练/验证错误。我们观察到了退化问题——34 层普通网络在整个训练过程中具有更高的训练误差,即使 18 层普通网络的解空间是 34 层网络的子空间。

我们认为这种优化困难不太可能引起通过消失的梯度。这些普通网络使用 BN [16] 进行训练,确保前向传播信号具有非零方差。我们还验证了向后传播的梯度对BN表现出健康的规范。因此,前向或后向信号都不会消失。

34 层的普通网络仍然能够达到具有竞争力的精度

事实上,34 层的普通网络仍然能够达到具有竞争力的精度(表 3),这表明求解器在一定程度上是有效的。

34 层的普通网络收敛速度可能呈指数级低

我们推测深平面网络的收敛速度可能呈指数级低,这会影响训练误差的减少。这种优化困难的原因将在未来研究 . .我们已经尝试了更多的训练迭代 (3x) 并且仍然观察到退化问题,这表明这个问题不能通过简单地使用更多的迭代来解决

Residual Networks.

接下来我们评估 18 层和 34 层残差网络(ResNets)。 基线架构与上述普通网络相同,期望在每对 3×3 过滤器中添加一个快捷连接,如图 3(右)所示。 在第一个比较中(表 2 和图 4 右),我们对所有快捷方式使用恒等映射,对增加维度使用零填充(选项 A)。 因此,与普通对应物相比,它们没有额外的参数。

我们从表 2 和图 3 中得到了三个主要观察结果。 4. 首先,通过残差学习逆转了情况——34 层 ResNet 比 18 层 ResNet 好(2.8%)。 更重要的是,34 层 ResNet 表现出相当低的训练误差,并且可以推广到验证数据。 这表明在这种情况下退化问题得到了很好的解决,我们设法从增加的深度中获得了精度增益

其次,与普通对应物相比,34 层 ResNet 将 top-1 错误减少了 3.5%(表 2),这是由于成功减少了训练错误(图 4 右与左)。 这种比较验证了残差学习在极深系统上的有效性。

最后,我们还注意到 18 层普通/残差网络相当准确(表 2),但 18 层 ResNet 收敛速度更快(图 4 右与左)。 当网络“不太深”(这里是 18 层)时,当前的 SGD 求解器仍然可以找到普通网络的好解。 在这种情况下,ResNet 通过在早期提供更快的收敛来简化优化。

Identity vs. Projection Shortcuts

我们已经证明无参数的identity shortcuts有助于训练。 接下来我们研究projection shortcut(Eqn.(2))。

在表 3 中,我们比较了三个选项:

(A) 零填充快捷方式用于增加维度,并且所有快捷方式都是无参数的(与表 2 和图 4 右图相同);(B) projection 快捷方式用于增加维度,其他快捷方式是identity ;© 所有捷径都是projection 。

表 3 显示所有三个选项都比普通选项好得多。

B 略好于 A。我们认为这是因为 A 中的零填充维度确实没有残差学习。C 略好于 B,我们将此归因于许多(十三个)projection 快捷方式引入的额外参数。

但是 A/B/C 之间的微小差异表明projection 捷径对于解决退化问题并不是必不可少的。 所以我们在本文的其余部分不使用选项 C,以减少内存/时间复杂度和模型大小。identity 快捷方式对于不增加下面介绍的瓶颈架构的复杂性特别重要。

Deeper Bottleneck Architectures

接下来我们描述我们的 ImageNet 更深的网络。

由于训练时间的限制,我们将构建块修改为 Bottleneck 瓶颈设计。

对于每个残差函数 F,我们使用 3 层而不是 2 层的堆栈(图 5)。 这三层是 1×1、3×3 和 1×1 卷积,其中 1×1 层负责减少然后增加(恢复)维度,使 3×3 层成为输入/输出维度较小的瓶颈。 图 5 显示了一个示例,其中两种设计具有相似的时间复杂度

更深的非瓶颈 ResNet(例如,图 5 左)也从增加的深度中获得准确性(如 CIFAR-10 所示),但不如瓶颈 ResNet 经济。所以瓶颈设计的使用主要是出于实际考虑。 我们进一步注意到,瓶颈设计也见证了普通网络的退化问题。

无参数identity 快捷方式对于瓶颈架构尤其重要。 如果将图 5(右)中的恒等捷径替换为projection ,则可以表明时间复杂度和模型大小增加了一倍,因为捷径连接到两个高维端。 因此,identity 捷径为瓶颈设计带来了更有效的模型。

50-layer ResNet

我们用这个 3 层瓶颈块替换了 34 层网络中的每个 2 层块,从而产生了一个 50 层的 ResNet(表 1)。 我们使用选项 B 来增加维度。 这个模型有 38 亿次 FLOP。

101 层和 152 层 ResNets:我们通过使用更多的 3 层块来构建 101 层和 152 层 ResNets(表 1)。 值得注意的是,尽管深度显着增加,但 152 层 ResNet(113 亿 FLOP)的复杂度仍然低于 VGG-16/19 网络(15.3/196 亿 FLOP)

50/101/152 层的 ResNet 比 34 层的 ResNet 准确度高很多(表 3 和 4)。我们没有观察到退化问题,因此从显着增加的深度中获得了显着的准确度提升。 所有评估指标都见证了深度的好处(表 3 和 4)

Comparisons with State-of-the-art Methods

在表 4 中,我们与之前最好的单模型结果进行了比较。我们的基线 34 层 ResNets 已经达到了非常有竞争力的准确性。 我们的 152 层 ResNet 具有 4.49% 的单模型top-5验证错误。 这个单一模型的结果优于之前所有的集成结果(表 5)。 我们将六个不同深度的模型组合成一个集成(提交时只有两个152层的模型)。这导致测试集上的top-5错误为3.57%(表5)。这个条目获得了第一名 在 ILSVRC

4.2. CIFAR-10 and Analysis

我们专注于极深网络的行为,而不是推动最先进的结果,因此我们有意使用如下简单架构。

普通/残差架构遵循图 3(中/右)中的形式。 网络输入是 32×32 的图像,减去每个像素的平均值。 第一层是 3×3 卷积。 然后我们在大小为 {32,16,8} 的特征图上分别使用 3×3 卷积的 6n 层堆栈,每个特征图尺寸有 2n 层。 过滤器的数量分别为{16,32,64}。 子采样由步长为 2 的卷积执行。网络以全局平均池化、10 路全连接层和 softmax 结束。 总共有 6n+2 个堆叠的加权层。 下表总结了架构:

当使用快捷连接时,它们连接到成对的 3×3 层(总共 3n 个快捷方式)。在这个数据集上,我们在所有情况下都使用身份快捷方式(即选项 A),因此我们的残差模型与普通模型具有完全相同的深度、宽度和参数数量。

我们使用 0.0001 的权重衰减和 0.9 的动量,并采用 [13] 和 BN [16] 中的权重初始化,但没有 dropout。这些模型在两个 GPU 上以 128 的小批量大小进行训练。我们从 0.1 的学习率开始,在 32k 和 48k 次迭代时将其除以 10,并在 64k 次迭代时终止训练,这是在 45k/5k train/val split 上确定的。我们按照[24]中的简单数据增强进行训练:每边填充4个像素,从填充图像或其水平翻转中随机采样一个32×32的裁剪。为了测试,我们只评估原始 32×32 图像的单一视图。

我们比较={3,5,7,9},导致20、32、44和56层网络。图 6(左)显示了普通网络的行为。深度平原网络受到深度增加的影响,并且在更深时表现出更高的训练误差。这种现象类似于 ImageNet(图 4,左)和 MNIST(见 [42])上的现象,表明这种优化难度是一个基本问题。

图 6(中)显示了 ResNets 的行为。同样类似于 ImageNet 的情况(图 4,右),我们的 ResNets 设法克服了优化困难,并在深度增加时证明了准确性的提高

我们进一步探索 = 18 导致 110 层 ResNet。在这种情况下,我们发现 0.1 的初始学习率稍微太大而无法开始收敛 5。所以我们用0.01来预热训练,直到训练误差低于80%(大约400次迭代),然后回到0.1继续训练。学习计划的其余部分与以前一样。这个 110 层的网络收敛性很好(图 6,中)。它的参数比 FitNet [35] 和 Highway [42](表 6)等其他深而薄的网络更少,但属于最先进的结果(6.43%,表 6)

层响应分析

图 7 显示了层响应的标准偏差 (std)。 响应是每个 3×3 层的输出,在 BN 之后和其他非线性(ReLU/addition)之前。对于 ResNets,这个分析揭示了残差函数的响应强度。 图 7 显示 ResNet 的响应通常比普通的响应小。 这些结果支持了我们的基本动机(第 3.1 节),即残差函数可能通常比非残差函数更接近于零。 我们还注意到更深的 ResNet 具有更小的响应幅度,正如 ResNet 之间的比较所证明的 图 7 中的 -20、56 和 110。当有更多层时,ResNets 的单个层倾向于较少地修改信号

Exploring Over 1000 layers

我们探索了一个超过 1000 层的积极深度模型。我们设置 n=200 导致 1202 层网络,其训练如上所述。我们的方法没有显示优化难度,并且这个 103 层网络能够实现训练误差 <0.1%(图 6,右)。它的测试误差还是相当不错的(7.93%,表6)。

但是在这种激进的深度模型上仍然存在未解决的问题。这个 1202 层网络的测试结果比我们 110 层网络的测试结果差,尽管两者都有相似的训练误差。我们认为这是因为过度拟合。对于这个小数据集,1202 层网络可能不必要地大 (19.4M)。应用诸如 maxout [10] 或 dropout [14] 之类的强正则化来在此数据集上获得最佳结果 ([10, 25, 24, 35])。在本文中,我们没有使用 maxout/dropout,只是简单地通过设计的深和薄架构强加正则化,而不会分散对优化困难的关注。但是结合更强的正则化可能会改善结果,我们将在未来研究

4.3. Object Detection on PASCAL and MS COCO

我们采用Faster R-CNN[32]作为检测方法。 在这里,我们对用 ResNet-101 替换 VGG-16 [41] 的改进感兴趣。 使用两种模型的检测实现(见附录)是相同的,所以收益只能归因于更好的网络。

最值得注意的是,在具有挑战性的 COCO 数据集上,我们获得了 COCO 标准度量(mAP@[.5,.95])的 6.0% 增加,相对提高了 28%。 这个收益完全是由于学习到的表示。基于深度残差网络,我们在 ILSVRC & COCO 比赛中赢得了几个赛道的第一名:Im-ageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。