写于2021-01-12

深度学习

7 分钟读完 (大约 1031 个字)

从CNN到UNet

1 FCN改变了什么？

对于一般的分类CNN网络，如VGG和Resnet，都会在网络的最后加入一些全连接层，经过softmax后就可以获得类别概率信息。但是这个概率信息是1维的，即只能标识整个图片的类别，不能标识每个像素点的类别，所以这种全连接方法不适用于图像分割。

图3 全连接层

而FCN提出可以把后面几个全连接都换成卷积，这样就可以获得一张2维的feature map，后接softmax获得每个像素点的分类信息，从而解决了分割问题，如图4。

全连接层到卷积层

图4

2 FCN结构

整个FCN网络基本原理如图5（只是原理示意图）：

image经过多个conv和+一个max pooling变为pool1 feature，宽高变为1/2
pool1 feature再经过多个conv+一个max pooling变为pool2 feature，宽高变为1/4
pool2 feature再经过多个conv+一个max pooling变为pool3 feature，宽高变为1/8
……
直到pool5 feature，宽高变为1/32。

图5 FCN网络结构示意图

那么：

对于FCN-32s，直接对pool5 feature进行32倍上采样获得32x upsampled feature，再对32x upsampled feature每个点做softmax prediction获得32x upsampled feature prediction（即分割图）。
对于FCN-16s，首先对pool5 feature进行2倍上采样获得2x upsampled feature，再把pool4 feature和2x upsampled feature逐点相加，然后对相加的feature进行16倍上采样，并softmax prediction，获得16x upsampled feature prediction。
对于FCN-8s，首先进行pool4+2x upsampled feature逐点相加，然后又进行pool3+2x upsampled逐点相加，即进行更多次特征融合。具体过程与16s类似，不再赘述。

作者在原文种给出3种网络结果对比，明显可以看出效果：FCN-32s < FCN-16s < FCN-8s，即使用多层feature融合有利于提高分割准确性。

图5.1

3 什么是上采样？

说了半天，到底什么是上采样？

实际上，上采样（upsampling）一般包括2种方式：

Resize，如双线性插值直接缩放，类似于图像缩放（这种方法在原文中提到）
Deconvolution，也叫Transposed Convolution

什么是Resize就不多说了，这里解释一下Deconvolution。

对于一般卷积，输入蓝色4x4矩阵，卷积核大小3x3。当设置卷积参数pad=0，stride=1时，卷积输出绿色2x2矩阵，如图6。

图6 Convolution forward示意图

而对于反卷积，相当于把普通卷积反过来，输入蓝色2x2矩阵（周围填0变成6x6），卷积核大小还是3x3。当设置反卷积参数pad=0，stride=1时输出绿色4x4矩阵，如图7，这相当于完全将图4倒过来（其他更多卷积示意图点这里）。

图7 Deconvolution forward示意图

传统的网络是subsampling的，对应的输出尺寸会降低；upsampling的意义在于将小尺寸的高维度feature map恢复回去，以便做pixelwise prediction，获得每个点的分类信息。

图8 Subsampling vs Upsampling

上采样在FCN网络中的作用如图8，明显可以看到经过上采样后恢复了较大的pixelwise feature map（其中最后一个层21-dim是因为PACSAL数据集有20个类别+Background）。这其实相当于一个Encode-Decode的过程。

$$ —- \mathcal{End} —- $$

# U-net, 卷积神经网络

微信

Paypal Patreon

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now