CNN中千奇百怪的卷積方式大匯總

elliott_hu 發(fā)布于2019-04-25 18:18 / 1206人閱讀

摘要：原始版本最早的卷積方式還沒(méi)有任何騷套路，那就也沒(méi)什么好說(shuō)的了。通過(guò)卷積核插的方式，它可以比普通的卷積獲得更大的感受野，這個(gè)的就介紹到這里。和前面不同的是，這個(gè)卷積是對(duì)特征維度作改進(jìn)的。

1.原始版本

最早的卷積方式還沒(méi)有任何騷套路，那就也沒(méi)什么好說(shuō)的了。

見(jiàn)下圖，原始的conv操作可以看做一個(gè)2D版本的無(wú)隱層神經(jīng)網(wǎng)絡(luò)。

附上一個(gè)卷積詳細(xì)流程：

【TensorFlow】tf.nn.conv2d是怎樣實(shí)現(xiàn)卷積的？ - CSDN博客

代表模型：

LeNet：最早使用stack單卷積+單池化結(jié)構(gòu)的方式，卷積層來(lái)做特征提取，池化來(lái)做空間下采樣

AlexNet：后來(lái)發(fā)現(xiàn)單卷積提取到的特征不是很豐富，于是開(kāi)始stack多卷積+單池化的結(jié)構(gòu)

VGG（[1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition）：結(jié)構(gòu)沒(méi)怎么變，只是更深了

2.多隱層非線性版本

這個(gè)版本是一個(gè)較大的改進(jìn)，融合了Network In Network的增加隱層提升非線性表達(dá)的思想，于是有了這種先用1*1的卷積映射到隱空間，再在隱空間做卷積的結(jié)構(gòu)。同時(shí)考慮了多尺度，在單層卷積層中用多個(gè)不同大小的卷積核來(lái)卷積，再把結(jié)果concat起來(lái)。

這一結(jié)構(gòu)，被稱之為“Inception”

代表模型：

Inception-v1（[1409.4842] Going Deeper with Convolutions）：stack以上這種Inception結(jié)構(gòu)

Inception-v2（Accelerating Deep Network Training by Reducing Internal Covariate Shift）：加了BatchNormalization正則，去除5*5卷積，用兩個(gè)3*3代替

Inception-v3（[1512.00567] Rethinking the Inception Architecture for Computer Vision）：7*7卷積又拆成7*1+1*7

Inception-v4（[1602.07261] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning）：加入了殘差結(jié)構(gòu)

3.空洞卷積

Dilation卷積，通常譯作空洞卷積或者卷積核膨脹操作，它是解決pixel-wise輸出模型的一種常用的卷積方式。一種普遍的認(rèn)識(shí)是，pooling下采樣操作導(dǎo)致的信息丟失是不可逆的，通常的分類識(shí)別模型，只需要預(yù)測(cè)每一類的概率，所以我們不需要考慮pooling會(huì)導(dǎo)致?lián)p失圖像細(xì)節(jié)信息的問(wèn)題，但是做像素級(jí)的預(yù)測(cè)時(shí)（譬如語(yǔ)義分割），就要考慮到這個(gè)問(wèn)題了。

所以就要有一種卷積代替pooling的作用（成倍的增加感受野），而空洞卷積就是為了做這個(gè)的。通過(guò)卷積核插“0”的方式，它可以比普通的卷積獲得更大的感受野，這個(gè)idea的motivation就介紹到這里。具體實(shí)現(xiàn)方法和原理可以參考如下鏈接：

如何理解空洞卷積（dilated convolution）？

膨脹卷積--Multi-scale context aggregation by dilated convolutions

我在博客里面又做了一個(gè)空洞卷積小demo方便大家理解

【Tensorflow】tf.nn.atrous_conv2d如何實(shí)現(xiàn)空洞卷積？ - CSDN博客

代表模型：

FCN（[1411.4038] Fully Convolutional Networks for Semantic Segmentation）：Fully convolutional networks，顧名思義，整個(gè)網(wǎng)絡(luò)就只有卷積組成，在語(yǔ)義分割的任務(wù)中，因?yàn)榫矸e輸出的feature map是有spatial信息的，所以最后的全連接層全部替換成了卷積層。

Wavenet（WaveNet: A Generative Model for Raw Audio）：用于語(yǔ)音合成。

4.深度可分離卷積

Depthwise Separable Convolution，目前已被CVPR2017收錄，這個(gè)工作可以說(shuō)是Inception的延續(xù)，它是Inception結(jié)構(gòu)的極限版本。

為了更好的解釋，讓我們重新回顧一下Inception結(jié)構(gòu)（簡(jiǎn)化版本）：

上面的簡(jiǎn)化版本，我們又可以看做，把一整個(gè)輸入做1*1卷積，然后切成三段，分別3*3卷積后相連，如下圖，這兩個(gè)形式是等價(jià)的，即Inception的簡(jiǎn)化版本又可以用如下形式表達(dá)：

OK，現(xiàn)在我們想，如果不是分成三段，而是分成5段或者更多，那模型的表達(dá)能力是不是更強(qiáng)呢？于是我們就切更多段，切到不能再切了，正好是Output channels的數(shù)量（極限版本）：

于是，就有了深度卷積（depthwise convolution），深度卷積是對(duì)輸入的每一個(gè)channel獨(dú)立的用對(duì)應(yīng)channel的所有卷積核去卷積，假設(shè)卷積核的shape是[filter_height, filter_width, in_channels, channel_multiplier]，那么每個(gè)in_channel會(huì)輸出channel_multiplier那么多個(gè)通道，最后的feature map就會(huì)有in_channels * channel_multiplier個(gè)通道了。反觀普通的卷積，輸出的feature map一般就只有channel_multiplier那么多個(gè)通道。

具體的過(guò)程可參見(jiàn)我的demo：

【Tensorflow】tf.nn.depthwise_conv2d如何實(shí)現(xiàn)深度卷積? - CSDN博客

既然叫深度可分離卷積，光做depthwise convolution肯定是不夠的，原文在深度卷積后面又加了pointwise convolution，這個(gè)pointwise convolution就是1*1的卷積，可以看做是對(duì)那么多分離的通道做了個(gè)融合。

這兩個(gè)過(guò)程合起來(lái)，就稱為Depthwise Separable Convolution了：

【Tensorflow】tf.nn.separable_conv2d如何實(shí)現(xiàn)深度可分卷積? - CSDN博客

代表模型：Xception（Xception: Deep Learning with Depthwise Separable Convolutions）

5.可變形卷積

可形變卷積的思想很巧妙：它認(rèn)為規(guī)則形狀的卷積核（比如一般用的正方形3*3卷積）可能會(huì)限制特征的提取，如果賦予卷積核形變的特性，讓網(wǎng)絡(luò)根據(jù)label反傳下來(lái)的誤差自動(dòng)的調(diào)整卷積核的形狀，適應(yīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注的感興趣的區(qū)域，就可以提取更好的特征。

如下圖：網(wǎng)絡(luò)會(huì)根據(jù)原位置（a），學(xué)習(xí)一個(gè)offset偏移量，得到新的卷積核（b）（c）（d），那么一些特殊情況就會(huì)成為這個(gè)更泛化的模型的特例，例如圖（c）表示從不同尺度物體的識(shí)別，圖（d）表示旋轉(zhuǎn)物體的識(shí)別。

這個(gè)idea的實(shí)現(xiàn)方法也很常規(guī)：

上圖中包含兩處卷積，第一處是獲取offsets的卷積，即我們對(duì)input feature map做卷積，得到一個(gè)輸出（offset field），然后再在這個(gè)輸出上取對(duì)應(yīng)位置的一組值作為offsets。假設(shè)input feature map的shape為[batch，height，width，channels]，我們指定輸出通道變成兩倍，卷積得到的offset field就是[batch，height，width，2×channels]，為什么指定通道變成兩倍呢？因?yàn)槲覀冃枰谶@個(gè)offset field里面取一組卷積核的offsets，而一個(gè)offset肯定不能一個(gè)值就表示的，最少也要用兩個(gè)值（x方向上的偏移和y方向上的偏移）所以，如果我們的卷積核是3*3，那意味著我們需要3*3個(gè)offsets，一共需要2*3*3個(gè)值，取完了這些值，就可以順利使卷積核形變了。第二處就是使用變形的卷積核來(lái)卷積，這個(gè)比較常規(guī)。（這里還有一個(gè)用雙線性插值的方法獲取某一卷積形變后位置的輸入的過(guò)程）

這里有一個(gè)介紹性的Slide：http://prlab.tudelft.nl/sites/default/files/Deformable_CNN.pdf

代表模型：Deformable Convolutional Networks（Deformable Convolutional Networks）：暫時(shí)還沒(méi)有其他模型使用這種卷積，期待后續(xù)會(huì)有更多的工作把這個(gè)idea和其他視覺(jué)任務(wù)比如檢測(cè)，跟蹤相結(jié)合。

6.特征重標(biāo)定卷積

這是ImageNet 2017 競(jìng)賽 Image Classification 任務(wù)的冠軍模型SENet的核心模塊，原文叫做”Squeeze-and-Excitation“，我結(jié)合我的理解暫且把這個(gè)卷積稱作”特征重標(biāo)定卷積“。

和前面不同的是，這個(gè)卷積是對(duì)特征維度作改進(jìn)的。一個(gè)卷積層中往往有數(shù)以千計(jì)的卷積核，而且我們知道卷積核對(duì)應(yīng)了特征，于是乎那么多特征要怎么區(qū)分？這個(gè)方法就是通過(guò)學(xué)習(xí)的方式來(lái)自動(dòng)獲取到每個(gè)特征通道的重要程度，然后依照計(jì)算出來(lái)的重要程度去提升有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征。

這個(gè)想法的實(shí)現(xiàn)異常的簡(jiǎn)單，簡(jiǎn)單到你難以置信。

首先做普通的卷積，得到了一個(gè)的output feature map，它的shape為[C，H，W]，根據(jù)paper的觀點(diǎn)，這個(gè)feature map的特征很混亂。然后為了獲得重要性的評(píng)價(jià)指標(biāo)，直接對(duì)這個(gè)feature map做一個(gè)Global Average Pooling，然后我們就得到了長(zhǎng)度為C的向量。（這里還涉及到一個(gè)額外的東西，如果你了解卷積，你就會(huì)發(fā)現(xiàn)一旦某一特征經(jīng)常被激活，那么Global Average Pooling計(jì)算出來(lái)的值會(huì)比較大，說(shuō)明它對(duì)結(jié)果的影響也比較大，反之越小的值，對(duì)結(jié)果的影響就越?。?/p>

然后我們對(duì)這個(gè)向量加兩個(gè)FC層，做非線性映射，這倆FC層的參數(shù)，也就是網(wǎng)絡(luò)需要額外學(xué)習(xí)的參數(shù)。

最后輸出的向量，我們可以看做特征的重要性程度，然后與feature map對(duì)應(yīng)channel相乘就得到特征有序的feature map了。

雖然各大框架現(xiàn)在都還沒(méi)有擴(kuò)展這個(gè)卷積的api，但是我們實(shí)現(xiàn)它也就幾行代碼的事，可謂是簡(jiǎn)單且實(shí)用了。

另外它還可以和幾個(gè)主流網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合起來(lái)一起用，比如Inception和Res：