摘要:原始版本最早的卷積方式還沒(méi)有任何騷套路,那就也沒(méi)什么好說(shuō)的了。通過(guò)卷積核插的方式,它可以比普通的卷積獲得更大的感受野,這個(gè)的就介紹到這里。和前面不同的是,這個(gè)卷積是對(duì)特征維度作改進(jìn)的。
1.原始版本
最早的卷積方式還沒(méi)有任何騷套路,那就也沒(méi)什么好說(shuō)的了。
見(jiàn)下圖,原始的conv操作可以看做一個(gè)2D版本的無(wú)隱層神經(jīng)網(wǎng)絡(luò)。
附上一個(gè)卷積詳細(xì)流程:
【TensorFlow】tf.nn.conv2d是怎樣實(shí)現(xiàn)卷積的? - CSDN博客
代表模型:
LeNet:最早使用stack單卷積+單池化結(jié)構(gòu)的方式,卷積層來(lái)做特征提取,池化來(lái)做空間下采樣
AlexNet:后來(lái)發(fā)現(xiàn)單卷積提取到的特征不是很豐富,于是開(kāi)始stack多卷積+單池化的結(jié)構(gòu)
VGG([1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition):結(jié)構(gòu)沒(méi)怎么變,只是更深了
2.多隱層非線性版本
這個(gè)版本是一個(gè)較大的改進(jìn),融合了Network In Network的增加隱層提升非線性表達(dá)的思想,于是有了這種先用1*1的卷積映射到隱空間,再在隱空間做卷積的結(jié)構(gòu)。同時(shí)考慮了多尺度,在單層卷積層中用多個(gè)不同大小的卷積核來(lái)卷積,再把結(jié)果concat起來(lái)。
這一結(jié)構(gòu),被稱之為“Inception”
代表模型:
Inception-v1([1409.4842] Going Deeper with Convolutions):stack以上這種Inception結(jié)構(gòu)
Inception-v2(Accelerating Deep Network Training by Reducing Internal Covariate Shift):加了BatchNormalization正則,去除5*5卷積,用兩個(gè)3*3代替
Inception-v3([1512.00567] Rethinking the Inception Architecture for Computer Vision):7*7卷積又拆成7*1+1*7
Inception-v4([1602.07261] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning):加入了殘差結(jié)構(gòu)
3.空洞卷積
Dilation卷積,通常譯作空洞卷積或者卷積核膨脹操作,它是解決pixel-wise輸出模型的一種常用的卷積方式。一種普遍的認(rèn)識(shí)是,pooling下采樣操作導(dǎo)致的信息丟失是不可逆的,通常的分類識(shí)別模型,只需要預(yù)測(cè)每一類的概率,所以我們不需要考慮pooling會(huì)導(dǎo)致?lián)p失圖像細(xì)節(jié)信息的問(wèn)題,但是做像素級(jí)的預(yù)測(cè)時(shí)(譬如語(yǔ)義分割),就要考慮到這個(gè)問(wèn)題了。
所以就要有一種卷積代替pooling的作用(成倍的增加感受野),而空洞卷積就是為了做這個(gè)的。通過(guò)卷積核插“0”的方式,它可以比普通的卷積獲得更大的感受野,這個(gè)idea的motivation就介紹到這里。具體實(shí)現(xiàn)方法和原理可以參考如下鏈接:
如何理解空洞卷積(dilated convolution)?
膨脹卷積--Multi-scale context aggregation by dilated convolutions
我在博客里面又做了一個(gè)空洞卷積小demo方便大家理解
【Tensorflow】tf.nn.atrous_conv2d如何實(shí)現(xiàn)空洞卷積? - CSDN博客
代表模型:
FCN([1411.4038] Fully Convolutional Networks for Semantic Segmentation):Fully convolutional networks,顧名思義,整個(gè)網(wǎng)絡(luò)就只有卷積組成,在語(yǔ)義分割的任務(wù)中,因?yàn)榫矸e輸出的feature map是有spatial信息的,所以最后的全連接層全部替換成了卷積層。
Wavenet(WaveNet: A Generative Model for Raw Audio):用于語(yǔ)音合成。
4.深度可分離卷積
Depthwise Separable Convolution,目前已被CVPR2017收錄,這個(gè)工作可以說(shuō)是Inception的延續(xù),它是Inception結(jié)構(gòu)的極限版本。
為了更好的解釋,讓我們重新回顧一下Inception結(jié)構(gòu)(簡(jiǎn)化版本):
上面的簡(jiǎn)化版本,我們又可以看做,把一整個(gè)輸入做1*1卷積,然后切成三段,分別3*3卷積后相連,如下圖,這兩個(gè)形式是等價(jià)的,即Inception的簡(jiǎn)化版本又可以用如下形式表達(dá):
OK,現(xiàn)在我們想,如果不是分成三段,而是分成5段或者更多,那模型的表達(dá)能力是不是更強(qiáng)呢?于是我們就切更多段,切到不能再切了,正好是Output channels的數(shù)量(極限版本):
于是,就有了深度卷積(depthwise convolution),深度卷積是對(duì)輸入的每一個(gè)channel獨(dú)立的用對(duì)應(yīng)channel的所有卷積核去卷積,假設(shè)卷積核的shape是[filter_height, filter_width, in_channels, channel_multiplier],那么每個(gè)in_channel會(huì)輸出channel_multiplier那么多個(gè)通道,最后的feature map就會(huì)有in_channels * channel_multiplier個(gè)通道了。反觀普通的卷積,輸出的feature map一般就只有channel_multiplier那么多個(gè)通道。
具體的過(guò)程可參見(jiàn)我的demo:
【Tensorflow】tf.nn.depthwise_conv2d如何實(shí)現(xiàn)深度卷積? - CSDN博客
既然叫深度可分離卷積,光做depthwise convolution肯定是不夠的,原文在深度卷積后面又加了pointwise convolution,這個(gè)pointwise convolution就是1*1的卷積,可以看做是對(duì)那么多分離的通道做了個(gè)融合。
這兩個(gè)過(guò)程合起來(lái),就稱為Depthwise Separable Convolution了:
【Tensorflow】tf.nn.separable_conv2d如何實(shí)現(xiàn)深度可分卷積? - CSDN博客
代表模型:Xception(Xception: Deep Learning with Depthwise Separable Convolutions)
5.可變形卷積
可形變卷積的思想很巧妙:它認(rèn)為規(guī)則形狀的卷積核(比如一般用的正方形3*3卷積)可能會(huì)限制特征的提取,如果賦予卷積核形變的特性,讓網(wǎng)絡(luò)根據(jù)label反傳下來(lái)的誤差自動(dòng)的調(diào)整卷積核的形狀,適應(yīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注的感興趣的區(qū)域,就可以提取更好的特征。
如下圖:網(wǎng)絡(luò)會(huì)根據(jù)原位置(a),學(xué)習(xí)一個(gè)offset偏移量,得到新的卷積核(b)(c)(d),那么一些特殊情況就會(huì)成為這個(gè)更泛化的模型的特例,例如圖(c)表示從不同尺度物體的識(shí)別,圖(d)表示旋轉(zhuǎn)物體的識(shí)別。
這個(gè)idea的實(shí)現(xiàn)方法也很常規(guī):
上圖中包含兩處卷積,第一處是獲取offsets的卷積,即我們對(duì)input feature map做卷積,得到一個(gè)輸出(offset field),然后再在這個(gè)輸出上取對(duì)應(yīng)位置的一組值作為offsets。假設(shè)input feature map的shape為[batch,height,width,channels],我們指定輸出通道變成兩倍,卷積得到的offset field就是[batch,height,width,2×channels],為什么指定通道變成兩倍呢?因?yàn)槲覀冃枰谶@個(gè)offset field里面取一組卷積核的offsets,而一個(gè)offset肯定不能一個(gè)值就表示的,最少也要用兩個(gè)值(x方向上的偏移和y方向上的偏移)所以,如果我們的卷積核是3*3,那意味著我們需要3*3個(gè)offsets,一共需要2*3*3個(gè)值,取完了這些值,就可以順利使卷積核形變了。第二處就是使用變形的卷積核來(lái)卷積,這個(gè)比較常規(guī)。(這里還有一個(gè)用雙線性插值的方法獲取某一卷積形變后位置的輸入的過(guò)程)
這里有一個(gè)介紹性的Slide:http://prlab.tudelft.nl/sites/default/files/Deformable_CNN.pdf
代表模型:Deformable Convolutional Networks(Deformable Convolutional Networks):暫時(shí)還沒(méi)有其他模型使用這種卷積,期待后續(xù)會(huì)有更多的工作把這個(gè)idea和其他視覺(jué)任務(wù)比如檢測(cè),跟蹤相結(jié)合。
6.特征重標(biāo)定卷積
這是ImageNet 2017 競(jìng)賽 Image Classification 任務(wù)的冠軍模型SENet的核心模塊,原文叫做”Squeeze-and-Excitation“,我結(jié)合我的理解暫且把這個(gè)卷積稱作”特征重標(biāo)定卷積“。
和前面不同的是,這個(gè)卷積是對(duì)特征維度作改進(jìn)的。一個(gè)卷積層中往往有數(shù)以千計(jì)的卷積核,而且我們知道卷積核對(duì)應(yīng)了特征,于是乎那么多特征要怎么區(qū)分?這個(gè)方法就是通過(guò)學(xué)習(xí)的方式來(lái)自動(dòng)獲取到每個(gè)特征通道的重要程度,然后依照計(jì)算出來(lái)的重要程度去提升有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征。
這個(gè)想法的實(shí)現(xiàn)異常的簡(jiǎn)單,簡(jiǎn)單到你難以置信。
首先做普通的卷積,得到了一個(gè)的output feature map,它的shape為[C,H,W],根據(jù)paper的觀點(diǎn),這個(gè)feature map的特征很混亂。然后為了獲得重要性的評(píng)價(jià)指標(biāo),直接對(duì)這個(gè)feature map做一個(gè)Global Average Pooling,然后我們就得到了長(zhǎng)度為C的向量。(這里還涉及到一個(gè)額外的東西,如果你了解卷積,你就會(huì)發(fā)現(xiàn)一旦某一特征經(jīng)常被激活,那么Global Average Pooling計(jì)算出來(lái)的值會(huì)比較大,說(shuō)明它對(duì)結(jié)果的影響也比較大,反之越小的值,對(duì)結(jié)果的影響就越?。?/p>
然后我們對(duì)這個(gè)向量加兩個(gè)FC層,做非線性映射,這倆FC層的參數(shù),也就是網(wǎng)絡(luò)需要額外學(xué)習(xí)的參數(shù)。
最后輸出的向量,我們可以看做特征的重要性程度,然后與feature map對(duì)應(yīng)channel相乘就得到特征有序的feature map了。
雖然各大框架現(xiàn)在都還沒(méi)有擴(kuò)展這個(gè)卷積的api,但是我們實(shí)現(xiàn)它也就幾行代碼的事,可謂是簡(jiǎn)單且實(shí)用了。
另外它還可以和幾個(gè)主流網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合起來(lái)一起用,比如Inception和Res:
代表模型:Squeeze-and-Excitation Networks(Squeeze-and-Excitation Networks)
7.比較
我們把圖像(height,width)作為空間維度,把channels做為特征維度。
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/4632.html
摘要:目前每年全球有萬(wàn)人死于車禍,損失,相關(guān)于很多國(guó)家的,自動(dòng)駕駛可以很大效率的減少車禍,拯救生命。美國(guó)汽車工程師協(xié)會(huì)和美國(guó)高速公路安全局將自動(dòng)駕駛技術(shù)進(jìn)行了分級(jí)。特定場(chǎng)所的高度自動(dòng)駕駛。這叫基于規(guī)則的一種自動(dòng)駕駛,簡(jiǎn)單的。 來(lái)自 GitChat 作者:劉盼更多IT技術(shù)分享,盡在微信公眾號(hào):GitChat技術(shù)雜談 進(jìn)入 GitChat 閱讀原文我們先以汽車在現(xiàn)代科技領(lǐng)域的演進(jìn)來(lái)開(kāi)始這次的ch...
摘要:而加快推動(dòng)這一趨勢(shì)的,正是卷積神經(jīng)網(wǎng)絡(luò)得以雄起的大功臣。卷積神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)對(duì)的深深的質(zhì)疑是有原因的。據(jù)此,也斷言卷積神經(jīng)網(wǎng)絡(luò)注定是沒(méi)有前途的神經(jīng)膠囊的提出在批判不足的同時(shí),已然備好了解決方案,這就是我們即將討論的膠囊神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱。 本文作者 張玉宏2012年于電子科技大學(xué)獲計(jì)算機(jī)專業(yè)博士學(xué)位,2009~2011年美國(guó)西北大學(xué)聯(lián)合培養(yǎng)博士,現(xiàn)執(zhí)教于河南工業(yè)大學(xué),電子科技大學(xué)博士后。中國(guó)計(jì)...
摘要:目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類的目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)算法。原來(lái)多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè),低層的特征語(yǔ)義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語(yǔ)義信息比較豐富,但是目標(biāo)位置比較粗略。 目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:two stage的目標(biāo)檢測(cè)算法;one stage的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本...
摘要:卷積神經(jīng)網(wǎng)絡(luò)原理淺析卷積神經(jīng)網(wǎng)絡(luò),最初是為解決圖像識(shí)別等問(wèn)題設(shè)計(jì)的,當(dāng)然其現(xiàn)在的應(yīng)用不僅限于圖像和視頻,也可用于時(shí)間序列信號(hào),比如音頻信號(hào)文本數(shù)據(jù)等。卷積神經(jīng)網(wǎng)絡(luò)的概念最早出自世紀(jì)年代科學(xué)家提出的感受野。 卷積神經(jīng)網(wǎng)絡(luò)原理淺析 ?卷積神經(jīng)網(wǎng)絡(luò)(Convolutional?Neural?Network,CNN)最初是為解決圖像識(shí)別等問(wèn)題設(shè)計(jì)的,當(dāng)然其現(xiàn)在的應(yīng)用不僅限于圖像和視頻,也可用于時(shí)間序...
摘要:從到,計(jì)算機(jī)視覺(jué)領(lǐng)域和卷積神經(jīng)網(wǎng)絡(luò)每一次發(fā)展,都伴隨著代表性架構(gòu)取得歷史性的成績(jī)。在這篇文章中,我們將總結(jié)計(jì)算機(jī)視覺(jué)和卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要進(jìn)展,重點(diǎn)介紹過(guò)去年發(fā)表的重要論文并討論它們?yōu)槭裁粗匾?。這個(gè)表現(xiàn)不用說(shuō)震驚了整個(gè)計(jì)算機(jī)視覺(jué)界。 從AlexNet到ResNet,計(jì)算機(jī)視覺(jué)領(lǐng)域和卷積神經(jīng)網(wǎng)絡(luò)(CNN)每一次發(fā)展,都伴隨著代表性架構(gòu)取得歷史性的成績(jī)。作者回顧計(jì)算機(jī)視覺(jué)和CNN過(guò)去5年,總結(jié)...
閱讀 1690·2021-11-22 13:53
閱讀 2939·2021-11-15 18:10
閱讀 2842·2021-09-23 11:21
閱讀 2568·2019-08-30 15:55
閱讀 546·2019-08-30 13:02
閱讀 823·2019-08-29 17:22
閱讀 1779·2019-08-29 13:56
閱讀 3506·2019-08-29 11:31