摘要:隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法,如和。子網(wǎng)絡(luò)由多個(gè)卷積層組成,而子網(wǎng)絡(luò)由幾個(gè)完全連接層組成。結(jié)論總而言之,模型用信號(hào)分析的角度為我們剖析了卷積神經(jīng)網(wǎng)絡(luò)。
隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(CNN)的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法,如 SIFT 和 SURF。在計(jì)算機(jī)視覺領(lǐng)域,學(xué)者們開始將研究重點(diǎn)轉(zhuǎn)移到 CNN,并相信 CNN 是這一領(lǐng)域的未來趨勢(shì)。但是,人們對(duì)成效卓著的 CNN 背后的機(jī)理卻缺乏了解。研究 CNN 的運(yùn)行機(jī)理是當(dāng)今一個(gè)熱門話題。基本上,有三種主流觀點(diǎn):1>優(yōu)化、2>近似、3>信號(hào)。前兩種觀點(diǎn)主要集中在純數(shù)學(xué)分析,它們?cè)噲D分析神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)屬性和收斂性,而第三種觀點(diǎn)信號(hào)嘗試解決以下問題:1)為什么非線性激活函數(shù)(activation function)對(duì)所有中間層的過濾式輸出(filter output)是必不可少的?2)雙層級(jí)聯(lián)系統(tǒng)(two-layer cascade system)比單層系統(tǒng)的優(yōu)勢(shì)在哪里?
球面修正相關(guān)性(REctified COrrelations on a Sphere/RECOS)
眾所周知,前饋神經(jīng)網(wǎng)絡(luò)(FNN)可以被看作是一個(gè)萬能的近似器,在給定包含有限數(shù)量神經(jīng)元的單個(gè)隱藏層的情況下,它能夠近似任何連續(xù)的函數(shù)。FNN 的特殊之處在于神經(jīng)元的非線性激活函數(shù)。有的神經(jīng)網(wǎng)絡(luò)龐大且深度,但如果離開非線性激活函數(shù),它們的復(fù)雜架構(gòu)的效果與一個(gè)簡(jiǎn)單的單層線性模型沒什么不同,都是將輸入映射到另一個(gè)輸出空間。具體來說,非線性激活函數(shù)學(xué)習(xí)到的輸入的表征集合更適合解決實(shí)際問題。
CNN 只是 FNN 或 MLP(多層感知器/perceptron)的另一種類型。為了分析 CNN 的非線性,作者提出了一個(gè)數(shù)學(xué)模型來理解 CNN 的行為。在模型中,CNN 被視為由基本操作單元組成的一個(gè)網(wǎng)絡(luò),它們計(jì)算「球面修正相關(guān)(RECOS)」。因此,它被稱為 RECOS 模型。在 CNN 訓(xùn)練期間,首先初始化核權(quán)重,然后通過梯度下降法(gradient descent)和反向傳播(back propagation)算法進(jìn)行調(diào)整。在 RECOS 模型中,權(quán)重被稱為錨向量(anchor vector),以表示它們?cè)诰垲愝斎霐?shù)據(jù)中的作用。也就是說,我們?cè)噲D計(jì)算輸入向量和錨向量之間的相關(guān)性,然后測(cè)量其相似度。
為什么用非線性激活函數(shù)?
與 MLP 僅用 1 步考慮所有像素的交互作用不同,CNN 將輸入圖像分解成較小的圖像塊(patch),在某些層中又被稱為節(jié)點(diǎn)的感受域(receptive field)。算法逐漸擴(kuò)大感受域的范圍以覆蓋更大的圖像。神經(jīng)元計(jì)算輸入向量與其錨向量之間的相關(guān)性,以測(cè)量它們的相似度。每個(gè) RECOS 單元中有 K 個(gè)神經(jīng)元。我們將模型表示為 Y = AX,其中 X 是輸入向量,Y 是輸出向量,A 是我們的錨向量(核過濾器(kernel filter)的權(quán)重矩陣)。這個(gè)方程表示 CNN 將輸入映射到另一個(gè)空間。通過研究 RECOS 模型,我們可以立即得出結(jié)論:學(xué)習(xí)到的核權(quán)重傾向于將相似的對(duì)象映射到同一個(gè)區(qū)域。例如,如果 x_i 與 x_j 的歐式距離相近,則相應(yīng)的輸出 y_i 和 y_j 在新空間中也必須相近。對(duì)于用于捕獲貓的特征的過濾器,學(xué)習(xí)到的錨向量 A 將所有代表貓?zhí)卣鞯南蛄?X_cat 映射為 Y_cat,而其它代表狗特征的向量 X_dog 或代表車特征的向量 X_car 將永遠(yuǎn)不會(huì)出現(xiàn)在這個(gè)區(qū)域。這就是 CNN 能夠有效識(shí)別不同對(duì)象的原因。
但為什么我們必須使用非線性激活函數(shù)?考慮上面兩幅圖像:(左)原始的貓圖像,(右)左圖像的負(fù)片。從人的角度判斷,這兩個(gè)圖像可以是一樣的,但也可以是不同的。我們可以得出結(jié)論,兩幅圖中的貓是相同的貓,并且它們是負(fù)相關(guān)的。因?yàn)楹谪堉皇峭ㄟ^從白貓圖像的像素值減去 255 來獲得。那么 CNN 如何理解這兩只貓呢?
從上圖中,我們可以看到使用非線性激活函數(shù)的必要性。X 是輸入向量,a_1、a_2 和 a_3 是學(xué)習(xí)到的不同的錨向量。在 RECOS 模型中,線性運(yùn)算 Y = AX 用于測(cè)量輸入向量和錨向量之間相似度。因此,對(duì)于錨向量 a_1 和 a_3,可以看到 x 與兩個(gè)錨向量之間的相似度在幅度上是相同的,但是符號(hào)相反。此時(shí),對(duì)于 CNN 來說貓是不同的。但是例如在有兩個(gè)卷積層的 LeNet5 中,當(dāng)原始輸入 x 通過兩層之后,最終的輸出結(jié)果將會(huì)被混淆:以下兩種情況不能被沒有非線性激活函數(shù)的系統(tǒng)正確區(qū)分:1)第一層的正響應(yīng)遇到第二層的負(fù)過濾權(quán)重;和 2)第一層的負(fù)響應(yīng)遇到第二層的正過濾權(quán)重。然而,通過使用非線性激活函數(shù),CNN 可以很容易地排除負(fù)值的影響,從而得到魯棒的系統(tǒng)。
此外,作者還進(jìn)行了一個(gè)有趣的實(shí)驗(yàn),結(jié)果如下:
我們用 MNIST 訓(xùn)練集訓(xùn)練了 LeNet-5 網(wǎng)絡(luò),在 MNIST 測(cè)試集上得到了 98.94% 的正確識(shí)別率。然后,我們將這個(gè) LeNet-5 網(wǎng)絡(luò)應(yīng)用于如圖 5 所示的灰度反轉(zhuǎn)的測(cè)試圖像。準(zhǔn)確率下降為 37.36%。接下來,我們將 conv1 中的所有過濾權(quán)重改為負(fù)值,同時(shí)保持網(wǎng)絡(luò)的其余部分不變。經(jīng)過微修改的 LeNet-5 網(wǎng)絡(luò)對(duì)灰度反轉(zhuǎn)測(cè)試集的正確識(shí)別率為 98.94%,而原始測(cè)試集的準(zhǔn)確率下降為 37.36%。
可以看到,改變第一個(gè)卷積層中的所有過濾權(quán)重將得到對(duì)稱的結(jié)果。該結(jié)果表明,引入激活函數(shù)將消除負(fù)相關(guān)關(guān)系,若我們?cè)趯W(xué)習(xí)灰度反轉(zhuǎn)圖像的特征時(shí)不僅保留學(xué)習(xí)原圖像的錨向量同時(shí)加入灰度翻轉(zhuǎn)圖像的錨向量,則對(duì)兩個(gè)測(cè)試集均能夠達(dá)到高識(shí)別效果。
級(jí)聯(lián)層的優(yōu)勢(shì)是什么?
通常來講,隨著 CNN 層數(shù)的深入,核函數(shù)會(huì)試圖基于所有之前核函數(shù)的輸出來構(gòu)建自己的抽象特征。所以相比淺層,深層可以捕捉全局語義和高級(jí)特征。在 RECOS 模型中,CNN 利用與測(cè)量相似度類似的一系列非線性變換來逐層聚類相似的輸入數(shù)據(jù)。輸出層預(yù)測(cè)所有可能決策(如,對(duì)象的類)的似然值。訓(xùn)練樣本含有圖像與其決策標(biāo)簽之間的關(guān)系,并能夠幫助 CNN 生成更適合的錨向量(從而形成更好的聚類),最終將聚類數(shù)據(jù)與決策標(biāo)簽聯(lián)系起來。
上圖顯示了深度網(wǎng)絡(luò)的有效性,實(shí)驗(yàn)細(xì)節(jié)如下:
我們用一個(gè)例子來說明這一點(diǎn)。首先,我們通過在 MNIST 數(shù)據(jù)集的原始手寫數(shù)字上隨機(jī)添加 10 個(gè)不同的背景來修改 MNIST 的訓(xùn)練集和測(cè)試集。對(duì)上面的三行圖像,每行最左邊的列顯示 3 個(gè)數(shù)字圖像輸入,中間列是分別來自卷積層和 ReLU 層的 6 個(gè)譜圖像(spectral image)輸出,最右邊兩列是分別來自卷積層和 ReLU 層的 16 個(gè)譜圖像輸出。由于背景的多樣性,難以為第一層找到的良好的錨向量矩陣。然而,這些圖像的背景在空間域中是不一致的,而它們的前景數(shù)字是一致的。
對(duì)于不同的變形背景,CNN 成功地捕捉到了代表性模式。值得注意的是,第一層含有很多冗余和無關(guān)的信息,通過在級(jí)聯(lián)層運(yùn)用特征提取,CNN 學(xué)習(xí)到了全局樣式而不是局部細(xì)節(jié)。也就是說,對(duì)于輸入向量 x,RECOS 變換產(chǎn)生一組 K 個(gè)非負(fù)相關(guān)值作為 K 維度的輸出向量。這種方式實(shí)現(xiàn)了逐層重復(fù)聚類。最后,訓(xùn)練圖像的標(biāo)簽幫助 CNN 在不同背景的圖像中找到相同的模式。
從上面的分析可以看出,卷積層模型對(duì)于自動(dòng)選擇特征是很有用的。它能在沒有人工干預(yù)的情況下測(cè)量輸入數(shù)據(jù)的相似性并將其聚類到不同區(qū)域。
那么完全連接層的作用是什么?
通常 CNN 被分解為兩個(gè)子網(wǎng)絡(luò):特征提?。‵E)子網(wǎng)絡(luò)和決策(DM)子網(wǎng)絡(luò)。FE 子網(wǎng)絡(luò)由多個(gè)卷積層組成,而 DM 子網(wǎng)絡(luò)由幾個(gè)完全連接層組成。簡(jiǎn)而言之,F(xiàn)E 子網(wǎng)絡(luò)通過一系列 RECOS 變換以形成用于聚類的新表征。DM 子網(wǎng)絡(luò)將數(shù)據(jù)表征與決策標(biāo)簽聯(lián)系起來,它的作用與 MLP 的分類作用類似。
到這里我們可以得出結(jié)論,CNN 比計(jì)算機(jī)視覺中經(jīng)典的機(jī)器學(xué)習(xí)算法要好得多。因?yàn)?CNN 可以自動(dòng)提取特征并且基于這些特征學(xué)習(xí)分類輸入數(shù)據(jù),而隨機(jī)森林(RF)和支持向量機(jī)(SVM)則非常依賴于特征工程,而這種特征工程往往很難操作。
結(jié)論
總而言之,RECOS 模型用信號(hào)分析的角度為我們剖析了卷積神經(jīng)網(wǎng)絡(luò)。從這個(gè)角度來看,我們可以看到激活函數(shù)和深度架構(gòu)的有效性。然而,以下幾個(gè)方面仍需要重點(diǎn)研究:網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、弱監(jiān)督學(xué)習(xí)、對(duì)錯(cuò)誤標(biāo)簽的魯棒性、數(shù)據(jù)集偏差和過擬合問題等。?
論文:Understanding Convolutional Neural Networks with A Mathematical Model
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/4538.html
摘要:本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識(shí)別圖形圖像的基本原理。卷積神經(jīng)網(wǎng)絡(luò)與圖像理解卷積神經(jīng)網(wǎng)絡(luò)通常被用來張量形式的輸入,例如一張彩色圖象對(duì)應(yīng)三個(gè)二維矩陣,分別表示在三個(gè)顏色通道的像素強(qiáng)度。 本文將詳細(xì)解析深度神經(jīng)網(wǎng)絡(luò)識(shí)別圖形圖像的基本原理。針對(duì)卷積神經(jīng)網(wǎng)絡(luò),本文將詳細(xì)探討網(wǎng)絡(luò) 中每一層在圖像識(shí)別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),...
摘要:深度學(xué)習(xí)方法是否已經(jīng)強(qiáng)大到可以使科學(xué)分析任務(wù)產(chǎn)生最前沿的表現(xiàn)在這篇文章中我們介紹了從不同科學(xué)領(lǐng)域中選擇的一系列案例,來展示深度學(xué)習(xí)方法有能力促進(jìn)科學(xué)發(fā)現(xiàn)。 深度學(xué)習(xí)在很多商業(yè)應(yīng)用中取得了前所未有的成功。大約十年以前,很少有從業(yè)者可以預(yù)測(cè)到深度學(xué)習(xí)驅(qū)動(dòng)的系統(tǒng)可以在計(jì)算機(jī)視覺和語音識(shí)別領(lǐng)域超過人類水平。在勞倫斯伯克利國家實(shí)驗(yàn)室(LBNL)里,我們面臨著科學(xué)領(lǐng)域中最具挑戰(zhàn)性的數(shù)據(jù)分析問題。雖然商業(yè)...
摘要:第二部分高級(jí)概念我們現(xiàn)在對(duì)卷積有了一個(gè)良好的初步認(rèn)識(shí),也知道了卷積神經(jīng)網(wǎng)絡(luò)在干什么為什么它如此強(qiáng)大。 譯自Tim Dettmers的Understanding Convolution in Deep Learning。有太多的公開課、教程在反復(fù)傳頌卷積神經(jīng)網(wǎng)絡(luò)的好,卻都沒有講什么是卷積,似乎默認(rèn)所有讀者都有相關(guān)基礎(chǔ)。這篇外文既友好又深入,所以翻譯了過來。文章高級(jí)部分通過流體力學(xué)量子力學(xué)等解釋...
摘要:文章第一部分旨在幫助讀者理解卷積的概念和深度學(xué)習(xí)中的卷積網(wǎng)絡(luò)。卷積定理要理解卷積,不得不提,它將時(shí)域和空域上的復(fù)雜卷積對(duì)應(yīng)到了頻域中的元素間簡(jiǎn)單的乘積。 譯者按:本文譯自 Tim Dettmers 的 Understanding Convolution in Deep Learning。有太多的公開課、教程在反復(fù)傳頌卷積神經(jīng)網(wǎng)絡(luò)的好,卻都沒有講什么是「卷積」,似乎默認(rèn)所有讀者都有相關(guān)基礎(chǔ)。這...
閱讀 4014·2021-11-17 09:33
閱讀 1319·2021-10-09 09:44
閱讀 476·2019-08-30 13:59
閱讀 3644·2019-08-30 11:26
閱讀 2263·2019-08-29 16:56
閱讀 2931·2019-08-29 14:22
閱讀 3223·2019-08-29 12:11
閱讀 1373·2019-08-29 10:58