成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

CNN超參數(shù)優(yōu)化和可視化技巧詳解

Fundebug / 1200人閱讀

摘要:在計算機視覺領域,對卷積神經(jīng)網(wǎng)絡簡稱為的研究和應用都取得了顯著的成果。文章討論了在卷積神經(jīng)網(wǎng)絡中,該如何調(diào)整超參數(shù)以及可視化卷積層。卷積神經(jīng)網(wǎng)絡可以完成這項任務。

在深度學習中,有許多不同的深度網(wǎng)絡結構,包括卷積神經(jīng)網(wǎng)絡(CNN或convnet)、長短期記憶網(wǎng)絡(LSTM)和生成對抗網(wǎng)絡(GAN)等。

在計算機視覺領域,對卷積神經(jīng)網(wǎng)絡(簡稱為CNN)的研究和應用都取得了顯著的成果。CNN網(wǎng)絡最初的誕生收到了動物視覺神經(jīng)機制的啟發(fā),目前已成功用于機器視覺等領域中。

技術博客Towards Data Science最近發(fā)布了一篇文章,作者Suki Lau。文章討論了在卷積神經(jīng)網(wǎng)絡中,該如何調(diào)整超參數(shù)以及可視化卷積層。

為什么用卷積神經(jīng)網(wǎng)絡?

首先,我們想要計算機具有什么能力呢?

當我們看到一只貓?zhí)洗芭_或在沙發(fā)上睡覺時,我們的潛意識會認出它是一只貓。

我們希望計算機也能完成這項任務,即將圖像輸入后,找出其獨有的特征,最終輸出該圖像的類別信息。

卷積神經(jīng)網(wǎng)絡可以完成這項任務。

何為卷積神經(jīng)網(wǎng)絡?

先談定義,卷積神經(jīng)網(wǎng)絡是一種特殊的神經(jīng)網(wǎng)絡,其中至少包含一個卷積層。在典型的CNN網(wǎng)絡結構中,輸入一張圖像,經(jīng)由一系列卷積層、非線性激活層、池化層和全連接層后,可輸出相應的類別標簽。

卷積神經(jīng)網(wǎng)絡的特別之處在于加入了卷積層。

在經(jīng)典的神經(jīng)網(wǎng)絡中,整張圖片會被傳入網(wǎng)絡中來訓練各網(wǎng)絡層權值。當輸入為簡單居中的圖像時,如Mnist手寫數(shù)字圖,網(wǎng)絡識別效果較優(yōu),但是當輸入變?yōu)楦鼮閺碗s多變的圖像時,如跳上窗戶的小貓,此時網(wǎng)絡識別效果不佳甚至無法辨識。

加入更多隱含層學習輸入圖像的抽象特征,可能會有所幫助,但是這樣會增加神經(jīng)元的數(shù)目,大大增加訓練所需的計算資源和占用過多的內(nèi)存,這是不切實際的。

而CNN識別目標的過程,是先尋找諸如邊緣、線段和曲線等相關低級特征,然后使用多個卷積層來構建更多抽象的高級特征。

在卷積層的學習過程中,CNN網(wǎng)絡通過共享多個卷積核(或特征檢測器)的權值,來學習每張圖片的局部信息,并用于構建抽象特征圖譜。卷積核共享特性大大降低了訓練網(wǎng)絡所需的參數(shù)量。

由于經(jīng)過訓練的檢測器可以通過卷積層重復用來組合地檢測圖片中的抽象特征,因此卷積神經(jīng)網(wǎng)絡更適用于復雜的圖像識別任務。

超參數(shù)調(diào)整

在深度神經(jīng)網(wǎng)絡中,調(diào)整超參數(shù)組合并非易事,因為訓練深層神經(jīng)網(wǎng)絡十分耗時,且需要配置多個參數(shù)。

接下來,我們簡單列舉幾個影響CNN網(wǎng)絡的關鍵超參數(shù)。

學習率

學習率是指在優(yōu)化算法中更新網(wǎng)絡權重的幅度大小。

學習率可以是恒定的、逐漸降低的、基于動量的或者是自適應的,采用哪種學習率取決于所選擇優(yōu)化算法的類型,如SGD、Adam、Adagrad、AdaDelta或RMSProp等算法。

優(yōu)化策略這方面的內(nèi)容可參閱量子位之前編譯過的“一文看懂各種神經(jīng)網(wǎng)絡優(yōu)化算法:從梯度下降到Adam方法”。

迭代次數(shù)

迭代次數(shù)是指整個訓練集輸入到神經(jīng)網(wǎng)絡進行訓練的次數(shù)。當測試錯誤率和訓練錯誤率相差較小時,可認為當前的迭代次數(shù)是合適的,否則需繼續(xù)增大迭代次數(shù),或調(diào)整網(wǎng)絡結構。

批次大小

在卷積神經(jīng)網(wǎng)絡的學習過程中,小批次會表現(xiàn)得更好,選取范圍一般位于區(qū)間[16,128]內(nèi)。

還需要注意的是,CNN網(wǎng)絡對批次大小的調(diào)整十分敏感。

激活函數(shù)

激活函數(shù)具有非線性,理論上可以使模型擬合出任何函數(shù)。通常情況下,rectifier函數(shù)在CNN網(wǎng)絡中的效果較好。當然,可以根據(jù)實際任務,選擇其他類型的激活函數(shù),如Sigmoid和Tanh等等。

隱含層的數(shù)目和單元數(shù)

增加隱含層數(shù)目以加深網(wǎng)絡深度,會在一定程度上改善網(wǎng)絡性能,但是當測試錯誤率不再下降時,就需要尋求其他的改良方法。增加隱含層數(shù)目也帶來一個問題,即提高了訓練該網(wǎng)絡的計算成本。

當網(wǎng)絡的單元數(shù)設置過少時,可能會導致欠擬合,而單元數(shù)設置過多時,只要采取合適的正則化方式,就不會產(chǎn)生不良影響。

權重初始化

在網(wǎng)絡中,通常會使用小隨機數(shù)來初始化各網(wǎng)絡層的權重,以防止產(chǎn)生不活躍的神經(jīng)元,但是設置過小的隨機數(shù)可能生成零梯度網(wǎng)絡。一般來說,均勻分布方法效果較好。

Dropout方法

作為一種常用的正則化方式,加入Dropout層可以減弱深層神經(jīng)網(wǎng)絡的過擬合效應。該方法會按照所設定的概率參數(shù),在每次訓練中隨機地不激活一定比例的神經(jīng)單元。該參數(shù)的默認值為0.5。

手動調(diào)整超參數(shù)是十分費時也不切實際。接下來介紹兩種搜索最優(yōu)超參數(shù)的常用方法。

網(wǎng)格搜索和隨機搜索

網(wǎng)格搜索是通過窮舉法列出不同的參數(shù)組合,確定性能最優(yōu)的結構。隨機搜索是從具有特定分布的參數(shù)空間中抽取出一定數(shù)量的候選組合。

網(wǎng)格搜索方法也需要制定策略,在初始階段較好先確定各超參數(shù)值的大概范圍??梢韵葒L試在較小迭代次數(shù)或較小規(guī)模的訓練集上進行大步幅的網(wǎng)格搜索。然后在下個階段中,設置更大的迭代次數(shù),或是使用整個訓練集,實現(xiàn)小幅較精確定位。

雖然在許多機器學習算法中,通常會使用網(wǎng)格搜索來確定超參數(shù)組合,但是隨著參數(shù)量的增大,訓練網(wǎng)絡所需的計算量呈指數(shù)型增長,這種方法在深層神經(jīng)網(wǎng)絡的超參數(shù)調(diào)整時效果并不是很好。

有研究指出,在深度神經(jīng)網(wǎng)絡的超參數(shù)調(diào)整中,隨機搜索方法比網(wǎng)格搜索的效率更高,具體可參考文末中的“隨機搜索在超參數(shù)優(yōu)化中的應用”。

當然,可根據(jù)神經(jīng)網(wǎng)絡的理論經(jīng)驗,進行超參數(shù)的手動調(diào)整在一些場景下也是可行的。

可視化

我們可以通過可視化各個卷積層,來更好地了解CNN網(wǎng)絡是如何學習輸入圖像的特征。

可視化有兩種直接方式,分別是可視化激活程度和可視化相關權重。在網(wǎng)絡訓練過程中,卷積層的激活情況通常會變得更為稀疏和具有局部特性。當不同輸入圖像的激活圖都存在大片未激活的區(qū)域,那么可能是設置了過高的學習率使得卷積核不起作用,導致產(chǎn)生零激活圖像。

性能優(yōu)良的神經(jīng)網(wǎng)絡通常含有多個明顯而平滑的卷積器,且沒有任何干擾特征。若在權重中觀察到相關干擾特征,可能原因是網(wǎng)絡未被充分訓練,或是正則化強度較低導致了過擬合效應。

相關鏈接

1.在深度結構中關于梯度方法的幾個實用建議(Yoshua Bengio):

https://arxiv.org/abs/1206.5533

2.隨機搜索在超參數(shù)優(yōu)化中的應用:

http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf

3.CS231n課程中理解和可視化卷積神經(jīng)網(wǎng)絡:

https://cs231n.github.io/understanding-cnn/

4.如何使用網(wǎng)格搜索來優(yōu)化深度學習模型中的超參數(shù)(Keras):

http://machinelearningmastery.com/grid-search-hyperparameters-deep-learning-models-python-keras/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://m.hztianpu.com/yun/4604.html

相關文章

  • 像玩樂高一樣拆解Faster R-CNN詳解目標檢測的實現(xiàn)過程

    摘要:這一切始于年的一篇論文,其使用了稱為的算法用來提取感興趣候選區(qū)域,并用一個標準的卷積神經(jīng)網(wǎng)絡去分類和調(diào)整這些區(qū)域。 本文詳細解釋了 Faster R-CNN 的網(wǎng)絡架構和工作流,一步步帶領讀者理解目標檢測的工作原理,作者本人也提供了 Luminoth 實現(xiàn),供大家參考。Luminoth 實現(xiàn):https://github.com/tryolabs/luminoth/tree/master/l...

    taoszu 評論0 收藏0
  • 神經(jīng)網(wǎng)絡訓練tricks

    摘要:下面介紹一些值得注意的部分,有些簡單解釋原理,具體細節(jié)不能面面俱到,請參考專業(yè)文章主要來源實戰(zhàn)那我們直接從拿到一個問題決定用神經(jīng)網(wǎng)絡說起。當你使用時可以適當減小學習率,跑過神經(jīng)網(wǎng)絡的都知道這個影響還蠻大。 神經(jīng)網(wǎng)絡構建好,訓練不出好的效果怎么辦?明明說好的擬合任意函數(shù)(一般連續(xù))(為什么?可以參考http://neuralnetworksanddeeplearning.com/),說好的足夠...

    Jenny_Tong 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<