成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

神奇!只有遺忘門的LSTM性能優(yōu)于標(biāo)準(zhǔn)LSTM

Arno / 2141人閱讀

摘要:本論文研究只有遺忘門的話會怎樣,并提出了,實(shí)驗(yàn)表明該模型的性能優(yōu)于標(biāo)準(zhǔn)。這里我們發(fā)現(xiàn),一個只有遺忘門且?guī)в衅庙?xiàng)的版本不僅能節(jié)省計(jì)算成本,而且在多個基準(zhǔn)數(shù)據(jù)集上的性能優(yōu)于標(biāo)準(zhǔn),能與一些當(dāng)下較好的模型競爭。

本論文研究 LSTM 只有遺忘門的話會怎樣,并提出了 JANET,實(shí)驗(yàn)表明該模型的性能優(yōu)于標(biāo)準(zhǔn) LSTM。

1.介紹

優(yōu)秀的工程師確保其設(shè)計(jì)是實(shí)用的。目前我們已經(jīng)知道解決序列分析問題較好的方式是長短期記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò),接下來我們需要設(shè)計(jì)一個滿足資源受限的現(xiàn)實(shí)世界應(yīng)用的實(shí)現(xiàn)。鑒于使用兩個門的門控循環(huán)單元(Cho 等,2014)的成功,第一種設(shè)計(jì)更硬件高效的 LSTM 的方法可能是消除冗余門(redundant gate)。因?yàn)槲覀円獙で蟊?GRU 更高效的模型,所以只有單門 LSTM 模型值得我們研究。為了說明為什么這個單門應(yīng)該是遺忘門,讓我們從 LSTM 的起源講起。

在那個訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)十分困難的年代,Hochreiter 和 Schmidhuber(1997)認(rèn)為在 RNN 中使用單一權(quán)重(邊)來控制是否接受記憶單元的輸入或輸出帶來了沖突性更新(梯度)。本質(zhì)上來講,每一步中長短期誤差(long and short-range error)作用于相同的權(quán)重,且如果使用 sigmoid 激活函數(shù)的話,梯度消失的速度要比權(quán)重增加速度快。之后他們提出長短期記憶(LSTM)單元循環(huán)神經(jīng)網(wǎng)絡(luò),具備乘法輸入門和輸出門。這些門可以通過「保護(hù)」單元免受不相關(guān)信息(其他單元的輸入或輸出)影響,從而緩解沖突性更新問題。

LSTM 的第一個版本只有兩個門:Gers 等人(2000)首先發(fā)現(xiàn)如果沒有使記憶單元遺忘信息的機(jī)制,那么它們可能會無限增長,最終導(dǎo)致網(wǎng)絡(luò)崩潰。為解決這個問題,他們?yōu)檫@個 LSTM 架構(gòu)加上了另一個乘法門,即遺忘門,完成了我們今天看到的 LSTM 版本。

?

鑒于遺忘門發(fā)現(xiàn)的重要性,那么設(shè)想 LSTM 僅使用一個遺忘門,輸入和輸出門是否必要呢?本研究將探索多帶帶使用遺忘門的優(yōu)勢。在五個任務(wù)中,僅使用遺忘門的模型提供了比使用全部三個 LSTM 門的模型更好的解決方案。

3 JUST ANOTHER NETWORK

我們提出了一個簡單的 LSTM 變體,其只有一個遺忘門。它是 Just Another NETwork,因此我們將其命名為 JANET。我們從標(biāo)準(zhǔn) LSTM(Lipton 等,2015)開始,其中符號具備標(biāo)準(zhǔn)含義,定義如下

為了將上述內(nèi)容轉(zhuǎn)換成 JANET 架構(gòu),我們刪除了輸入和輸出門。將信息的累積和刪除關(guān)聯(lián)起來似乎是明智的,因此我們將輸入和遺忘調(diào)制結(jié)合起來,就像 Greff et al. (2015) 論文中所做的那樣,而這與 leaky unit 實(shí)現(xiàn) (Jaeger, 2002, §8.1) 類似。此外,h_t 的 tanh 激活函數(shù)使梯度在反向傳播期間出現(xiàn)收縮,這可能加劇梯度消失問題。權(quán)重 U? 可容納 [-1,1] 區(qū)間外的值,因此我們可移除這個不必要且可能帶來問題的 tanh 非線性函數(shù)。得出的 JANET 結(jié)果如下:

4 實(shí)驗(yàn)與結(jié)果

表 1:不同循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的準(zhǔn)確率 [%]。圖中展示了 10 次獨(dú)立運(yùn)行得到的平均值和標(biāo)準(zhǔn)差。我們實(shí)驗(yàn)中的較佳準(zhǔn)確率結(jié)果以及引用論文中的較佳結(jié)果以粗體顯示。

令人驚訝的是,結(jié)果表明 JANET 比標(biāo)準(zhǔn) LSTM 的準(zhǔn)確率更高。此外,JANET 是在所有分析數(shù)據(jù)集上表現(xiàn)較佳的模型之一。因此,通過簡化 LSTM,我們不僅節(jié)省了計(jì)算成本,還提高了測試集上的準(zhǔn)確率!

圖 1:在 MNIST 和 pMNIST 上訓(xùn)練的 LSTM 的測試準(zhǔn)確率。

圖 2:JANET 和 LSTM 在 MNIST 上訓(xùn)練時的測試集準(zhǔn)確率對比。

圖 3:不同層大小的 JANET 和 LSTM 在 pMNIST 數(shù)據(jù)集上的準(zhǔn)確率(%)。

論文:THE UNREASONABLE EFFECTIVENESS OF THE FORGET GATE

論文鏈接:https://arxiv.org/abs/1804.04849

摘要:鑒于門控循環(huán)單元(GRU)的成功,一個很自然的問題是長短期記憶(LSTM)網(wǎng)絡(luò)中的所有門是否是必要的。之前的研究表明,遺忘門是 LSTM 中最重要的門之一。這里我們發(fā)現(xiàn),一個只有遺忘門且?guī)в?chrono-initialized 偏置項(xiàng)的 LSTM 版本不僅能節(jié)省計(jì)算成本,而且在多個基準(zhǔn)數(shù)據(jù)集上的性能優(yōu)于標(biāo)準(zhǔn) LSTM,能與一些當(dāng)下較好的模型競爭。我們提出的網(wǎng)絡(luò) JANET,在 MNIST 和 pMNIST 數(shù)據(jù)集上分別達(dá)到了 99% 和 92.5% 的準(zhǔn)確率,優(yōu)于標(biāo)準(zhǔn) LSTM 98.5% 和 91% 的準(zhǔn)確率。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/4765.html

相關(guān)文章

  • 難以置信!LSTM和GRU的解析從未如此清晰

    摘要:作為解決方案的和和是解決短時記憶問題的解決方案,它們具有稱為門的內(nèi)部機(jī)制,可以調(diào)節(jié)信息流。隨后,它可以沿著長鏈序列傳遞相關(guān)信息以進(jìn)行預(yù)測,幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù)成果都是通過這兩個網(wǎng)絡(luò)實(shí)現(xiàn)的。和采用門結(jié)構(gòu)來克服短時記憶的影響。 短時記憶RNN 會受到短時記憶的影響。如果一條序列足夠長,那它們將很難將信息從較早的時間步傳送到后面的時間步。 因此,如果你正在嘗試處理一段文本進(jìn)行預(yù)測,RNN...

    MrZONT 評論0 收藏0
  • LSTM 和遞歸網(wǎng)絡(luò)基礎(chǔ)教程

    摘要:前饋網(wǎng)絡(luò)的反向傳播從最后的誤差開始,經(jīng)每個隱藏層的輸出權(quán)重和輸入反向移動,將一定比例的誤差分配給每個權(quán)重,方法是計(jì)算權(quán)重與誤差的偏導(dǎo)數(shù),即兩者變化速度的比例。隨后,梯度下降的學(xué)習(xí)算法會用這些偏導(dǎo)數(shù)對權(quán)重進(jìn)行上下調(diào)整以減少誤差。 目錄前饋網(wǎng)絡(luò)遞歸網(wǎng)絡(luò)沿時間反向傳播梯度消失與梯度膨脹長短期記憶單元(LSTM)涵蓋多種時間尺度本文旨在幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)者了解遞歸網(wǎng)絡(luò)的運(yùn)作方式,以及一種主要的遞歸網(wǎng)絡(luò)...

    Barrior 評論0 收藏0
  • 首次超越LSTM : Facebook 門卷積網(wǎng)絡(luò)新模型能否取代遞歸模型?

    摘要:得到的結(jié)果如下上圖是門卷積神經(jīng)網(wǎng)絡(luò)模型與和模型在數(shù)據(jù)集基準(zhǔn)上進(jìn)行測試的結(jié)果。雖然在這一研究中卷積神經(jīng)網(wǎng)絡(luò)在性能上表現(xiàn)出了對遞歸神經(jīng)網(wǎng)絡(luò),尤其是的全面超越,但是,現(xiàn)在談取代還為時尚早。 語言模型對于語音識別系統(tǒng)來說,是一個關(guān)鍵的組成部分,在機(jī)器翻譯中也是如此。近年來,神經(jīng)網(wǎng)絡(luò)模型被認(rèn)為在性能上要優(yōu)于經(jīng)典的 n-gram 語言模型。經(jīng)典的語言模型會面臨數(shù)據(jù)稀疏的難題,使得模型很難表征大型的文本,...

    高勝山 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<