成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專(zhuān)欄INFORMATION COLUMN

完全基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq

hover_lew / 1805人閱讀

摘要:本文參考文獻(xiàn)被引次數(shù)被引次數(shù)今天要講的一個(gè)模型是由人工智能研究院提出來(lái)的完全基于卷積神經(jīng)網(wǎng)絡(luò)的框架,我在之前的推送中已經(jīng)講過(guò)好多次了,傳統(tǒng)的模型是基于來(lái)實(shí)現(xiàn)的,特別是,這就帶來(lái)了計(jì)算量復(fù)雜的問(wèn)題。

本文參考文獻(xiàn):

Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[J]. arXiv preprint arXiv:1705.03122, 2017.

被引次數(shù):13

Dauphin Y N, Fan A, Auli M, et al. Language modeling with gated convolutional networks[J]. arXiv preprint arXiv:1612.08083, 2016.

被引次數(shù):24

今天要講的一個(gè)模型是由Facebook人工智能研究院提出來(lái)的完全基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq框架,seq2seq我在之前的推送中已經(jīng)講過(guò)好多次了,傳統(tǒng)的seq2seq模型是基于RNN來(lái)實(shí)現(xiàn)的,特別是LSTM,這就帶來(lái)了計(jì)算量復(fù)雜的問(wèn)題。Facebook作出大膽改變,將編碼器、解碼器、注意力機(jī)制甚至是記憶單元全部替換成卷積神經(jīng)網(wǎng)絡(luò),想法是不是簡(jiǎn)單粗暴?雖然單層CNN只能看到固定范圍的上下文,但是將多個(gè)CNN疊加起來(lái)就可以很容易將有效的上下文范圍放大。Facebook將此模型成功地應(yīng)用到了英語(yǔ)-法語(yǔ)機(jī)器翻譯、英語(yǔ)-德語(yǔ)機(jī)器翻譯,不僅刷新了二者前期的記錄,而且還將訓(xùn)練速度提高了一個(gè)數(shù)量級(jí),無(wú)論是GPU還是CPU上。

在詳細(xì)開(kāi)始介紹Facebook的conv seq2seq模型之前,我們需要回顧一下Gated CNN,這個(gè)同樣是Facebook在去年底提出來(lái)的用于語(yǔ)言建模的模型。

用于語(yǔ)言建模的Gated CNN模型如下圖所示,可以看到,最上層的word embedding操作與傳統(tǒng)的語(yǔ)言建模沒(méi)有區(qū)別,緊接著就是對(duì)這些embedding向量劃分時(shí)間窗并做卷積操作,注意這里使用了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),這兩個(gè)神經(jīng)網(wǎng)絡(luò)中的其中一個(gè)通過(guò)激活函數(shù)一個(gè)與另外一個(gè)進(jìn)行相乘,得到最終的輸出。說(shuō)到這里,應(yīng)該有讀者已經(jīng)發(fā)現(xiàn)了其中一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的功能就是充當(dāng)了閘門(mén)的作用,即控制著多少有用的信息作為最終的輸出。同時(shí),實(shí)驗(yàn)結(jié)果也表明Gated CNN在WikiText-103上取得了較好的效果。

在conv seq2seq這篇文章中,也使用了Gated CNN以及Residual connection,文中的模型結(jié)構(gòu)圖如下所示,下面我來(lái)仔細(xì)說(shuō)明一下這里的計(jì)算細(xì)節(jié)。

對(duì)于編碼器,原始的單詞首先需要經(jīng)過(guò)embedding層得到其相應(yīng)的embedding向量,然后將embedding向量作為Gated CNN的輸入,這里需要注意的是,為了保證經(jīng)過(guò)卷積操作之后與之前的輸入長(zhǎng)度一致,卷積需要做pad操作。模型中有兩個(gè)地方都使用到了GLU(Gated Linear Unit),我在圖中已經(jīng)用紅色字眼標(biāo)出,編碼器的embedding和解碼器的embedding分別通過(guò)各自的GLU單元得到各自的分布式狀態(tài),將兩個(gè)狀態(tài)矩陣進(jìn)行點(diǎn)乘即可得到注意力權(quán)重,圖中已用紅色字體Attention標(biāo)出,具體的注意力權(quán)重的計(jì)算如下公式所示:

注意到圖中編碼器的embedding和編碼器的狀態(tài)進(jìn)行相加,并且乘上注意力權(quán)重,得到的結(jié)果文中稱(chēng)之為條件輸入c,這里我們可以對(duì)比傳統(tǒng)的注意力機(jī)制,傳統(tǒng)的注意力機(jī)制是直接將注意力權(quán)重和編碼器的狀態(tài)進(jìn)行相乘,而這里引入了embedding量,文中解釋是因?yàn)閑mbedding可以在做預(yù)測(cè)的時(shí)候可以結(jié)合具體元素的信息,增加了位置感,條件輸入c的計(jì)算如下圖公式所示:

將條件輸入c加上解碼器的狀態(tài),即可得到輸出序列的概率,以上就是conv seq2seq的模型結(jié)構(gòu)。作者最終在機(jī)器翻譯上相比其他RNN的模型速度提高了近10倍!

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/4631.html

相關(guān)文章

  • 該放棄正在墮落“RNN和LSTM”了

    摘要:通過(guò)兩年的發(fā)展,今天我們可以肯定地說(shuō)放棄你的和有證據(jù)表明,谷歌,,等企業(yè)正在越來(lái)越多地使用基于注意力模型的網(wǎng)絡(luò)。 摘要: 隨著技術(shù)的發(fā)展,作者覺(jué)得是時(shí)候放棄LSTM和RNN了!到底為什么呢?來(lái)看看吧~ showImg(https://segmentfault.com/img/bV8ZS0?w=800&h=533); 遞歸神經(jīng)網(wǎng)絡(luò)(RNN),長(zhǎng)期短期記憶(LSTM)及其所有變體: 現(xiàn)在是...

    Zoom 評(píng)論0 收藏0
  • 貪心學(xué)院-圖神經(jīng)網(wǎng)絡(luò)高級(jí)訓(xùn)練營(yíng)

    摘要:百度網(wǎng)盤(pán)提取碼最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營(yíng),發(fā)現(xiàn)這門(mén)課講的很有深度,不僅適合職場(chǎng)也適合科研人員,加入行業(yè)拿到高薪僅僅是職業(yè)生涯的開(kāi)始。 ??百度網(wǎng)盤(pán)??提取碼:u6C4最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營(yíng),發(fā)現(xiàn)這門(mén)課講的很有深度,不僅適合職場(chǎng)也適合科研人員,加入AI行業(yè)拿到高薪僅僅是職業(yè)生涯的開(kāi)始?,F(xiàn)階段AI人才結(jié)...

    番茄西紅柿 評(píng)論0 收藏2637

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<