成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

Adversarial Learning for Neural Dialogue Generatio

cfanr / 1829人閱讀

摘要:在本任務(wù)中為,即歷史對話決策為,即下一步的對話。則是一個使得訓(xùn)練穩(wěn)定的平衡項。判別器只告訴機(jī)器對或錯,卻不告知哪部分對和哪部分錯,這對訓(xùn)練帶來了很大隱患。實驗實驗的結(jié)果以及部分可以一定程度上體現(xiàn)對抗訓(xùn)練的模型起到了預(yù)期的效果。

1、導(dǎo)讀

這篇文章的主要工作在于應(yīng)用了對抗訓(xùn)練(adversarial training)的思路來解決開放式對話生成(open-domain dialogue generation)這樣一個無監(jiān)督的問題。其主體思想就是將整體任務(wù)劃分到兩個子系統(tǒng)上,一個是生成器(generative model),利用seq2seq式的模型以上文的句子作為輸入,輸出對應(yīng)的對話語句;另一個則是一個判別器(discriminator),用以區(qū)分在前文條件下當(dāng)前的問答是否是和人類行為接近,這里可以近似地看作是一個二分類分類器。兩者結(jié)合的工作機(jī)理也很直觀,生成器不斷根據(jù)前文生成答句,判別器則不斷用生成器的生成作為負(fù)例,原文的標(biāo)準(zhǔn)回答作為正例來強(qiáng)化分類。在兩者訓(xùn)練的過程中,生成器需要不斷改良答案來欺騙生成器,判別器則需要不斷提高自身的判別能力從而區(qū)分機(jī)造和人造答案直至最后兩者收斂達(dá)到某種均衡。以往的模型受限于訓(xùn)練目標(biāo)以及訓(xùn)練方式,其生成的結(jié)果往往是遲鈍籠統(tǒng)的甚至都很簡短(如果可以的話,所有的對話我都可以回答“呵呵”,很明顯這樣的回答是不符合常識的)。所以這樣一種博弈式的訓(xùn)練方式來取代以往相對簡單固定的概率似然來優(yōu)化這樣一種無監(jiān)督的開放任務(wù)顯然是很有意義的想法。不過這樣的方法遇到困難也很明顯,GAN和NLP一直八字不合,很難很好的融合。和之前的工作SeqGAN類似,這篇工作也采取了增強(qiáng)學(xué)習(xí)來規(guī)避GAN在NLP中使用的難點,并作出了更多的嘗試。

2、模型

Generative model & Discriminativemodel:

生成器G就是一個seq2seq模型,輸入是歷史對話x,通過RNN來對語義進(jìn)行向量表示再逐一生成回答的每個詞,從而形成回答y,由于該種模型已經(jīng)有很大的人群認(rèn)知,就不過多贅述。判別器D是一個輸入為歷史對話x和回答y二元組的一個二分類器,使用了hierarchicalencoder,其中機(jī)造回答組合為負(fù)例Q?({x,y}),人造回答組合為正例Q+({x, y})。

Policy Gradient Training:

文中模型采用了policy gradient的方法(增強(qiáng)學(xué)習(xí)的方式之一)來進(jìn)行增強(qiáng)學(xué)習(xí)的訓(xùn)練,其優(yōu)化目標(biāo)為:

優(yōu)化目標(biāo)的導(dǎo)數(shù)可化為:

Q是判別器D的結(jié)果,換句話說判別器的鑒定結(jié)果可以看作是增強(qiáng)學(xué)習(xí)中的reward,policy gradient整體的優(yōu)化目標(biāo)其實就是希望回報高的決策其概率越高。在本任務(wù)中state為x,即歷史對話;決策為y,即下一步的對話。x生成y的概率等于逐詞生成的概率,如(2)所示,這里也可以很好的和seq2seq的工作機(jī)理對應(yīng)上。b({x,y})則是一個使得訓(xùn)練穩(wěn)定的平衡項。

Reward for EveryGeneration Step (REGS) :

在本任務(wù)中增強(qiáng)學(xué)習(xí)的一個很大的問題在于我們的估價都是針對一整個回答的,判別器只會給出一個近似于對或者不對的反饋。這樣的模式存在一個很大的問題是,即使是很多被判斷為有問題的句子,其中有很大一部分語言成分是有效的,如文中的例子“what’s yourname”,人類回答“I am John”,機(jī)器回答“I don’t know”。判別器會給出“I don’t know”是有問題的,但無法給出I是對的而后面的don’t know是錯的,事實上機(jī)器沒有回答he/she/you/they而是I本質(zhì)上是需要一個肯定的正反饋的。判別器只告訴機(jī)器對或錯,卻不告知哪部分對和哪部分錯,這對訓(xùn)練帶來了很大隱患。所以文中采用了兩種方式,第一種是Monte Carlo,第二種則是使用局部序列來評估。第一種和之前的一些增強(qiáng)學(xué)習(xí)引入的工作類似就不做贅述,我們主要關(guān)注第二種方法。

主要思想就是將二式變?yōu)槿?,通俗點講就是把序列評分拆開來算,這樣就能算到前綴的評分,做到局部評價的反饋。為了防止訓(xùn)練過擬合,每次只是從正例和負(fù)例的子序列中隨機(jī)選取一個來訓(xùn)練。不過有一絲遺憾的是,這個方法快速也符合常識但會使得判別器變?nèi)?,實際效果不如Monte Carlo準(zhǔn)確。

Teacher Forcing :

在以往的工作中,D效果非常好而G的效果非常糟糕會帶來訓(xùn)練效果的下降。試想一下一個G所有產(chǎn)生的答案都被D駁回了,在這段時間內(nèi)G的所有反饋都是負(fù)反饋,G就會迷失從而不知道向什么方向優(yōu)化會得到正反饋,所以理想的情況下G和D是交替訓(xùn)練上升的。在控制D和G訓(xùn)練節(jié)奏的同時,這篇工作中又采用了一種類似強(qiáng)制學(xué)習(xí)的方式來嘗試解決這個問題。每次在正常的增加學(xué)習(xí)后會讓生成器強(qiáng)行生成正確答案并從D得到正向的反饋,從而每次都能有一個正向優(yōu)化方向的指示。這樣的行為類似于學(xué)校老師強(qiáng)行灌輸知識,也很類似于之前的professor-forcing算法。所以到此整體的模型結(jié)構(gòu)為:

訓(xùn)練頻率的設(shè)定在圖中的解釋中有提到。無論是GAN還是RL都是出了名的難訓(xùn),Training Details大家還是看源碼和論文仔細(xì)體會吧,在此也就不鋪開了。

3、實驗

實驗的結(jié)果以及部分case study可以一定程度上體現(xiàn)對抗訓(xùn)練的模型起到了預(yù)期的效果。

4、總結(jié)

雖然在手法上和之前的SeqGAN類似,采用了增強(qiáng)學(xué)習(xí)的方法來在NLP任務(wù)上進(jìn)行對抗訓(xùn)練,并且提出了一些新的針對于NLP本身特征的方法改進(jìn),盡管還存在很大問題需要解決,但也算是不錯的嘗試。引入對抗訓(xùn)練這樣的方式可以解決以往模型,尤其是無監(jiān)督生成式任務(wù)模型的許多問題,但受限于技術(shù)細(xì)節(jié),現(xiàn)在的模型還處于探索階段,模型繁冗復(fù)雜,訓(xùn)練過程需要摻入大量工程實現(xiàn)手法,方法無法在相似任務(wù)上靈活轉(zhuǎn)移。作者在這篇工作的結(jié)論里也提到了自己的模型在其他任務(wù)諸如machine translation和summarization效果并不是很好,并給出了自己認(rèn)為可能的一些解釋。這些都需要我們進(jìn)一步的去探索挖掘文本本身特有的性質(zhì)來改造發(fā)展模型,并進(jìn)一步嘗試。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/4495.html

相關(guān)文章

  • GAN應(yīng)用情況調(diào)研

    摘要:在圖像上的應(yīng)用從目前的文獻(xiàn)來看,在圖像上的應(yīng)用主要是往圖像修改方向發(fā)展。涉及的圖像修改包括單圖像超分辨率交互式圖像生成圖像編輯圖像到圖像的翻譯等。單圖像超分辨率單圖像超分辨率任務(wù)就是給定單張低分辨率圖像,生成它的高分辨率圖像。 今天我們來聊一個輕松一些的話題——GAN的應(yīng)用。在此之前呢,先推薦大家去讀一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。這個文章比WGA...

    tolerious 評論0 收藏0
  • 生成對抗網(wǎng)絡(luò)GAN最近在NLP領(lǐng)域有哪些應(yīng)用?

    摘要:直接把應(yīng)用到領(lǐng)域主要是生成序列,有兩方面的問題最開始是設(shè)計用于生成連續(xù)數(shù)據(jù),但是自然語言處理中我們要用來生成離散的序列。如圖,針對第一個問題,首先是將的輸出作為,然后用來訓(xùn)練。 我來答一答自然語言處理方面GAN的應(yīng)用。直接把GAN應(yīng)用到NLP領(lǐng)域(主要是生成序列),有兩方面的問題:1. GAN最開始是設(shè)計用于生成連續(xù)數(shù)據(jù),但是自然語言處理中我們要用來生成離散tokens的序列。因為生成器(G...

    asoren 評論0 收藏0
  • 從 Quora 的 187 個問題中學(xué)習(xí)機(jī)器學(xué)習(xí)和NLP

    摘要:許多的頂尖研究人員都會積極的在現(xiàn)場回答問題。雖然有許多主題的常見問題頁面比如,這是一個機(jī)器學(xué)習(xí)的,但是這些都是非常不全面的,或者不夠精致。在這篇文章中,我試圖做一個更加全面的有關(guān)機(jī)器學(xué)習(xí)和問題的。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:http://www.jianshu.com/p/ac18... showImg(https:/...

    hidogs 評論0 收藏0
  • GAN 論文大匯總

    摘要:在這里匯總了一個現(xiàn)在和經(jīng)常使用的論文,所有文章都鏈接到了上面。如果你對感興趣,可以訪問這個專題。作者微信號簡書地址是一個專注于算法實戰(zhàn)的平臺,從基礎(chǔ)的算法到人工智能算法都有設(shè)計。加入實戰(zhàn)微信群,實戰(zhàn)群,算法微信群,算法群。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/b7f... sh...

    lifesimple 評論0 收藏0
  • 超過 150 個最佳機(jī)器學(xué)習(xí),NLP 和 Python教程

    摘要:作者微信號微信公眾號簡書地址我把這篇文章分為四個部分機(jī)器學(xué)習(xí),,和數(shù)學(xué)。在這篇文章中,我把每個主題的教程數(shù)量都是控制在五到六個,這些精選出來的教程都是非常重要的。每一個鏈接都會鏈接到別的鏈接,從而導(dǎo)致很多新的教程。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:http://www.jianshu.com/p/2be3... showIm...

    JayChen 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<