Adversarial Learning for Neural Dialogue Generatio

cfanr 發(fā)布于2019-04-25 18:10 / 1829人閱讀

摘要：在本任務(wù)中為，即歷史對話決策為，即下一步的對話。則是一個使得訓(xùn)練穩(wěn)定的平衡項。判別器只告訴機(jī)器對或錯，卻不告知哪部分對和哪部分錯，這對訓(xùn)練帶來了很大隱患。實驗實驗的結(jié)果以及部分可以一定程度上體現(xiàn)對抗訓(xùn)練的模型起到了預(yù)期的效果。

1、導(dǎo)讀

這篇文章的主要工作在于應(yīng)用了對抗訓(xùn)練（adversarial training）的思路來解決開放式對話生成（open-domain dialogue generation）這樣一個無監(jiān)督的問題。其主體思想就是將整體任務(wù)劃分到兩個子系統(tǒng)上，一個是生成器（generative model），利用seq2seq式的模型以上文的句子作為輸入，輸出對應(yīng)的對話語句；另一個則是一個判別器（discriminator），用以區(qū)分在前文條件下當(dāng)前的問答是否是和人類行為接近，這里可以近似地看作是一個二分類分類器。兩者結(jié)合的工作機(jī)理也很直觀，生成器不斷根據(jù)前文生成答句，判別器則不斷用生成器的生成作為負(fù)例，原文的標(biāo)準(zhǔn)回答作為正例來強(qiáng)化分類。在兩者訓(xùn)練的過程中，生成器需要不斷改良答案來欺騙生成器，判別器則需要不斷提高自身的判別能力從而區(qū)分機(jī)造和人造答案直至最后兩者收斂達(dá)到某種均衡。以往的模型受限于訓(xùn)練目標(biāo)以及訓(xùn)練方式，其生成的結(jié)果往往是遲鈍籠統(tǒng)的甚至都很簡短（如果可以的話，所有的對話我都可以回答“呵呵”，很明顯這樣的回答是不符合常識的）。所以這樣一種博弈式的訓(xùn)練方式來取代以往相對簡單固定的概率似然來優(yōu)化這樣一種無監(jiān)督的開放任務(wù)顯然是很有意義的想法。不過這樣的方法遇到困難也很明顯，GAN和NLP一直八字不合，很難很好的融合。和之前的工作SeqGAN類似，這篇工作也采取了增強(qiáng)學(xué)習(xí)來規(guī)避GAN在NLP中使用的難點，并作出了更多的嘗試。

2、模型

Generative model & Discriminativemodel:

生成器G就是一個seq2seq模型，輸入是歷史對話x，通過RNN來對語義進(jìn)行向量表示再逐一生成回答的每個詞，從而形成回答y，由于該種模型已經(jīng)有很大的人群認(rèn)知，就不過多贅述。判別器D是一個輸入為歷史對話x和回答y二元組的一個二分類器，使用了hierarchicalencoder，其中機(jī)造回答組合為負(fù)例Q?({x,y})，人造回答組合為正例Q+({x, y})。

Policy Gradient Training:

文中模型采用了policy gradient的方法（增強(qiáng)學(xué)習(xí)的方式之一）來進(jìn)行增強(qiáng)學(xué)習(xí)的訓(xùn)練，其優(yōu)化目標(biāo)為：

優(yōu)化目標(biāo)的導(dǎo)數(shù)可化為：

Q是判別器D的結(jié)果，換句話說判別器的鑒定結(jié)果可以看作是增強(qiáng)學(xué)習(xí)中的reward，policy gradient整體的優(yōu)化目標(biāo)其實就是希望回報高的決策其概率越高。在本任務(wù)中state為x，即歷史對話；決策為y，即下一步的對話。x生成y的概率等于逐詞生成的概率，如（2）所示，這里也可以很好的和seq2seq的工作機(jī)理對應(yīng)上。b({x,y})則是一個使得訓(xùn)練穩(wěn)定的平衡項。

Reward for EveryGeneration Step (REGS) ：

在本任務(wù)中增強(qiáng)學(xué)習(xí)的一個很大的問題在于我們的估價都是針對一整個回答的，判別器只會給出一個近似于對或者不對的反饋。這樣的模式存在一個很大的問題是，即使是很多被判斷為有問題的句子，其中有很大一部分語言成分是有效的，如文中的例子“what’s yourname”，人類回答“I am John”，機(jī)器回答“I don’t know”。判別器會給出“I don’t know”是有問題的，但無法給出I是對的而后面的don’t know是錯的，事實上機(jī)器沒有回答he/she/you/they而是I本質(zhì)上是需要一個肯定的正反饋的。判別器只告訴機(jī)器對或錯，卻不告知哪部分對和哪部分錯，這對訓(xùn)練帶來了很大隱患。所以文中采用了兩種方式，第一種是Monte Carlo，第二種則是使用局部序列來評估。第一種和之前的一些增強(qiáng)學(xué)習(xí)引入的工作類似就不做贅述，我們主要關(guān)注第二種方法。

主要思想就是將二式變?yōu)槿?，通俗點講就是把序列評分拆開來算，這樣就能算到前綴的評分，做到局部評價的反饋。為了防止訓(xùn)練過擬合，每次只是從正例和負(fù)例的子序列中隨機(jī)選取一個來訓(xùn)練。不過有一絲遺憾的是，這個方法快速也符合常識但會使得判別器變?nèi)?，實際效果不如Monte Carlo準(zhǔn)確。

Teacher Forcing ：

在以往的工作中，D效果非常好而G的效果非常糟糕會帶來訓(xùn)練效果的下降。試想一下一個G所有產(chǎn)生的答案都被D駁回了，在這段時間內(nèi)G的所有反饋都是負(fù)反饋，G就會迷失從而不知道向什么方向優(yōu)化會得到正反饋，所以理想的情況下G和D是交替訓(xùn)練上升的。在控制D和G訓(xùn)練節(jié)奏的同時，這篇工作中又采用了一種類似強(qiáng)制學(xué)習(xí)的方式來嘗試解決這個問題。每次在正常的增加學(xué)習(xí)后會讓生成器強(qiáng)行生成正確答案并從D得到正向的反饋，從而每次都能有一個正向優(yōu)化方向的指示。這樣的行為類似于學(xué)校老師強(qiáng)行灌輸知識，也很類似于之前的professor-forcing算法。所以到此整體的模型結(jié)構(gòu)為：

訓(xùn)練頻率的設(shè)定在圖中的解釋中有提到。無論是GAN還是RL都是出了名的難訓(xùn)，Training Details大家還是看源碼和論文仔細(xì)體會吧，在此也就不鋪開了。

3、實驗

實驗的結(jié)果以及部分case study可以一定程度上體現(xiàn)對抗訓(xùn)練的模型起到了預(yù)期的效果。

4、總結(jié)

雖然在手法上和之前的SeqGAN類似，采用了增強(qiáng)學(xué)習(xí)的方法來在NLP任務(wù)上進(jìn)行對抗訓(xùn)練，并且提出了一些新的針對于NLP本身特征的方法改進(jìn)，盡管還存在很大問題需要解決，但也算是不錯的嘗試。引入對抗訓(xùn)練這樣的方式可以解決以往模型，尤其是無監(jiān)督生成式任務(wù)模型的許多問題，但受限于技術(shù)細(xì)節(jié)，現(xiàn)在的模型還處于探索階段，模型繁冗復(fù)雜，訓(xùn)練過程需要摻入大量工程實現(xiàn)手法，方法無法在相似任務(wù)上靈活轉(zhuǎn)移。作者在這篇工作的結(jié)論里也提到了自己的模型在其他任務(wù)諸如machine translation和summarization效果并不是很好，并給出了自己認(rèn)為可能的一些解釋。這些都需要我們進(jìn)一步的去探索挖掘文本本身特有的性質(zhì)來改造發(fā)展模型，并進(jìn)一步嘗試。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器 Neural deep-neural-network Learning learning webrtc

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/4495.html

發(fā)表評論

登陸后可評論

0條評論

cfanr

男|高級講師

我要關(guān)注我要私信

TA的文章

#黑五#Friendhosting LTD：所有 SSD VDS 均可享受 55% 的折扣，月付€1

閱讀 2071·2021-11-24 10:45
每日一練的榜單公布啦~ 速來領(lǐng)獎品！

閱讀 1919·2021-10-09 09:43
如何提虛擬主機(jī)需求參數(shù)-如何購買虛擬主機(jī)？需要注意什么？

閱讀 1366·2021-09-22 15:38
Hostodo：美國VPS服務(wù)器$19.99/年起，KVM虛擬架構(gòu)，1Gbps帶寬、免費SolusV

閱讀 1315·2021-08-18 10:19
2019年前端學(xué)習(xí)路線

閱讀 2891·2019-08-30 15:55
checkbox樣式研究——按鈕

閱讀 3118·2019-08-30 12:45
啦咯ill圖

閱讀 3048·2019-08-30 11:25
大戰(zhàn)border的0.5px

閱讀 432·2019-08-29 11:30

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Adversarial Learning for Neural Dialogue Generatio

相關(guān)文章

GAN應(yīng)用情況調(diào)研

生成對抗網(wǎng)絡(luò)GAN最近在NLP領(lǐng)域有哪些應(yīng)用？

從 Quora 的 187 個問題中學(xué)習(xí)機(jī)器學(xué)習(xí)和NLP

GAN 論文大匯總

超過 150 個最佳機(jī)器學(xué)習(xí)，NLP 和 Python教程

發(fā)表評論

0條評論

cfanr

男|高級講師

TA的文章

#黑五#Friendhosting LTD：所有 SSD VDS 均可享受 55% 的折扣，月付€1

每日一練的榜單公布啦~ 速來領(lǐng)獎品！

如何提虛擬主機(jī)需求參數(shù)-如何購買虛擬主機(jī)？需要注意什么？

Hostodo：美國VPS服務(wù)器$19.99/年起，KVM虛擬架構(gòu)，1Gbps帶寬、免費SolusV

2019年前端學(xué)習(xí)路線

checkbox樣式研究——按鈕

啦咯ill圖

大戰(zhàn)border的0.5px

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Adversarial Learning for Neural Dialogue Generatio

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！