摘要:我認(rèn)為在大多數(shù)深度學(xué)習(xí)中,算法層面上隨機梯度的下降是大家所認(rèn)可的。但目前似乎存在兩個問題計算層面納什平衡達不到可能會退化。
去年我一直在研究如何更好地調(diào)整GANs中的不足,但因為之前的研究方向只關(guān)注了損失函數(shù),完全忽略了如何尋找極小值問題。直到我看到了這篇論文才有所改變:
詳解論文: The Numerics of GANs
我參考了Mar的三層分析,并在計算層面上仔細考慮了這個問題:我們這樣做的最終目標(biāo)是什么?我相信GANs在這個層面已經(jīng)有所突破了,因為他們試圖優(yōu)化錯誤的東西或?qū)で蟛淮嬖诘钠胶獾?。這就是為什么我喜歡f-GANs、Wasserstein GANs、實例噪聲,而不大喜歡在優(yōu)化層面上做一些修復(fù)的嘗試:比如DCGAN或改進技術(shù)(Salimans等,2016)等原因。我認(rèn)為在大多數(shù)深度學(xué)習(xí)中,算法層面上隨機梯度的下降是大家所認(rèn)可的。你可以去提升它,但是如果沒有突破性進展,它通常不需要修復(fù)。
但閱讀本文后,我有一個啟示:
GANs可以同時在計算層面和算法層面有所突破
即使我們修復(fù)了目標(biāo),我們也沒有算法工具來尋找實際解決方案。
文章摘要:
結(jié)合我目前在研究的內(nèi)容,我將通過一個不同的視覺來分析該論文
介紹關(guān)于收斂與不收斂的矢量場的概念,并強調(diào)其一些屬性然后描述Mescheder等人文章提出的 consensus、optimization等方面的一些結(jié)論:在復(fù)雜的不收斂矢量場與理想的收斂矢量場之間進行插值
最后,正如我研究的期望那樣,我還強調(diào)了另一個重要的細節(jié),一個在文中沒有討論的:我們應(yīng)該如何在小批量設(shè)置中做到所有這些?
簡介:從GAN到矢量場
GANs可以被理解為博弈游戲(一個各不相互合作的雙人游戲)。一個玩家控制θ并希望較大化其收益f(θ,φ),另一個控制φ并尋求較大化g(θ,φ)。當(dāng)兩個玩家都不再會通過改變參數(shù)來提高收益的時候游戲就達到了納什均衡。因此,現(xiàn)在我們必須要設(shè)計一個算法來幫助達到這個納什均衡。
但目前GANs似乎存在兩個問題:
1.計算層面:納什平衡(Nash equilibrium)達不到可能會退化。
2.算法層面:我們依然還沒有找到可靠的工具來達到納什均衡(即使我們現(xiàn)在的算法能很好的收斂到局部納什均衡)。
Mescheder等在2017年非常成功地解決了第二個問題,為了找到納什均衡,我們較好的工具是同步梯度上升算方法,一個由以下遞歸定義的迭代算法:
起初大家覺得這是一個重要的發(fā)現(xiàn),可能看起來還挺矛盾的:將GANs訓(xùn)練視為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一個特殊例子是很自然的,但實際上它是另外一種方法。
同步梯度下降算法(simultaneous gradient descent)是梯度下降算法的概括,而不是特例。
不收斂的矢量場
普通梯度下降算法與同步梯度下降算法(simultaneous gradient descent)的一個關(guān)鍵區(qū)別在于,前者只能夠收斂到向量場的固定點,后者可以處理不收斂的向量場。因此,我想花大部分在這篇文章里談?wù)撨@個差異以及這些術(shù)語是什么意思。
我們經(jīng)常在機器學(xué)習(xí)中遇到的則是另一個種(但不經(jīng)常將其視為矢量場)是由自動編碼器定義的矢量場。 AE的輸入一些向量x,并返回另一個相同大小的向量v(x)。比如在圖5是Alain和Bengio在201年對2D數(shù)據(jù)的自動編碼去噪聲的矢量場訓(xùn)練,效果相當(dāng)不錯:
由AE定義的矢量場不一定是收斂的,這意味著可能會產(chǎn)生一些不確定性的奇奇怪怪的問題。會有什么樣的奇怪的事情產(chǎn)生呢?讓我們來看一個極端的例子:恒定卷積矢量場,這是一個非常典型的不收斂矢量場例子:
這個向量場在零和游戲中經(jīng)常出現(xiàn)(譯者注:zero-sum game就是指“零和博弈”,指參與博弈的各方,在嚴(yán)格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠為“零”,雙方不存在合作的可能),其中。這和Salimans等人在2016年論文“Improved Techniques for Training GANs”中第3節(jié)里面提到的對抗生成網(wǎng)絡(luò)的框架里的一個小例子非常相似。如同在圓圈中的矢量場,可以很明顯的看到它 場中的旋轉(zhuǎn)。事實上,如果你沿著這個矢量場(同時這也是梯度下降的方向)的箭頭,你最終會進入圈子里,如圖所示:
可以把此矢量比作與埃舍爾的《不可思議城堡》(譯者注:埃舍爾,荷蘭 版畫家,因其繪畫中的數(shù)學(xué)性而聞名,有興趣的可以看看《不可能存在的存在》:http://www.360doc.com/content/17/0705/08/27794381_668875548.shtml)。在埃舍爾的“不可能存在的城堡”中,仆人認(rèn)為他們正在上臺階或者是在下臺階,但實際上他們所做的都是圍繞著圈子。當(dāng)然如果要將Escher的城堡構(gòu)建成是一個真正的3D 模型則是不可能的。類似地,不可能將卷積矢量場表示為標(biāo)量函數(shù)的梯度。
一個壞消息是,即使旋度場在處具有平衡點,同步梯度下降算法也將永遠發(fā)現(xiàn)不了。雖然我們我們共認(rèn)梯度下降算法能在局部收斂到最小值,但是同步下降算法一般不能收斂到均衡點。它會陷入一個死循環(huán),基于動量的變量甚至可以積累無限的動量直到完全崩潰。
一致優(yōu)化方法(Consensus optimization):訓(xùn)練一個不收斂的矢量場
Mescheder等人提出的解決方案是從原始構(gòu)造一個收斂的矢量場,如下:?因為我們將它定義為標(biāo)量函數(shù)L的梯度,這顯然是收斂的。很容易看出,這個新的矢量場-?L具有與v相同的固定點。下面我繪制了對應(yīng)于上述旋度場的收斂矢量場-?L:
這和我們之前熟悉的一樣,L的梯度下降要收斂到局部最小值,即固定點v?,F(xiàn)在的問題是,我們無法控制我們收斂到什么樣的固定點。我們要尋求一個正平衡,但是-δL不能區(qū)分鞍點(既不是極大值點也不是極小值點的臨界點)或平衡,或負(fù)平衡或正平衡之間。如下圖說明了矢量場
在左側(cè)的圖片中,我注釋了平衡點和鞍點。中間的圖片說明了收斂松弛點L,其中鞍點和平衡都轉(zhuǎn)向局部最小值。?
那我們該怎么辦?我們可以簡單地采用原始v和它相關(guān)的-?L進行線性組合,這種組合仍然是不收斂的矢量場看起來像旋度場(即上圖第三個圖片)。
通過這兩個矢量場的組合,我們可能會得到一個稍微更好的模型,但仍然是不收斂的矢量場。衡量矢量場的效果的一種方法是查看其雅可比矩陣v"(x)的特征值。雅可比矩陣是矢量場的導(dǎo)數(shù),對于收斂的矢量場,它被稱為海森矩陣或二階導(dǎo)數(shù)(譯者注:關(guān)于雅可比矩陣和海森矩陣可以參閱網(wǎng)絡(luò)資料——http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/)。與總是對稱的海森矩陣不同,非收斂場的雅可比是非對稱的,它可以具有復(fù)雜的特征值。例如旋度場的雅可比矩陣是
其特征值完全是虛構(gòu)的+ i和-i。
Mesceder等人通過將v與-?L線形組合,可以控制組合場的特征值(詳見論文),如果我們選擇足夠大的γ,則同步梯度下降算法將收斂到平衡。這真的是太贊了(6666666)!
可悲的是,當(dāng)我們增加γ時,我們也會像以前一樣引入虛假的均衡。這里所謂的平衡,其實際上只是v的鞍點。所以我們不能一味的關(guān)注γ,我們必須找到一個合理的中間地帶。這是這種方法的局限性,目前尚不清楚實際中極限是多少。
再說說另一種方法:隨機梯度方法的變種
平均指標(biāo)(average norm)和總體方差(population variance )可以以無偏差的方式估計。 我已經(jīng)和作者討論過了,我會邀請他們發(fā)表評論,說明他們在實驗中是如何做到的。 他們還承諾會在會議集影印版的論文中描述更多的細節(jié)。
總結(jié)
這篇論文讓我開拓了視野,本來我一直認(rèn)為在我們對抗生成網(wǎng)絡(luò)中使用的梯度下降算法只是梯度下降的一種特殊情況,但實際上它只是是一個泛化,梯度下降的良好屬性在這里并不能被認(rèn)為是理所當(dāng)然有的。希望這篇文章可以給大家?guī)硪粋€對抗生成網(wǎng)絡(luò)的滿意答案。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/4664.html
摘要:生成式對抗網(wǎng)絡(luò)簡稱將成為深度學(xué)習(xí)的下一個熱點,它將改變我們認(rèn)知世界的方式。配圖針對三年級學(xué)生的對抗式訓(xùn)練屬于你的最嚴(yán)厲的批評家五年前,我在哥倫比亞大學(xué)舉行的一場橄欖球比賽中傷到了自己的頭部,導(dǎo)致我右半身腰部以上癱瘓。 本文作者 Nikolai Yakovenko 畢業(yè)于哥倫比亞大學(xué),目前是 Google 的工程師,致力于構(gòu)建人工智能系統(tǒng),專注于語言處理、文本分類、解析與生成。生成式對抗網(wǎng)絡(luò)—...
摘要:但是在傳統(tǒng)的機器學(xué)習(xí)中,特征和算法都是人工定義的。傳統(tǒng)的深度學(xué)習(xí)中,是由人來決定要解決什么問題,人來決定用什么目標(biāo)函數(shù)做評估。 隨著柯潔與AlphaGo結(jié)束以后,大家是不是對人工智能的底層奧秘越來越有興趣?深度學(xué)習(xí)已經(jīng)在圖像分類、檢測等諸多領(lǐng)域取得了突破性的成績。但是它也存在一些問題。首先,它與傳統(tǒng)的機器學(xué)習(xí)方法一樣,通常假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)服從同樣的分布,或者是在訓(xùn)練數(shù)據(jù)上的預(yù)測結(jié)果與在...
摘要:運用深度學(xué)習(xí),這個系統(tǒng)能夠根據(jù)輸入的圖形用戶界面截圖直接輸出對應(yīng)的代碼,從而省去前端手動編寫代碼的過程。如果二者存在任何長度上的差異,同樣會被認(rèn)定為錯誤。我們相信未來將與人類協(xié)作,而不是代替人類。 UI設(shè)計和前端工程師之間,可能還需要一個神經(jīng)網(wǎng)絡(luò)。近日,位于哥本哈根的一家創(chuàng)業(yè)公司Uizard Technologies開發(fā)出了一個名為pix2code的系統(tǒng)。運用深度學(xué)習(xí),這個系統(tǒng)能夠根據(jù)輸入的...
摘要:但年在機器學(xué)習(xí)的較高級大會上,蘋果團隊的負(fù)責(zé)人宣布,公司已經(jīng)允許自己的研發(fā)人員對外公布論文成果。蘋果第一篇論文一經(jīng)投放,便在年月日,斬獲較佳論文。這項技術(shù)由的和開發(fā),使用了生成對抗網(wǎng)絡(luò)的機器學(xué)習(xí)方法。 GANs「對抗生成網(wǎng)絡(luò)之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網(wǎng)絡(luò)(GAN/Generative Adversarial ...
閱讀 2151·2023-04-25 22:58
閱讀 1485·2021-09-22 15:20
閱讀 2770·2019-08-30 15:56
閱讀 2115·2019-08-30 15:54
閱讀 2237·2019-08-29 12:31
閱讀 2839·2019-08-26 13:37
閱讀 667·2019-08-26 13:25
閱讀 2172·2019-08-26 11:58