GAN模式崩潰的理論解釋

hiYoHoo 發(fā)布于2019-04-25 18:31 / 979人閱讀

摘要：我們將這些現(xiàn)象籠統(tǒng)稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統(tǒng)深度神經(jīng)網(wǎng)絡只能逼近連續(xù)映射，這一矛盾造成了模式崩潰。

春節(jié)前夕，北美遭遇極端天氣，在酷寒中筆者來到哈佛大學探望丘成桐先生。新春佳節(jié)，本是普天同慶的日子，但對于孤懸海外的游子而言，卻是更為凄涼難耐。遠離父母親朋，遠離故國家園，自然環(huán)境寒風凜冽，飛雪漫天，社會環(huán)境疏離淡漠，冷清寂寥。在波士頓見到導師和朋友，倍感欣慰。筆者曾經(jīng)輔導過的Kylie剛剛從哈佛畢業(yè)。哈佛本科生的主流一般選擇進入華爾街的金融公司，Kylie卻特立獨行地選擇了教育。筆者輔導過的Simon剛剛被哈佛錄取，矢志投身數(shù)學。在查爾斯河畔的LegalSeafood, Kylie給了Simon很多在哈佛求學的建議?？吹降茏觽兊淖聣殉砷L，筆者不禁感慨萬千：時光荏苒，昭華流逝，人生苦短，擇英才而教之，生命才會更有意義！

筆者和哈佛大學統(tǒng)計系的劉軍教授交流，劉教授告訴筆者最近有麻省理工的學者來哈佛尋求教職，求職學術(shù)演講的主題就是最優(yōu)傳輸理論在深度學習中的應用。由此可以，深度學習的最優(yōu)傳輸理論解釋逐漸被廣泛接受。在哈佛大學的數(shù)學科學與應用中心（Harvard CMSA），丘先生和筆者進一步探討深度學習中對抗生成網(wǎng)絡和蒙日-安培方程理論的關(guān)系。

遙想二十多年前，筆者剛剛投到丘先生門下的時候，丘先生教給筆者的第一個幾何分析的利器就是蒙日-安培方程理論（Monge-Ampere Equation）。那時，筆者在麻省理工大學學習機器視覺課程，需要求解閔科夫斯基（Minkowski）問題，即利用高斯曲率反求曲面形狀。丘先生指導筆者用蒙日-安培方程來解決這一問題。當時無論如何也無法想象二十多年后，這一理論會在深度學習領(lǐng)域發(fā)揮重要作用。

近些年來，深度學習的革命幾乎席卷了整個計算機科學領(lǐng)域，尤其是這兩年來對抗生成網(wǎng)絡模型（GAN）石破天驚、一騎絕塵，而蒙日-安培理論恰好可以為GAN提供強有力的理論支持。多少年來，丘先生一直強調(diào)基礎(chǔ)理論的重要性，他曾經(jīng)多次說道：“人類歷史上技術(shù)的本質(zhì)發(fā)展都是來自基礎(chǔ)理論的重大突破，基礎(chǔ)理論突破后往往經(jīng)過數(shù)十年才會被工程技術(shù)領(lǐng)域所領(lǐng)會吸收。因此，對于科學的發(fā)展應該持有長遠的觀點，不能急功近利。”在筆者數(shù)十年的學術(shù)生涯中，多次見證了丘先生所預言的情形發(fā)生，例如陳類之于拓撲絕緣體，證明龐加萊猜測的黎奇曲率流（Ricci FLow）之于醫(yī)學圖像。

目前，筆者和很多合作者們傾向于認為蒙日-安培理論，最優(yōu)傳輸理論對深度學習的發(fā)展會起到實質(zhì)性作用，并為之孜孜以求。這次和丘先生主要討論蒙日-安培方程正則性理論關(guān)于GAN模型中模式崩潰（Mode Collapse）的解釋，細節(jié)請見論文【1】。

模式崩潰（Mode Collapse）

對抗生成網(wǎng)絡被廣泛應用于圖像生成領(lǐng)域，比較常用的有超分辨率、圖像翻譯、卡通人物生成、人體姿態(tài)生成、年齡變換、風格變換等等，超乎想象，精彩紛呈。另一方面，GAN模型訓練困難，變化無常，神秘莫測。由于其強烈的不穩(wěn)定性，目前難以大規(guī)模實用。

圖1. MNIST數(shù)據(jù)集 tSNE 嵌入在平面上，10個團簇對應著10個模式（modes）。模式崩潰（Mode Collapse）指生成模型只生成其中的幾種模式。

如圖1所示，給定數(shù)據(jù)集合，我們用編碼映射將其映入隱空間中，每個數(shù)字對應一個團簇，即MNIST數(shù)據(jù)的概率分布密度函數(shù)具有多個峰值，每個峰值被稱為是一個模式（mode）。理想情況下，生成模型應該能夠生成10個數(shù)字，如果只能生成其中的幾個，而錯失其它的模式，則我們稱這種現(xiàn)象為模式崩潰（mode collapse）。

具體而言，GAN訓練中經(jīng)常出現(xiàn)如下三個層次的問題：

訓練過程難以收斂，經(jīng)常出現(xiàn)震蕩；實驗結(jié)果隨機，難以復現(xiàn)；

訓練收斂，但是出現(xiàn)模式崩潰（Mode Collapse）。例如，我們用MNIST數(shù)據(jù)集訓練GAN模型，訓練后的GAN只能生成十個數(shù)字中的某一個；或者在人臉圖片的實驗中，只生成某一種風格的圖片。

用真實圖片訓練后的GAN模型涵蓋所有模式，但是同時生成一些沒有意義、或者現(xiàn)實中不可能出現(xiàn)的圖片。

我們將這些現(xiàn)象籠統(tǒng)稱為廣義的模式崩潰問題。如何解釋模式崩潰的原因，如何設(shè)計新型算法避免模式崩潰，這些是深度學習領(lǐng)域的更為基本的問題。我們用最優(yōu)傳輸中的Brenier理論，和蒙日-安培方程（Monge-Ampere）的正則性（regularity）理論來解釋模式崩潰問題。

GAN和蒙日-安培方程

我們以前討論過對抗生成網(wǎng)絡的最優(yōu)傳輸觀點：生成器（Generator）將隱空間的高斯分布變換成數(shù)據(jù)流形上一個分布，判別器（Discriminator）計算生成分布和真實數(shù)據(jù)分布之間的距離，例如Wasserstein距離。這些操作本質(zhì)上都可以用最優(yōu)傳輸理論來解釋，并且加以改進。以歐氏距離平方為代價函數(shù)的最優(yōu)傳輸問題歸結(jié)為Brenier理論，并且等價于凸幾何中的Alexandrov理論，最終歸結(jié)為蒙日-安培方程。

在工程計算中，我們通常用Alexandrov弱解來逼近真實解，我們以前討論過Alexandrov弱解的存在性和性。

蒙日-安培方程的正則性理論

由Brenier定理，Brenier勢能函數(shù)為整體Lipschitz，因此幾乎處處可導。我們稱可求導的點為正常點（regular point），不可求導的點為奇異點（singular point），則奇異點集合為零測度。我們考察每一點處的次微分，

圖2. 最優(yōu)傳輸映射中的奇異點集合，（蘇科華作）。

如圖2所示，目標測度的支集具有兩個聯(lián)通分支，我們稠密采樣目標測度，表示成定義在兩個團簇上面的狄拉克測度。我們?nèi)缓笥嬎忝扇?安培方程的Alenxandrov解。依隨采樣密度增加，狄拉克測度弱收斂到目標測度，Alenxandrov解收斂到真實解。我們看到Brenier勢能函數(shù)的Alenxandrov解可以表示成一張凸曲面，圖曲面中間有一條脊線（ridge），脊線的投影是最優(yōu)傳輸映射的奇異點集

圖3. GPU版本的最優(yōu)傳輸映射（郭洋、Simon Lam 作）。

圖3顯示了基于GPU算法的從平面長方形上的均勻分布到兩個半圓盤上的均勻分布的最優(yōu)傳輸映射，長方形的中線顯示了最優(yōu)傳輸映射的奇異點集

圖4. GPU版本的最優(yōu)傳輸映射（郭洋、Simon Lam作）。

圖4從平面長方形上的均勻分布到啞鈴形狀上的均勻分布的最優(yōu)傳輸映射，仔細觀察，我們可以看出最優(yōu)傳輸映射的奇異點集是中線上的兩條線段，介于紅藍斑點之間。

圖5. 最優(yōu)傳輸映射的奇異點結(jié)構(gòu)（齊鑫、蘇科華作）。

圖6. 實心兔子和實心球之間的最優(yōu)傳輸映射，表面皺褶結(jié)構(gòu)，(蘇科華作)。

最優(yōu)傳輸映射的奇異點結(jié)構(gòu)理論在高維空間依然成立，如圖6所示，實心球體和實心兔子體之間的最優(yōu)傳輸映射誘導了兔子表面上的大量皺褶，最優(yōu)傳輸映射在皺褶處間斷。

模式崩潰的理論解釋

目前的深度神經(jīng)網(wǎng)絡只能夠逼近連續(xù)映射，而傳輸映射是具有間斷點的非連續(xù)映射，換言之，GAN訓練過程中，目標映射不在DNN的可表示泛函空間之中，這一顯而易見的矛盾導致了收斂困難；如果目標概率測度的支集具有多個聯(lián)通分支，GAN訓練得到的又是連續(xù)映射，則有可能連續(xù)映射的值域集中在某一個連通分支上，這就是模式崩潰（mode collapse）；如果強行用一個連續(xù)映射來覆蓋所有的連通分支，那么這一連續(xù)映射的值域必然會覆蓋之外的一些區(qū)域，即GAN會生成一些沒有現(xiàn)實意義的圖片。這給出了GAN模式崩潰的直接解釋。

那么，如何來用真實數(shù)據(jù)驗證我們的猜測呢？我們用CelebA數(shù)據(jù)集驗證了傳輸映射的非連續(xù)性。

圖7. AE-OT體系結(jié)構(gòu)。

圖8. AE-OT生成的人臉圖像。

圖10. 在隱空間進行插值的結(jié)果。

那么如何避免模式崩潰呢？通過以上分析我們知道，深度神經(jīng)網(wǎng)絡只能逼近連續(xù)映射，傳輸映射本身是非連續(xù)的，這一內(nèi)在矛盾引發(fā)了模式崩潰。但是最優(yōu)傳輸映射是Brenier勢能函數(shù)的梯度，Brenier勢能函數(shù)本身是連續(xù)的，因此深度神經(jīng)網(wǎng)絡應該來逼近Brenier勢能函數(shù)，而非傳輸映射。更進一步，我們應該判斷Brenier勢能函數(shù)的奇異點，即圖2中的脊線和圖6中的皺褶。

小結(jié)

基于真實數(shù)據(jù)的流形分布假設(shè)，我們將深度學習的主要任務分解為學習流形結(jié)構(gòu)和概率變換兩部分；概率變換可以用最優(yōu)傳輸理論來解釋和實現(xiàn)?；贐renier理論，我們發(fā)現(xiàn)GAN模型中的生成器D和判別器G計算的函數(shù)彼此可以相互表示，因此生成器和判別器應該交流中間計算結(jié)果，用合作代替競爭。Brenier理論等價于蒙日-安培方程，蒙日-安培方程正則性理論表明：如果目標概率分布的支集非凸，那么存在零測度的奇異點集，傳輸映射在奇異點處間斷。而傳統(tǒng)深度神經(jīng)網(wǎng)絡只能逼近連續(xù)映射，這一矛盾造成了模式崩潰。

通過計算Brenier勢能函數(shù)，并且判定奇異點集，我們可以避免模式崩潰。這些算法存在GPU實現(xiàn)方式。這種方法更為穩(wěn)定，魯棒，訓練效率大為提升，并且用透明的理論模型部分取代了經(jīng)驗的黑箱。

References

【1】Na Lei, Yang Guo, Dongsheng An, Xin Qi, Zhongxuan Luo, Shing-Tung Yau, Xianfeng Gu. "Mode Collapse and Regularity of Optimal Transportation Maps", ArXiv:1902.02934

聲明：文章收集于網(wǎng)絡，為傳播信息而發(fā)，如有侵權(quán)，請聯(lián)系小編及時處理，謝謝！

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務器云服務器解釋器模式深度學習使用的理論 ai語音的基礎(chǔ)理論解釋域名的意義

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/4847.html

發(fā)表評論

登陸后可評論

0條評論

hiYoHoo

男|高級講師

我要關(guān)注我要私信

TA的文章

國際短信平臺怎么找？如何選擇正規(guī)靠譜的國際短信平臺？

閱讀 1638·2021-11-22 13:52
阿里云開發(fā)板HaaS510解析串口JSON數(shù)據(jù)并發(fā)送屬性

閱讀 1470·2021-09-29 09:34
解決無法訪問此網(wǎng)址，網(wǎng)址永久性地移動到新網(wǎng)址的問題（ERR_TUNNEL_CONNECTION_FA

閱讀 2846·2021-09-09 11:40
【項目記錄】個人主頁設(shè)計和實現(xiàn)

閱讀 3089·2019-08-30 15:54
css寫作建議和性能優(yōu)化小結(jié)

閱讀 1321·2019-08-30 15:53
三欄布局-左右寬固定,中間自適應

閱讀 1038·2019-08-30 11:01
Iconfont使用手冊

閱讀 1438·2019-08-29 17:22
Vue中消息橫向滾動時,滾動速度越來越快的問題

閱讀 2018·2019-08-26 10:57

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

GAN模式崩潰的理論解釋

相關(guān)文章

**王飛躍等：生成式對抗網(wǎng)絡 GAN 的研究進展與展望**

GAN--提升GAN訓練的技巧匯總

**DeepMind提出Auto-encoding GAN的變分方法**

GAN和蒙日-安培方程理論

**為什么讓GAN一家獨大？Facebook提出非對抗式生成方法GLANN**

發(fā)表評論

0條評論

hiYoHoo

男|高級講師

TA的文章

國際短信平臺怎么找？如何選擇正規(guī)靠譜的國際短信平臺？

阿里云開發(fā)板HaaS510解析串口JSON數(shù)據(jù)并發(fā)送屬性

解決無法訪問此網(wǎng)址，網(wǎng)址永久性地移動到新網(wǎng)址的問題（ERR_TUNNEL_CONNECTION_FA

【項目記錄】個人主頁設(shè)計和實現(xiàn)

css寫作建議和性能優(yōu)化小結(jié)

三欄布局-左右寬固定,中間自適應

Iconfont使用手冊

Vue中消息橫向滾動時,滾動速度越來越快的問題

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

GAN模式崩潰的理論解釋

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！