成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

為什么讓GAN一家獨大?Facebook提出非對抗式生成方法GLANN

iOS122 / 1091人閱讀

摘要:的兩位研究者近日融合了兩種非對抗方法的優(yōu)勢,并提出了一種名為的新方法。的缺陷讓研究者開始探索用非對抗式方案來訓練生成模型,和就是兩種這類方法。不幸的是,目前仍然在圖像生成方面顯著優(yōu)于這些替代方法。

生成對抗網絡(GAN)在圖像生成方面已經得到了廣泛的應用,目前基本上是 GAN 一家獨大,其它如 VAE 和流模型等在應用上都有一些差距。盡管 wasserstein 距離極大地提升了 GAN 的效果,但其仍在理論上存在訓練不穩(wěn)定和模式丟失的問題。Facebook 的兩位研究者近日融合了兩種非對抗方法的優(yōu)勢,并提出了一種名為 GLANN 的新方法。

這種新方法在圖像生成上能與 GAN 相媲美,也許除了 VAE、Glow 和 Pixcel CNN,這種新模型也能加入到無監(jiān)督生成的大家庭中。當然在即將到來的 2019 年中,我們也希望 GAN 之外的更多生成模型會得到更多的成長,也希望生成模型能有更多的新想法。

生成式圖像建模是計算機視覺長期以來的一大研究方向。無條件生成模型的目標是通過給定的有限數(shù)量的訓練樣本學習得到能生成整個圖像分布的函數(shù)。生成對抗網絡(GAN)是一種新的圖像生成建模技術,在圖像生成任務上有廣泛的應用,原因在于:1)能訓練有效的無條件圖像生成器;2)幾乎是一種能用于不同域之間無監(jiān)督圖像轉換的方法(但還有 NAM 也能做圖像轉換);3)是一種有效的感知式圖像損失函數(shù)(例如 Pix2Pix)。

?

GAN 有明顯的優(yōu)勢,但也有一些關鍵的缺點:1)GAN 很難訓練,具體表現(xiàn)包括訓練過程非常不穩(wěn)定、訓練突然崩潰和對超參數(shù)極其敏感。2)GAN 有模式丟失(mode-dropping)問題——只能建模目標分布的某些模式而非所有模式。例如如果我們用 GAN 生成 0 到 9 十個數(shù)字,那么很可能 GAN 只關注生成「1」這個數(shù)字,而很少生成其它 9 個數(shù)字。

一般我們可以使用生日悖論(birthday paradox)來衡量模式丟失的程度:生成器成功建模的模式數(shù)量可以通過生成固定數(shù)量的圖像,并統(tǒng)計重復圖像的數(shù)量來估計。對 GAN 的實驗評估發(fā)現(xiàn):學習到的模式數(shù)量顯著低于訓練分布中的數(shù)量。

?

GAN 的缺陷讓研究者開始探索用非對抗式方案來訓練生成模型,GLO 和 IMLE 就是兩種這類方法。Bojanowski et al. 提出的 GLO 是將訓練圖像嵌入到一個低維空間中,并在該嵌入向量輸入到一個聯(lián)合訓練的深度生成器時重建它們。GLO 的優(yōu)勢有:1)無模式丟失地編碼整個分布;2)學習得到的隱含空間能與圖像的形義屬性相對應,即隱含編碼之間的歐幾里德距離對應于形義方面的含義差異。但 GLO 有一個關鍵缺點,即沒有一種從嵌入空間采樣新圖像的原則性方法。盡管 GLO 的提出者建議用一個高斯分布來擬合訓練圖像的隱編碼,但這會導致圖像合成質量不高。

IMLE 則由 Li and Malik 提出,其訓練生成模型的方式是:從一個任意分布采樣大量隱含編碼,使用一個訓練后的生成器將每個編碼映射到圖像域中并確保對于每張訓練圖像都存在一張相近的生成圖像。IMLE 的采樣很簡單,而且沒有模式丟失問題。類似于其它最近鄰方法,具體所用的指標對 IMLE 影響很大,尤其是當訓練集大小有限時。回想一下,盡管經典的 Cover-Hart 結果告訴我們最近鄰分類器的誤差率漸進地處于貝葉斯風險的二分之一范圍內,但當我們使用有限大小的示例樣本集時,選擇更好的指標能讓分類器的表現(xiàn)更好。當使用 L2 損失直接在圖像像素上訓練時,IMLE 合成的圖像是模糊不清的。

?

在本研究中,我們提出了一種名為「生成式隱含最近鄰(GLANN:Generative Latent Nearest Neighbors)」的新技術,能夠訓練出與 GAN 質量相當或更優(yōu)的生成模型。我們的方法首次使用了 GLO 來嵌入訓練圖像,從而克服了 IMLE 的指標問題。由 GLO 為隱含空間引入的迷人的線性特性能讓歐幾里德度量在隱含空間 Z 中具有形義含義。我們訓練了一個基于 IMLE 的模型來實現(xiàn)任意噪聲分布 E 和 GLO 隱含空間 Z 之間的映射。然后,GLO 生成器可以將生成得到的隱含編碼映射到像素空間,由此生成圖像。我們的 GLANN 方法集中了 IMLE 和 GLO 的雙重優(yōu)勢:易采樣、能建模整個分布、訓練穩(wěn)定且能合成銳利的圖像。圖 1 給出了我們的方法的一種方案。

圖 1:我們的架構的示意圖:采樣一個隨機噪聲向量 e 并將其映射到隱含空間,得到隱含編碼 z = T(e)。該隱含編碼再由生成器投射到像素空間,得到圖像 I = G(z)

?

我們使用已確立的指標評估了我們的方法,發(fā)現(xiàn)其顯著優(yōu)于其它的非對抗式方法,同時其表現(xiàn)也比當前的基于 GAN 的模型更優(yōu)或表現(xiàn)相當。GLANN 也在高分辨率圖像生成和 3D 生成上得到了出色的結果。最后,我們表明 GLANN 訓練的模型是最早的能真正執(zhí)行非對抗式無監(jiān)督圖像轉換的模型。

?

論文:使用生成式隱含最近鄰的非對抗式圖像合成

論文鏈接:https://arxiv.org/pdf/1812.08985v1.pdf

生成對抗網絡(GAN)近來已經主導了無條件圖像生成領域。GAN 方法會訓練一個生成器和一個判別器,其中生成器根據(jù)隨機噪聲向量對圖像進行回歸操作,判別器則會試圖分辨生成的圖像和訓練集中的真實圖像。GAN 已經在生成看似真實的圖像上取得了出色的表現(xiàn)。GAN 盡管很成功,但也有一些關鍵性缺陷:訓練不穩(wěn)定和模式丟失。GAN 的缺陷正促使研究者研究替代方法,其中包括變分自編碼器(VAE)、隱含嵌入學習方法(比如 GLO)和基于最近鄰的隱式較大似然估計(IMLE)。不幸的是,目前 GAN 仍然在圖像生成方面顯著優(yōu)于這些替代方法。在本研究中,我們提出了一種名為「生成式隱含最近鄰(GLANN)」的全新方法,可不使用對抗訓練來訓練生成模型。GLANN 結合了 IMLE 和 GLO 兩者之長,克服了兩種方法各自的主要缺點。結果就是 GLANN 能生成比 IMLE 和 GLO 遠遠更好的圖像。我們的方法沒有困擾 GAN 訓練的模式崩潰問題,而且要穩(wěn)定得多。定性結果表明 GLANN 在常用數(shù)據(jù)集上優(yōu)于 800 個 GAN 和 VAE 構成的基線水平。研究還表明我們的模型可以有效地用于訓練真正的非對抗式無監(jiān)督圖像轉換。

方法

我們提出的 GLANN(生成式隱含最近鄰)方法克服了 GLO 和 IMLE 兩者的缺點。GLANN 由兩個階段構成:1)使用 GLO 將高維的圖像空間嵌入到一個「行為良好的」隱含空間;2)使用 IMLE 在一個任意分布(通常是一個多維正態(tài)分布)和該低維隱含空間之間執(zhí)行映射。

?

實驗

為了評估我們提出的方法的表現(xiàn),我們執(zhí)行了定量和定性實驗來比較我們的方法與已確立的基線水平。

表 1:生成質量(FID/ Frechet Inception Distance)

?

圖 2:在 4 個數(shù)據(jù)集上根據(jù)衡量的精度-召回率情況。這些圖表來自 [31]。我們用星標在相關圖表上標出了我們的模型在每個數(shù)據(jù)集上的結果。

?

圖 3:IMLE [24]、GLO [5]、GAN [25] 與我們的方法的合成結果比較。第一排:MNIST。第二排:Fashion。第三排:CIFAR10。最后一排:CelebA64。IMLE 下面空缺的部分在 [24] 中沒有給出。GAN 的結果來自 [25],對應于根據(jù)精度-召回率指標評估的 800 個生成模型中較好的一個。

?

圖 4:在 CelebA-HQ 上以 256×256 的分辨率得到的插值實驗結果。最左邊和最右邊的圖像是根據(jù)隨機噪聲隨機采樣得到的。中間的插值圖像很平滑而且視覺質量很高。

?

圖 5:在 CelebA-HQ 上以 1024×1024 的分辨率得到的插值實驗結果

?

圖 6:GLANN 生成的 3D 椅子圖像示例

討論

損失函數(shù):在這項研究中,我們用一種感知損失(perceptual loss)代替了標準的對抗損失函數(shù)。在實踐中我們使用了 ImageNet 訓練后的 VGG 特征。Zhang et al. [40] 宣稱自監(jiān)督的感知損失的效果并不比 ImageNet 訓練的特征差。因此,我們的方法很可能與自監(jiān)督感知損失有相似的表現(xiàn)。

?

更高的分辨率:分辨率從 64×64 到 256×256 或 1024×1024 的增長是通過對損失函數(shù)進行簡單修改而實現(xiàn)的:感知損失是在原始圖像以及該圖像的一個雙線性下采樣版本上同時計算的。提升到更高的分辨率只簡單地需要更多下采樣層級。研究更復雜精細的感知損失也許還能進一步提升合成質量。

?

其它模態(tài):我們這項研究關注的重點是圖像合成。我們相信我們的方法也可以擴展到很多其它模態(tài),尤其是 3D 和視頻。我們的方法流程簡單,對超參數(shù)穩(wěn)健,這些優(yōu)點使其可比 GAN 遠遠更簡單地應用于其它模態(tài)。我們在 4.4 節(jié)給出了一些說明這一點的證據(jù)。未來的一大研究任務尋找可用于 2D 圖像之外的其它域的感知損失函數(shù)。

聲明:文章收集于網絡,如有侵權,請聯(lián)系小編及時處理,謝謝!歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://m.hztianpu.com/yun/4830.html

相關文章

  • 專訪Goodfellow:欲在谷歌打造GAN團隊,用假數(shù)據(jù)訓練真模型

    摘要:是世界上最重要的研究者之一,他在谷歌大腦的競爭對手,由和創(chuàng)立工作過不長的一段時間,今年月重返,建立了一個探索生成模型的新研究團隊。機器學習系統(tǒng)可以在這些假的而非真實的醫(yī)療記錄進行訓練。今年月在推特上表示是的,我在月底離開,并回到谷歌大腦。 理查德·費曼去世后,他教室的黑板上留下這樣一句話:我不能創(chuàng)造的東西,我就不理解。(What I cannot create, I do not under...

    JaysonWang 評論0 收藏0
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

    摘要:文本谷歌神經機器翻譯去年,谷歌宣布上線的新模型,并詳細介紹了所使用的網絡架構循環(huán)神經網絡。目前唇讀的準確度已經超過了人類。在該技術的發(fā)展過程中,谷歌還給出了新的,它包含了大量的復雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經網絡畫畫。 1. 文本1.1 谷歌神經機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細介紹了所使用的網絡架構——循環(huán)神經網絡(RNN)。關鍵結果:與...

    kuangcaibao 評論0 收藏0
  • 火熱的生成對抗網絡(GAN),你究竟好在哪里

    摘要:自年提出生成對抗網絡的概念后,生成對抗網絡變成為了學術界的一個火熱的研究熱點,更是稱之為過去十年間機器學習領域最讓人激動的點子。 自2014年Ian Goodfellow提出生成對抗網絡(GAN)的概念后,生成對抗網絡變成為了學術界的一個火熱的研究熱點,Yann LeCun更是稱之為過去十年間機器學習領域最讓人激動的點子。生成對抗網絡的簡單介紹如下,訓練一個生成器(Generator,簡稱G...

    mist14 評論0 收藏0
  • OpenAI Ian Goodfellow的Quora問答:高歌猛進的機器學習人生

    摘要:我仍然用了一些時間才從神經科學轉向機器學習。當我到了該讀博的時候,我很難在的神經科學和的機器學習之間做出選擇。 1.你學習機器學習的歷程是什么?在學習機器學習時你最喜歡的書是什么?你遇到過什么死胡同嗎?我學習機器學習的道路是漫長而曲折的。讀高中時,我興趣廣泛,大部分和數(shù)學或科學沒有太多關系。我用語音字母表編造了我自己的語言,我參加了很多創(chuàng)意寫作和文學課程。高中畢業(yè)后,我進了大學,盡管我不想去...

    nihao 評論0 收藏0
  • 王飛躍等:生成對抗網絡 GAN 的研究進展與展望

    摘要:引用格式王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍生成對抗網絡的研究與展望自動化學報,論文作者王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍摘要生成式對抗網絡目前已經成為人工智能學界一個熱門的研究方向。本文概括了的研究進展并進行展望。 3月27日的新智元 2017 年技術峰會上,王飛躍教授作為特邀嘉賓將參加本次峰會的 Panel 環(huán)節(jié),就如何看待中國 AI學術界論文數(shù)量多,但大師級人物少的現(xiàn)...

    xiaokai 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<