成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

「我是可微分編程的粉絲」,Gary Marcus再回應(yīng)深度學(xué)習(xí)批判言論

Leo_chen / 2967人閱讀

摘要:我的核心觀點(diǎn)是盡管我提出了這么多問題,但我不認(rèn)為我們需要放棄深度學(xué)習(xí)。對(duì)于層級(jí)特征,深度學(xué)習(xí)是非常好,也許是有史以來效果較好的。認(rèn)為有問題的是監(jiān)督學(xué)習(xí),并非深度學(xué)習(xí)。但是,其他監(jiān)督學(xué)習(xí)技術(shù)同病相連,無法真正幫助深度學(xué)習(xí)。

所有真理必經(jīng)過三個(gè)階段:第一,被嘲笑;第二,被激烈反對(duì);第三,被不證自明地接受?!灞救A(德國(guó)哲學(xué)家,1788-1860)

在上篇文章中(參見:打響新年第一炮,Gary Marcus 提出對(duì)深度學(xué)習(xí)的系統(tǒng)性批判),我列出了深度學(xué)習(xí)的十大挑戰(zhàn),并認(rèn)為深度學(xué)習(xí)本身盡管很有用,但不太可能獨(dú)自實(shí)現(xiàn)通用人工智能。我認(rèn)為深度學(xué)習(xí)「并非一種通用的解決方案,而只是眾多工具之一」。

取代純粹深度學(xué)習(xí)的將是混合模型,它不僅具有深度學(xué)習(xí)的監(jiān)督形式,還包含其他技術(shù),比如符號(hào)處理(symbol-manipulation)和無監(jiān)督學(xué)習(xí)(也可能會(huì)被重新概念化)。我同樣敦促社區(qū)將更多的先驗(yàn)結(jié)構(gòu)(innate structure)納入 AI 系統(tǒng)。

文章一推出,引來數(shù)千人在 Twitter 上討論,有些人非常認(rèn)同(比如「這是很多年來我讀過的較好的深度學(xué)習(xí)與 AI 文章」),有些人反對(duì)(「很有想法… 但大部分是錯(cuò)的」)。

我認(rèn)為清晰地認(rèn)識(shí)這些問題很重要,因此我編輯了一個(gè)包含 14 個(gè)常見問題的清單:無監(jiān)督學(xué)習(xí)的用武之地在哪兒?為什么我沒有描述有關(guān)深度學(xué)習(xí)的更美好事情?是什么給了我權(quán)利首先討論這一事情?讓神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從偶數(shù)到奇數(shù)的泛化有何意義?(這是最重要的問題)以及更多其他問題。我沒有涉及所有問題,但是我盡量做到有代表性。

1. 什么是通用智能?

機(jī)器學(xué)習(xí)著名教授 Thomas Dietterich,我目前最徹底而明確的反對(duì)者,給出了一個(gè)讓我非常滿意的回答:

「通用智能」是一個(gè)系統(tǒng),可在一系列的目標(biāo)和環(huán)境中智能地執(zhí)行動(dòng)作??蓞⒁?Russell 與 Norvig 的教科書《人工智能:一種現(xiàn)代方法》,其中把智能定義為「理性地行動(dòng)」。

2. Marcus 不喜歡深度學(xué)習(xí)。他應(yīng)該多說些深度學(xué)習(xí)的大量應(yīng)用所取得的實(shí)際成果。

上面提及的 Thomas Dietterich 教授寫到:Gary Marcus 的文章令人失望。他很少述及深度學(xué)習(xí)的成就(比如自然語(yǔ)言翻譯),并小看了其他成果(比如包含 1000 個(gè)類別的 ImageNet 是小型的/「非常有限」)。

對(duì)于第一點(diǎn),我當(dāng)然可以說出更多成果,但是卻沒有,就像我忘記提及 Dietterich 的較佳實(shí)例;不過我在《Deep Learning: A Critical Appraisal》第一頁(yè)就提到:

深度學(xué)習(xí)取得了大量的當(dāng)前較佳結(jié)果,比如在語(yǔ)音識(shí)別、圖像識(shí)別和語(yǔ)言翻譯領(lǐng)域,并在當(dāng)前廣泛的 AI 應(yīng)用中發(fā)揮著重要作用。

稍后我將在文中引用若干個(gè)很不錯(cuò)的文本和博文,其中包含大量的實(shí)例。但是其中大多數(shù)不能被稱為 AGI,這是我的論文主旨。(比如,谷歌翻譯非常贊,但不通用,它無法像人一樣回答關(guān)于其翻譯內(nèi)容的問題。)

第二點(diǎn)更加真實(shí)。1000 個(gè)分類真的很有限嗎?是的,如果與認(rèn)知的靈活性相比的話。認(rèn)知科學(xué)家通常認(rèn)為個(gè)體所知道的概念數(shù)量是 50000 個(gè),并且人類可以輕易地把這些概念組合成數(shù)量更多的復(fù)雜想法。寵物(pet)和魚(fish)很可能在這 50000 個(gè)概念之中;而一個(gè)不同的概念寵物魚(pet fish)很可能不在。并且我可以輕易地接受「a pet fish that is suffering from Ick」這個(gè)概念,或者注意到「it is always disappointing to buy a pet fish only to discover that it was infected with Ick」(我小時(shí)候得過 Ick 這種病,至今依然很排斥)。我可以表達(dá)多少像這樣的想法?明顯超過 1000。

我并不確切知道人類可識(shí)別多少視覺范疇,但我的猜測(cè)大體不差。試著谷歌一下有關(guān)「pet fish」的圖像,沒問題;然后再試下「pet fish wearing goggles」,你得到的大多是帶著眼鏡的狗,錯(cuò)誤率超過 80%。

依我看,ImageNet 限定為 1000 個(gè)類別本身對(duì)機(jī)器學(xué)習(xí)就是一種危害,它取得了短期的成功,卻避開了更難、更開放、必須最終解決的問題(比如場(chǎng)景和語(yǔ)句理解)。相較于本質(zhì)上我們可以看到和理解的無限的語(yǔ)句、場(chǎng)景,1000 個(gè)類別實(shí)在是太少了(參見文末 Note 2)。

3. Marcus 說深度學(xué)習(xí)沒有什么用,但它對(duì)很多任務(wù)都有實(shí)際意義

當(dāng)然深度學(xué)習(xí)是有用的,我從沒這樣說過它沒有用。只是說在目前監(jiān)督學(xué)習(xí)的形式下,深度學(xué)習(xí)可能正接近它的極限;這些極限將阻礙我們通往通用人工智能的進(jìn)程——除非我們開始結(jié)合符號(hào)運(yùn)算和先天經(jīng)驗(yàn)等。

我的核心觀點(diǎn)是:盡管我提出了這么多問題,但我不認(rèn)為我們需要放棄深度學(xué)習(xí)。相反,我們需要對(duì)其進(jìn)行重新概念化:它不是一個(gè)普遍的解決辦法,而僅僅只是眾多工具中的一個(gè)。我們有電動(dòng)螺絲刀,但我們還需要錘子、扳手和鉗子,因此我們不能只提到鉆頭、電壓表、邏輯探頭和示波器。

4. Gary Marcus 說 DL 對(duì)于層級(jí)結(jié)構(gòu)來說并不夠好,但是 LeCun 表明深度學(xué)習(xí)非常擅長(zhǎng)利用這種層級(jí)結(jié)構(gòu)

這是 Ram Shankar 提出的非常機(jī)敏的問題,我應(yīng)該更清楚地回答:我們能考慮的層級(jí)結(jié)構(gòu)有很多種。對(duì)于層級(jí)特征,深度學(xué)習(xí)是非常好,也許是有史以來效果較好的。就像 LeCun 所說的那樣能高效處理特征層面的層級(jí)結(jié)構(gòu),我們通常把它表示為層級(jí)的特征檢測(cè)。這就像我們用點(diǎn)構(gòu)建線、用線構(gòu)建字、用字構(gòu)建句子那樣。Kurzweil 和 Hawkins 也著重強(qiáng)調(diào)這一點(diǎn),且這種層級(jí)結(jié)構(gòu)真的可以追溯到 Hubel 和 Wiesel(1959)的神經(jīng)科學(xué)試驗(yàn)和 Fukushima 在 AI 上的觀點(diǎn)(Fukushima, Miyake, & Ito, 1983)。Fukushima 在他的神經(jīng)認(rèn)知學(xué)模型中手動(dòng)構(gòu)建了許多抽象特征的層級(jí)表示,而 LeCun 和很多研究者表示我們不需要手動(dòng)完成這件事,讓機(jī)器執(zhí)行就行了。

但是這種方式并不需要追蹤所遇到的子成分,頂層系統(tǒng)不需要明確地編碼整個(gè)輸出的結(jié)構(gòu),這也是為什么深度學(xué)習(xí)系統(tǒng)會(huì)出現(xiàn)對(duì)抗樣本的挑戰(zhàn)。例如在典型的圖像識(shí)別深度網(wǎng)絡(luò)中,沒有完全認(rèn)知到校車由輪子、底盤、車窗等構(gòu)成,因此它們會(huì)認(rèn)為黃色和黑色的條紋就是校車((Nguyen, Yosinski, & Clune, 2014),且這種條紋的模型與校車的輸出單元激活值密切相關(guān)。[Note 3]

我所討論的層級(jí)結(jié)構(gòu)是不同的,它圍繞著可以被明確解釋的整體和部分之間的關(guān)系而構(gòu)建。經(jīng)典的證明是喬姆斯基的層級(jí)觀點(diǎn),在一個(gè)有復(fù)雜語(yǔ)法單元組成的句子中,如使用新穎的短語(yǔ)「the man who mistook his hamburger for a hot dog with a larger sentence like The actress」代替「she would not be outdone by the man who mistook his hamburger for a hot dog」。

我不認(rèn)為深度學(xué)習(xí)在理解上述的女演員、男人、和熱狗之間的關(guān)系,盡管它會(huì)嘗試著去理解。

即使在視覺上,問題也會(huì)存在,例如 Hinton 最近關(guān)于 Capsule 的研究(Sabour, Frosst, & Hinton, 2017),他們?cè)噲D通過使用更多結(jié)構(gòu)化的網(wǎng)絡(luò)在編碼方向上構(gòu)建更魯棒的圖像識(shí)別模型。我認(rèn)為這是一個(gè)很好的趨勢(shì),也是一個(gè)潛在能解決對(duì)抗樣本問題的方法。

5. 在通用人工智能的環(huán)境下討論深度學(xué)習(xí)是有問題的,因?yàn)樯疃葘W(xué)習(xí)的目標(biāo)就不是通用人工智能!

這個(gè)問題較好的回答是魁北克教授 Daniel Lemire 所說的:「Oh! Come on! Hinton, Bengio… are openly going for a model of human intelligence」。

其實(shí)有很多學(xué)界領(lǐng)軍人物都表明深度學(xué)習(xí)是很難找到它的極限的,它能面對(duì)超乎我們想象的困難。DeepMind 最近的 AlphaGo 論文 [見 Note 4] 有類似的定位,Silver 等人(Silver et al., 2017)表明:

「我們的研究結(jié)果全面地證明了,一個(gè)純粹 [深度] 強(qiáng)化學(xué)習(xí)方法是完全可行的,即使在最具挑戰(zhàn)的領(lǐng)域?!?/p>

總之而言,人們持續(xù)對(duì)人類水平和 AI 系統(tǒng)的性能進(jìn)行基準(zhǔn)測(cè)試,很大的原因就是因?yàn)?AGI 就是我們的目標(biāo)。

6. Marcus 認(rèn)為有問題的是監(jiān)督學(xué)習(xí),并非深度學(xué)習(xí)。

Yann LeCun 在我的 Facebook 主頁(yè)中發(fā)表了以下評(píng)論:

我沒有時(shí)間做出完整的回應(yīng),但總而言之:(1)我認(rèn)為文章的大部分觀點(diǎn)都有錯(cuò)誤。如果文中所有「深度學(xué)習(xí)」的實(shí)例都被「監(jiān)督學(xué)習(xí)」取代,那么錯(cuò)誤就會(huì)大大減少。(2)尋找一種將深度學(xué)習(xí)的概念拓展到無監(jiān)督學(xué)習(xí)和推理中的方法,正是過去 2.5 年來我一直倡導(dǎo)的。我不只是在倡導(dǎo)它,實(shí)際上我一直在努力...... 你對(duì)這件事很了解,但是你沒在論文中寫明。

上述評(píng)論中,所謂我不承認(rèn) LeCun 最近的工作這一部分有些奇怪。誠(chéng)然,我沒能找到一篇能在我文中引用的總結(jié)性文章(當(dāng)我問 LeCun 時(shí),他通過郵件告訴我還沒有這樣一個(gè)文章),但是我明確地提到了他的興趣:

最近深度學(xué)習(xí)先驅(qū) Geoffrey Hinton 和 Yann LeCun 都表明無監(jiān)督學(xué)習(xí)是超越有監(jiān)督、少數(shù)據(jù)深度學(xué)習(xí)的關(guān)鍵方法。

我同樣在文中指明:我們要清楚,深度學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并不是邏輯對(duì)立的。深度學(xué)習(xí)主要用于帶標(biāo)注數(shù)據(jù)的有監(jiān)督學(xué)習(xí),但是也有一些方法可以在無監(jiān)督環(huán)境下使用深度學(xué)習(xí)。

我的結(jié)論也是積極的。雖然我對(duì)目前建立無監(jiān)督學(xué)習(xí)系統(tǒng)的方法表達(dá)了保留意見,但我最終的結(jié)語(yǔ)是樂觀的:如果我們建立了能設(shè)定自身目標(biāo)的系統(tǒng),并在更抽象的層面上進(jìn)行推理和解決問題,那么人工智能領(lǐng)域?qū)?huì)有重大的進(jìn)展。

LeCun 的評(píng)論中正確的部分是,我提到的許多問題是監(jiān)督學(xué)習(xí)中的普遍問題,而非深度學(xué)習(xí)所特有的問題。我本可以更清楚地闡明這一點(diǎn)。許多其他的監(jiān)督學(xué)習(xí)技術(shù)面臨類似的挑戰(zhàn),例如泛化以及對(duì)海量數(shù)據(jù)集的依賴;而在我所說的問題中,深度學(xué)習(xí)所特有的問題相對(duì)較少。

但是,其他監(jiān)督學(xué)習(xí)技術(shù)同病相連,無法真正幫助深度學(xué)習(xí)。如果有人能提出一個(gè)真正令人欽佩的、以無監(jiān)督的方式進(jìn)行深度學(xué)習(xí)的方法,可能對(duì)深度學(xué)習(xí)需要重新進(jìn)行評(píng)估。然而,我沒有看到那種無監(jiān)督學(xué)習(xí),至少是目前所追求的。目前,它們都無法對(duì)于我提出的挑戰(zhàn)(例如推理、層級(jí)表征、遷移、魯棒性和可解釋性)進(jìn)行補(bǔ)救?,F(xiàn)在看來,這只是一個(gè)金融期票而已。[Note 5]

正如波特蘭州立大學(xué)和圣達(dá)菲研究所教授 Melanie Mitchell 迄今為止在一條無答復(fù)的 tweet 中提到的:……LeCun 說 Gary Marcus 文章是「大部分錯(cuò)誤」,但是如果限制在監(jiān)督學(xué)習(xí),那么「錯(cuò)誤大大減少」。我很愿意聽到(現(xiàn)有的)無監(jiān)督學(xué)習(xí)項(xiàng)目的例子,希望有這種例子能說明 Gary Marcus 的說法是錯(cuò)誤的。

我也很愿意聽到這樣的消息。

同時(shí),我認(rèn)為沒有原則性的理由能讓人相信無監(jiān)督學(xué)習(xí)可以解決我提出的問題,除非我們首先加入更加抽象、象征性的表述。

7. 深度學(xué)習(xí)不僅包括卷積網(wǎng)絡(luò)(Marcus 所批評(píng)的那種),它「本質(zhì)上是一種新的編程風(fēng)格——『可微分編程』——而且該領(lǐng)域正試圖用這種風(fēng)格實(shí)現(xiàn)可重用構(gòu)造。我們已有一些方向:卷積、池化、LSTM、GAN、VAE、記憶單元、路由單元等?!埂猅om Dietterich

這似乎(在 Dietterich 的更長(zhǎng)的一系列推文中)作為一種批評(píng)被提出。但我對(duì)此感到困惑,因?yàn)槲沂且粋€(gè)可微分編程的粉絲,而且我也是這么說的。也許關(guān)鍵在于,深度學(xué)習(xí)可以采取更廣泛的方式。

無論在什么情況下,我都不會(huì)將深度學(xué)習(xí)和可微分編程(例如我所引用的、像神經(jīng)圖靈機(jī)和神經(jīng)編程這樣的方法)等同起來。深度學(xué)習(xí)是許多可微分系統(tǒng)的組成部分。但是這樣的系統(tǒng)也完全插入了從符號(hào)處理技術(shù)中提取的重要元素,我也一直在敦促這個(gè)領(lǐng)域?qū)Υ苏希∕arcus,2001; Marcus,Marblestone,&Dean,2014a; Marcus,Marblestone,&Dean,2014b)。這其中包括記憶單元、變量操作以及其他系統(tǒng)(比如近兩篇論文所強(qiáng)調(diào)的路由單元)。如果把這所有都融合到深度學(xué)習(xí)中能讓我們得到通用人工智能,那么我下面的結(jié)論將會(huì)完全正確:對(duì)于擴(kuò)展來說,大腦可能被視為由「一系列可重復(fù)使用的計(jì)算基元組成 - 基本單元的處理類似于微處理器中的一組基本指令。這種方式在可重新配置的集成電路中被稱為現(xiàn)場(chǎng)可編程門陣列(FPGA)」,正如我在其它地方(Marcus,Marblestone,&Dean,2014)所論述的那樣,逐步豐富我們的計(jì)算系統(tǒng)所建立的指令集會(huì)有很大的好處。

8. 現(xiàn)在 vs 未來。也許深度學(xué)習(xí)現(xiàn)在不起作用,但我們的子孫后代可能實(shí)現(xiàn) AGI。

有可能。我認(rèn)為深度學(xué)習(xí)在將我們導(dǎo)向 AGI 上可能扮演著重要的角色,如果首先添加一些關(guān)鍵的東西(許多還沒有被發(fā)現(xiàn))的話。

但是,補(bǔ)充哪些因素至關(guān)重要?這個(gè)未來的系統(tǒng),應(yīng)該稱為深度學(xué)習(xí)本身,還是更為合理地稱之為「使用深度學(xué)習(xí)的某某某」?這取決于深度學(xué)習(xí)在終極解決方案的哪個(gè)部分起作用。例如,也許在真正充分理解自然語(yǔ)言的系統(tǒng)中,操作符號(hào)的方法將扮演深度學(xué)習(xí)的同樣重要的角色,或者更重要的角色。

當(dāng)然,術(shù)語(yǔ)學(xué)是這個(gè)問題的一部分。最近一個(gè)好朋友問我,為什么我們不能將包括深度學(xué)習(xí)在內(nèi)的任何東西都稱為深度學(xué)習(xí),即使它包含操作符號(hào)的方法?深度學(xué)習(xí)的優(yōu)化處理應(yīng)該很關(guān)鍵。對(duì)此我作出回應(yīng):為什么不把包含符號(hào)操作在內(nèi)的任何東西都稱為符號(hào)操作,即使它包含深度學(xué)習(xí)呢?

基于梯度的優(yōu)化應(yīng)該得到應(yīng)有的效果,但符號(hào)處理也應(yīng)該是這樣。符號(hào)處理是系統(tǒng)地表示和實(shí)現(xiàn)高級(jí)抽象的已知工具,它基本上覆蓋了世界上所有復(fù)雜的計(jì)算機(jī)系統(tǒng),包括電子表格、編程環(huán)境、操作系統(tǒng)等。

最后,我猜想,最后的成功也將歸因于神經(jīng)網(wǎng)絡(luò)和符號(hào)處理之間的不可避免的聯(lián)姻,混合系統(tǒng)將把這兩個(gè)同樣于 20 世紀(jì) 50 年代初發(fā)展起來的 20 世紀(jì)人工智能的偉大思想?yún)R集在一起。其他尚未發(fā)明的新工具也可能至關(guān)重要。

對(duì)于一個(gè)深度學(xué)習(xí)的真正追隨者而言,任何東西都是深度學(xué)習(xí),無論它如何與其他技術(shù)融合,無論它與現(xiàn)有技術(shù)有多么不同。(帝國(guó)主義萬歲?。┤绻阌靡粋€(gè)神經(jīng)元代替了經(jīng)典的、符號(hào)性微處理器中的每一個(gè)晶體管,但是保持芯片的邏輯完全不變,一個(gè)真正的深度學(xué)習(xí)追隨者仍然會(huì)宣告勝利。但是,如果我們把所有技術(shù)混在一起,我們就無法理解推動(dòng)(最終)成功的關(guān)鍵法則。[Note 6]?

9. 沒有機(jī)器可以推斷。因此期望神經(jīng)網(wǎng)絡(luò)可以從偶數(shù)中生成奇數(shù)并不公平。

這里有一個(gè)以二進(jìn)制位為表達(dá)式的函數(shù)。

f(110) = 011;

f(100) = 001;

f(010) = 010。

那么 f(111) 等于多少?

普通人或許會(huì)猜測(cè) f(111) 等于 111。但如果你是上文討論的那種神經(jīng)網(wǎng)絡(luò),你的答案或許并非如此。

如果你曾數(shù)次聽說過神經(jīng)網(wǎng)絡(luò)中的隱藏層可以「抽象化函數(shù)」,那么你應(yīng)該對(duì)此感到驚訝。

如果你是人類,你可能認(rèn)為該函數(shù)就是某種「逆轉(zhuǎn)」,可以用一串計(jì)算機(jī)代碼輕松表達(dá)。如果你是某種神經(jīng)網(wǎng)絡(luò),那么學(xué)習(xí)以從偶數(shù)擴(kuò)展到奇數(shù)的方式將這種逆轉(zhuǎn)抽象化非常困難。不過是否有可能做到呢?如果你沒有對(duì)整數(shù)的先驗(yàn)知識(shí),則不可能。試試另一種情況,這次是十進(jìn)制位:f(4) = 8;f(6) = 12,f(5) 等于多少?人類讀者不會(huì)關(guān)心這個(gè)問題需要從偶數(shù)擴(kuò)展到技術(shù),而大量神經(jīng)網(wǎng)絡(luò)卻會(huì)產(chǎn)生困惑。

當(dāng)然,由于示例較少,該函數(shù)并不確定,但是大部分人會(huì)認(rèn)為 f(5)=10,這一點(diǎn)非常有趣和重要。

同樣有趣的是,大部分標(biāo)準(zhǔn)多層感知機(jī)(代表二進(jìn)制位數(shù)字)給出的答案并非如此。這給了我們一些啟示,但是神經(jīng)網(wǎng)絡(luò)社區(qū)的很多人對(duì)此不以為然,F(xiàn)ran?ois Chollet 是一個(gè)例外。

重要的是,識(shí)別一個(gè)可以應(yīng)用到所有整數(shù)的規(guī)則就相當(dāng)于神經(jīng)網(wǎng)絡(luò)識(shí)別在一個(gè)語(yǔ)境中使用的新名詞可以在大量其他語(yǔ)境中使用。我第一次聽說 blicket 這個(gè)詞表示物體時(shí),猜測(cè)它可用于多種情況,如 I thought I saw a blicket、I had a close encounter with a blicket,以及 exceptionally large blickets frighten me 等等。我就可以生成和解釋此類句子,而無需特殊的訓(xùn)練。blicket 是否與我聽到的其他詞語(yǔ)音相近并不重要。如果大部分機(jī)器學(xué)習(xí)系統(tǒng)處理該問題時(shí)遇到問題,那么我們理應(yīng)認(rèn)為大部分機(jī)器學(xué)習(xí)系統(tǒng)有問題。

那么我「公平」嗎?公平,也不公平。我確實(shí)讓神經(jīng)網(wǎng)絡(luò)做一些違反它們假設(shè)的事情。

神經(jīng)網(wǎng)絡(luò)擁護(hù)者或許會(huì)說「等一下,在你的『逆轉(zhuǎn)』示例中,輸入空間有三個(gè)維度,分別代表最左邊的二進(jìn)制位、中間的二進(jìn)制位和最右邊的二進(jìn)制位。訓(xùn)練過程中最右邊的二進(jìn)制位只能是零,如果那個(gè)位置的數(shù)字是 1 的話,網(wǎng)絡(luò)就不知道該怎么做了。」比如,康奈爾大學(xué)的一位博后 Vincent Lostenlan 說:「我不理解你在 3.11 中想證明什么。f 是輸入空間中(n-1)維超立方體頂點(diǎn)的恒等函數(shù)。你為什么對(duì) DNN,或者說任何 ML 模型感到震驚,而不是「泛化」至第 n 維?」

Dietterich 也持相同觀點(diǎn),只不過更為準(zhǔn)確:「Marcus 抱怨深度學(xué)習(xí)無法推斷,但是『沒有』方法可以推斷?!?/p>

但是盡管對(duì)于深度學(xué)習(xí)難以解決奇偶數(shù)的問題(本文語(yǔ)境下)二者都說得對(duì),但是在更大的問題上,他們的觀點(diǎn)都是錯(cuò)誤的,理由有三:

一,人類可以推斷。在上述兩個(gè)示例中,人類都可以推斷出正確答案。你打算相信誰,我還是你自己的眼睛?

對(duì)于在當(dāng)代機(jī)器學(xué)習(xí)中浸淫已久的人來說,我的奇偶數(shù)問題似乎并不公平,因?yàn)橛?xùn)練過程中并沒有說明特定的維度(限制最右的二進(jìn)制位的值為 1)。但是當(dāng)人類看到上述示例時(shí),你不會(huì)被訓(xùn)練數(shù)據(jù)中的這一差距阻撓,你甚至不會(huì)注意到它,因?yàn)槟愕淖⒁饬μ幱诟呒?jí)的規(guī)律。

人們通常用我剛才描述的方式進(jìn)行推斷,比如從上文給出的三個(gè)訓(xùn)練示例中識(shí)別出字符串逆轉(zhuǎn)。從技術(shù)角度看,這是推斷,而你恰好做到了。我在《The Algebraic Mind》中認(rèn)為這種推斷是在訓(xùn)練示例空間以外泛化全稱量化一對(duì)一映射(universally quantified one-to-one mapping)。如果我們想要趕上人類學(xué)習(xí),則找到該問題的解決方案非常重要,即使這意味著動(dòng)搖原有的假設(shè)。

現(xiàn)在,很可能有人用這個(gè)理由認(rèn)為這不公平:人類泛化此類映射時(shí),明顯依賴于先驗(yàn)知識(shí)。

確實(shí)如此。但是重點(diǎn)是:某種神經(jīng)網(wǎng)絡(luò)缺乏好的方式來整合合適的先驗(yàn)知識(shí)。準(zhǔn)確地說是因?yàn)檫@些網(wǎng)絡(luò)缺乏好的方式來整合先驗(yàn)知識(shí),如「很多泛化適用于無界類別的所有元素」或「奇數(shù)除以 2,余數(shù)為 1」,神經(jīng)網(wǎng)絡(luò)缺乏對(duì)變量的運(yùn)算時(shí)就會(huì)失敗。合適的先驗(yàn)知識(shí)允許神經(jīng)網(wǎng)絡(luò)獲取和表示全稱量化一對(duì)一映射。標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)無法表示此類映射,除了使用有限的一些方式(比如卷積)。

二,當(dāng)前沒有任何系統(tǒng)(深度學(xué)習(xí)或其他)可以用我上文描述的方式進(jìn)行推斷,這樣說并非沒有理由。其他架構(gòu)可能「處于險(xiǎn)境」,但是這不意味著我們應(yīng)該放棄游向岸邊。如果我們想實(shí)現(xiàn)通用人工智能,就必須解決這個(gè)問題。

三,當(dāng)前沒有系統(tǒng)可進(jìn)行推斷的論斷是錯(cuò)誤的;已經(jīng)存在很多 ML 系統(tǒng)至少能夠推斷出我描述的部分函數(shù),你或許就擁有一個(gè):Microsoft Excel,具體來說是它的快速填入(Flash Fill)函數(shù)(Gulwani, 2011)。支持它的方法與機(jī)器學(xué)習(xí)大相徑庭,但是它可以進(jìn)行某種推斷,盡管是在比較狹窄的領(lǐng)域中。

它甚至可以用你所用的方式,即使在百位數(shù)的訓(xùn)練維度中沒有正例。該系統(tǒng)從你想要的函數(shù)示例中學(xué)習(xí),并進(jìn)行推斷。小菜一碟。深度學(xué)習(xí)系統(tǒng)可以用三個(gè)訓(xùn)練示例做到嗎?即使有在其他小型計(jì)數(shù)函數(shù)上的大量經(jīng)驗(yàn)。

也許吧,但這樣做的方法可能就只是變量運(yùn)算的混合,這與大多數(shù)深度學(xué)習(xí)中典型的卷積神經(jīng)網(wǎng)絡(luò)所采用的方法是不同的。

為了把所有這一切都變得不同,一個(gè)粗略的方法就是考慮目前大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)所處的階段是什么 [Note 7],即它們并不是考慮被設(shè)計(jì)為「outside the box」,它們被設(shè)計(jì)為在黑箱內(nèi)完美的嵌入器。對(duì)于一些目標(biāo)來說,這是沒什么問題的,但并不是所有。人類比目前的 AI 更擅長(zhǎng)于站在黑箱外思考,我不認(rèn)為有人會(huì)反駁這一點(diǎn)。

但是沒有機(jī)器能處理類似人那樣廣度的問題,如果機(jī)器學(xué)習(xí)工程師希望為 AGI 努力,那么他們真應(yīng)該朝這個(gè)方向發(fā)展。

10. 你所論述的事實(shí)該領(lǐng)域中的每個(gè)人都已知道了,它并沒有新意。

當(dāng)然,并不是所有人都知道。正如前所述,很多評(píng)論者都表明我們還不知道深度學(xué)習(xí)的極限在哪,還有人認(rèn)為極限會(huì)有一些,但是我們目前還沒有發(fā)現(xiàn)。也就是說,我從來沒有說過我的觀點(diǎn)是全新的,我引用了很多學(xué)者的研究結(jié)果,他們都獨(dú)立地得出了相似的觀點(diǎn)。

11. Marcus 沒有引用 XXX。

是的沒錯(cuò),文獻(xiàn)引用是不完整的。我未引用的論文中最重要的是 Shanahan 的 Deep Symbolic Reinforcement(Garnelo,Arulkumaran & Shanahan,2016);我也漏掉了 Richardson 和 Domingos(2006)的 Markov Logic Networks。如果現(xiàn)在來看,我還希望引用 DeepMind 的 Evans 和 Edward Grefenstette 2017 年的一篇論文,以及 Smolensky 有關(guān)張量計(jì)算的文章(Smolensky 等人 2016)。以及多種形式歸納編程的研究(Gulwani 等人,2015),以及概率編程(Goodman、Mansinghka、Roy、Bonawitz & Tenenbaum,2012)。所有這些研究都努力在將網(wǎng)絡(luò)與規(guī)則聯(lián)系在一起。

此外還有 Jordan Pollack 等先驅(qū)者們的早先研究(Smolensky 等人,2016)。以及 Forbus 和 Gentner(Falkenhainer,F(xiàn)orbus & Gentner,1989)以及 Hofstadter 和 Mitchell 1994 年進(jìn)行的類比工作,還有很多。還有很多文獻(xiàn)是需要引用的。

總之,我試圖找出其中具有代表性的研究,而非全面引用,但我承認(rèn)還是應(yīng)該做得更好……

12. Marcus 不是站在業(yè)內(nèi)的角度思考問題的,他不是推動(dòng)者,他只是一個(gè)批評(píng)者。

關(guān)于是否列出這個(gè)問題,我有些猶豫,但我看到有很多人都持有這種觀點(diǎn),其中甚至包括一些知名專家。正如 Ram Shankar 提到的,「作為一個(gè)社區(qū),我們必須把批評(píng)限制在科學(xué)和價(jià)值的層面上。」真正重要的不是我的資歷(事實(shí)上我認(rèn)為自己有資格寫這樣的文章),而是論證的有效性。

要么我的論點(diǎn)是正確的,要么不是。

不過,對(duì)于那些希望了解我的背景的人,在本文附錄中有一些可以參考的資料。

13. Re:層次結(jié)構(gòu),Socher 的 tree-RNN 如何呢?

我已寫郵件向作者問詢,希望進(jìn)一步了解這項(xiàng)技術(shù)。我也在推動(dòng)其他一些研究團(tuán)隊(duì)嘗試 Lake 與 Baroni(2017)這類的研究。

Pengfei 等人(2017)也提出了一些有趣的討論。

14. 你對(duì)深度學(xué)習(xí)的批判應(yīng)該更強(qiáng)烈。

明面上還沒有人這么說,但有一些類似的話已經(jīng)出現(xiàn)了,大多是在私下里。

例如有些人就指出:深度學(xué)習(xí)可能會(huì)在未來預(yù)測(cè)上出現(xiàn)一些嚴(yán)重錯(cuò)誤。

目前,對(duì)于深度學(xué)習(xí)成功的感覺正以指數(shù)級(jí)的速度快速發(fā)展……這就像鳥兒低空掠過樹枝,看到大量果實(shí),一旦飛過果樹,進(jìn)行深度推理的速度就會(huì)變慢了。此外,我不明白在識(shí)別貓正確率剛剛達(dá)到 95% 的今天,為什么人們對(duì)于通用人工智能、倫理、道德有這么多的思考。后一類的問題應(yīng)該存在于更復(fù)雜的空間之上。

這位同事還補(bǔ)充說:[研究者們] 在宣布在某些領(lǐng)域取得勝利的速度過快了。比如圖像處理:我們已經(jīng)發(fā)現(xiàn)了一類計(jì)算機(jī)更加擅長(zhǎng)解決的圖像處理問題,確實(shí)如此,但同樣這些算法仍然會(huì)被對(duì)抗攻擊迷惑。此外,當(dāng)它們出錯(cuò)時(shí),錯(cuò)誤往往非常離譜。與之相對(duì)的,當(dāng)我在街道上駕駛汽車時(shí),我可能會(huì)把一棵樹誤認(rèn)為是路燈柱,但我不會(huì)有那些深度學(xué)習(xí)網(wǎng)絡(luò)犯的那些奇怪錯(cuò)誤(這是因?yàn)槲覍?duì)含義和背景信息有深入的理解)。人們確實(shí)通常知道這些局限性,但 ImageNet 的結(jié)果給人們帶來了一個(gè)基本觀點(diǎn):計(jì)算機(jī)比人類更擅長(zhǎng)圖像識(shí)別。

另一位同事、機(jī)器學(xué)習(xí)研究者和作者 Pedro Domingos 指出了一些我沒有提到的當(dāng)前深度學(xué)習(xí)方法的其它短板:

和其它靈活的監(jiān)督學(xué)習(xí)方法類似,深度學(xué)習(xí)系統(tǒng)可能不穩(wěn)定——訓(xùn)練數(shù)據(jù)的少許改變可能會(huì)導(dǎo)致所得模型發(fā)生巨大變化。

即使更少量的數(shù)據(jù)就足夠了,但它們還是需要大量數(shù)據(jù)。(數(shù)據(jù)增強(qiáng)的成本非常高,而在人類看來,這應(yīng)該不是必需的。)

它們可能很脆弱:數(shù)據(jù)上的微小變化可能會(huì)導(dǎo)致災(zāi)難性的失?。ū热鐚?shù)字?jǐn)?shù)據(jù)集中的黑白像素翻轉(zhuǎn)(Hosseini, Xiao, Jaiswal, & Poovendran, 2017))。

它們的準(zhǔn)確度往往比我們推斷的更低(比如 Ribeiro, Singh and Guestrin (2016) 發(fā)現(xiàn)在從 ImageNet 提取出的一個(gè)數(shù)據(jù)集上實(shí)現(xiàn)的狼與狗辨別的高準(zhǔn)確度主要是通過檢測(cè)狼圖像中的白色雪堆得到的。)

在機(jī)器學(xué)習(xí)的歷史中,到目前為止,每一種范式在失勢(shì)之前往往會(huì)主導(dǎo)大約十年的時(shí)間(比如神經(jīng)網(wǎng)絡(luò)主導(dǎo)了八十年代,貝葉斯學(xué)習(xí)主導(dǎo)了九十年代,核方法主導(dǎo)了 2000 年代)。

正如 Domingos 指出的那樣,我們不能保證這種起起伏伏還會(huì)重復(fù)。神經(jīng)網(wǎng)絡(luò)之前已經(jīng)經(jīng)歷過幾次起伏了,一直可以追溯到 1957 年 Rosenblatt 的第一個(gè)感知器。我們不應(yīng)該將這種周期性的熱情誤認(rèn)為是智能的完全解決方案——在我看來,這仍然還需要數(shù)十年的時(shí)間。

如果我們想實(shí)現(xiàn) AGI,我們自己必須清晰地認(rèn)識(shí)到我們成功路上所面臨的挑戰(zhàn)。

備注

1. 感謝 Amy Bernard、Josh Cohen、Ernie Davis、Shlomo Shraga Engelson、Jose Hernandez-Orallo、Adam Marblestone、Melanie Mitchell、Ajay Patel、Omar Uddin 和 Brad Wyble 給出的評(píng)論。

2. 依賴這 1000 個(gè)圖像集還存在其它問題。比如,在閱讀本論文的草稿時(shí),Melanie Mitchell 向我指出了 Loghmani 及其同事 (2017) 最近在評(píng)估深度學(xué)習(xí)在真實(shí)世界中的表現(xiàn)的重要成果。該論文的摘要寫道:「分析深度表征從網(wǎng)絡(luò)圖像到 [現(xiàn)實(shí)中的] 機(jī)器人數(shù)據(jù)的可遷移性。盡管 [使用網(wǎng)絡(luò)圖像開發(fā)的表征] 得到了出色的結(jié)果,但實(shí)驗(yàn)表明在真實(shí)機(jī)器人數(shù)據(jù)上的物體分類還遠(yuǎn)未得到解決?!?/p>

3. 而且文獻(xiàn)正在快速增長(zhǎng)。12 月底有一篇關(guān)于欺騙深度網(wǎng)絡(luò)使其將兩位滑雪者誤認(rèn)為狗的論文(https://arxiv.org/pdf/1712.07113.pdf)以及另一篇關(guān)于用于構(gòu)建真實(shí)世界對(duì)抗補(bǔ)丁的通用工具的論文(https://arxiv.org/pdf/1712.09665.pdf,也可參閱 https://arxiv.org/abs/1801.00634。)(https://arxiv.org/abs/1801.00634%E3%80%82%EF%BC%89) 深度學(xué)習(xí)在真實(shí)環(huán)境中竟如此脆弱,想想都可怕。

對(duì)于這個(gè)問題,可以查閱 Filip Pieknewski 的博客了解為什么使用照片訓(xùn)練的深度學(xué)習(xí)系統(tǒng)難以將它們所學(xué)到東西遷移到線條圖畫上:https://blog.piekniewski.info/2016/12/29/can-a-deep-net-see-a-cat/。視覺并不像很多人以為的那樣已經(jīng)得到了解決。

4. 正如我將在即將到來的論文中會(huì)解釋的那樣,AlphaGo 實(shí)際上并不是一個(gè)純粹的(深度)強(qiáng)化學(xué)習(xí)系統(tǒng),盡管引用的段落看起來好像是這樣。這實(shí)際上是一個(gè)混合系統(tǒng)——其中包含由操作符號(hào)的算法驅(qū)動(dòng)的組件以及一個(gè)經(jīng)過精心設(shè)計(jì)的深度學(xué)習(xí)組件。

5. 隨便一提,AlphaZero 并不是無監(jiān)督的,而是自監(jiān)督的——使用了自我對(duì)弈和模擬作為生成監(jiān)督數(shù)據(jù)的方式;我會(huì)在接下來的論文中更詳細(xì)地討論該系統(tǒng)。

6. 比如谷歌搜索以及理解它的可能方式。谷歌最近已經(jīng)在其用于搜索的大量算法中加入了深度學(xué)習(xí)算法 RankBrain。而且谷歌搜索肯定是在輸入數(shù)據(jù)和知識(shí)后以分層的方式處理它們(按 Maher Ibrahim 的說法,這就是算作深度學(xué)習(xí)所需的一切)。但是,深度學(xué)習(xí)實(shí)際上只是眾多算法中的一個(gè);比如知識(shí)圖譜組件則主要基于遍歷本體(traversing ontology)的經(jīng)典人工智能概念。從任何合理的角度看,谷歌搜索都是一個(gè)混合系統(tǒng),深度學(xué)習(xí)只是其中眾多方法中的一種。

將谷歌搜索整體上稱為「一個(gè)深度學(xué)習(xí)系統(tǒng)」是一種嚴(yán)重的誤導(dǎo),就好像是因?yàn)槟竟せ钌婕暗铰萁z刀就把木工活稱為「螺絲刀」。

7. 歸納邏輯編程、歸納函數(shù)編程(微軟 Flash Fill 背后的大腦)和神經(jīng)編程等是重要的例外。這些全部都取得了一些進(jìn)展;其中一些甚至包含了深度學(xué)習(xí),但在它們?cè)镜牟僮鬟\(yùn)算之外還包括對(duì)變量的結(jié)構(gòu)化表征和操作;這就是我要求的一切。

8. 我的人工智能實(shí)驗(yàn)始于青少年時(shí)期,其中包括用 Logo 編程語(yǔ)言編寫的一個(gè)拉丁語(yǔ)-英語(yǔ)翻譯器。在研究生學(xué)院,我與 Steven Pinker 一起研究探索了語(yǔ)言習(xí)得、符號(hào)規(guī)則和神經(jīng)網(wǎng)絡(luò)之間的關(guān)系。(我也要感謝我的本科導(dǎo)師 Neil Stillings)。我為我的論文(Marcus et al., 1992)收集的兒童語(yǔ)言數(shù)據(jù)已經(jīng)被引用了數(shù)百次

在 20 世紀(jì) 90 年代末,我發(fā)現(xiàn)了多層感知器中一些特定的可復(fù)現(xiàn)的問題(Marcus, 1998b; Marcus, 1998a);基于這些觀察,我設(shè)計(jì)了一個(gè)被廣為引用的實(shí)驗(yàn)。該研究發(fā)表在 Science 上(Marcus, Vijayan, Bandi Rao, & Vishton, 1999),表明年幼的嬰兒可以提取代數(shù)規(guī)則,而 Jeff Elman(1990)的當(dāng)時(shí)流行的神經(jīng)網(wǎng)絡(luò)則無法做到。所有這些在 MIT Press 2001 年出版的一本書(Marcus, 2001)中達(dá)到了高潮,其中包含了各種代表性的原語(yǔ),其中一些已經(jīng)開始出現(xiàn)在最近的神經(jīng)網(wǎng)絡(luò)中;尤其是在新的差分編程領(lǐng)域(Daniluk, Rockt?schel, Welbl, & Riedel, 2017; Graves et al., 2016)中對(duì)變量的操作,相關(guān)研究應(yīng)該在某個(gè)位置引述這本書。使用記憶記錄也得到了重點(diǎn)強(qiáng)調(diào),在 Facebook(Bordes, Usunier, Chopra, & Weston, 2015)等的關(guān)于記憶網(wǎng)絡(luò)的研究中可以看到相關(guān)思想。接下來的十年我研究的其它問題包括遺傳性(innateness,Marcus, 2004)(我會(huì)在接下來關(guān)于 AlphaGo 的論文中詳細(xì)討論)和進(jìn)化(Marcus, 2004; Marcus, 2008),我最后又回到了人工智能和認(rèn)知建模。我在 2014 年發(fā)表在 Science 上的一篇關(guān)于皮質(zhì)計(jì)算的文章(Marcus, Marblestone, & Dean, 2014)也預(yù)測(cè)了一些當(dāng)前差分編程領(lǐng)域正在發(fā)生的情況。

最近我離開了學(xué)術(shù)界,在 2014 年創(chuàng)立了并領(lǐng)導(dǎo)著一家機(jī)器學(xué)習(xí)公司;從任何合理的角度看,這家公司都很成功——在成立大約兩年之后被 Uber 收購(gòu)了。作為聯(lián)合創(chuàng)始人和 CEO,我組建了一個(gè)包含世界上一些較好的機(jī)器學(xué)習(xí)人才的團(tuán)隊(duì),其中有 Zoubin Ghahramani、Jeff Clune、Noah Goodman、Ken Stanley 和 Jason Yosinski;該團(tuán)隊(duì)在開發(fā)我們的核心知識(shí)產(chǎn)權(quán)和塑造我們?cè)谥悄苌系氖姑矫姘l(fā)揮了關(guān)鍵性作用(Zoubin Ghahramani 和我本人聯(lián)合撰寫的一個(gè)專利正在申請(qǐng)中)。

盡管我們做的很多工作都是機(jī)密,現(xiàn)在也歸 Uber 所有,而不是我,但我可以說我們工作中的很大一部分都是為了將深度學(xué)習(xí)整合進(jìn)我們自己的技術(shù)中,這讓我很大程度上熟悉了 TensorFlow 和梯度消失(爆炸)問題的樂趣和艱難。我們的目標(biāo)是讓我們?nèi)粘>湍茉谙∈钄?shù)據(jù)上使用混合深度學(xué)習(xí)系統(tǒng)來得到當(dāng)前較佳的結(jié)果(有時(shí)候成功了,有時(shí)候沒成功)。

參考文獻(xiàn)

Bordes, A., Usunier, N., Chopra, S., & Weston, J. (2015). Large-scale Simple Question Answering with Memory Networks. arXiv.

Daniluk, M., Rockt?schel, T., Welbl, J., & Riedel, S. (2017). Frustratingly Short Attention Spans in Neural Language Modeling. arXiv.

Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2)(2), 179–211.

Evans, R., & Grefenstette, E. (2017). Learning Explanatory Rules from Noisy Data. arXiv, cs.NE.

Falkenhainer, B., Forbus, K. D., & Gentner, D. (1989). The structure-mapping engine: Algorithm and examples. Artificial intelligence, 41(1)(1), 1–63.

Fukushima, K., Miyake, S., & Ito, T. (1983). Neocognitron: A neural network model for a mechanism of visual pattern recognition. IEEE Transactions on Systems, Man, and Cybernetics, 5, 826–834.

Garnelo, M., Arulkumaran, K., & Shanahan, M. (2016). Towards Deep Symbolic Reinforcement Learning. arXiv, cs.AI.

Goodman, N., Mansinghka, V., Roy, D. M., Bonawitz, K., & Tenenbaum, J. B. (2012). Church: a language for generative models. arXiv preprint arXiv:1206.3255.

Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A. et al. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626)(7626), 471–476.

Gulwani, S. (2011). Automating string processing in spreadsheets using input-output examples. dl.acm.org, 46(1)(1), 317–330.

Gulwani, S., Hernández-Orallo, J., Kitzelmann, E., Muggleton, S. H., Schmid, U., & Zorn, B. (2015). Inductive programming meets the real world. Communications of the ACM, 58(11)(11), 90–99.

Hofstadter, D. R., & Mitchell, M. (1994). The copycat project: A model of mental fluidity and analogy-making. Advances in connectionist and neural computation theory, 2(31–112)(31–112), 29–30.

Hosseini, H., Xiao, B., Jaiswal, M., & Poovendran, R. (2017). On the Limitation of Convolutional Neural Networks in Recognizing Negative Images. arXiv, cs.CV.

Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat』s striate cortex. The Journal of physiology, 148(3)(3), 574–591.

Lake, B. M., & Baroni, M. (2017). Still not systematic after all these years: On the compositional skills of sequence-to-sequence recurrent networks. arXiv.

Loghmani, M. R., Caputo, B., & Vincze, M. (2017). Recognizing Objects In-the-wild: Where Do We Stand? arXiv, cs.RO.

Marcus, G. F. (1998a). Rethinking eliminative connectionism. Cogn Psychol, 37(3)(3), 243—282.

Marcus, G. F. (1998b). Can connectionism save constructivism? Cognition, 66(2)(2), 153—182.

Marcus, G. F. (2001). The Algebraic Mind: Integrating Connectionism and cognitive science. Cambridge, Mass.: MIT Press.

Marcus, G. F. (2004). The Birth of the Mind : how a tiny number of genes creates the complexities of human thought. Basic Books.

Marcus, G. F. (2008). Kluge : the haphazard construction of the human mind. Boston : Houghton Mifflin.

Marcus, G. (2018). Deep Learning: A Critical Appraisal. arXiv.

Marcus, G.F., Marblestone, A., & Dean, T. (2014a). The atoms of neural computation. Science, 346(6209)(6209), 551—552.

Marcus, G. F., Marblestone, A. H., & Dean, T. L. (2014b). Frequently Asked Questions for: The Atoms of Neural Computation. Biorxiv (arXiv), q-bio.NC.

Marcus, G. F. (2001). The Algebraic Mind: Integrating Connectionism and cognitive science. Cambridge, Mass.: MIT Press.

Marcus, G. F., Pinker, S., Ullman, M., Hollander, M., Rosen, T. J., & Xu, F. (1992). Overregularization in language acquisition. Monogr Soc Res Child Dev, 57(4)(4), 1–182.

Marcus, G. F., Vijayan, S., Bandi Rao, S., & Vishton, P. M. (1999). Rule learning by seven-month-old infants. Science, 283(5398)(5398), 77–80.

Nguyen, A., Yosinski, J., & Clune, J. (2014). Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. arXiv, cs.CV.

Pengfei, L., Xipeng, Q., & Xuanjing, H. (2017). Dynamic Compositional Neural Networks over Tree Structure IJCAI. Proceedings from Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17).

Ribeiro, M. T., Singh, S., & Guestrin, C. (2016).「Why Should I Trust You?」: Explaining the Predictions of Any Classifier. arXiv, cs.LG.

Richardson, M., & Domingos, P. (2006). Markov logic networks. Machine learning, 62(1)(1), 107–136.

Sabour, S., dffsdfdsf, N., & Hinton, G. E. (2017). Dynamic Routing Between Capsules. arXiv, cs.CV.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A. et al. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676)(7676), 354–359.

Smolensky, P., Lee, M., He, X., Yih, W.-t., Gao, J., & Deng, L. (2016). Basic Reasoning with Tensor Product Representations. arXiv, cs.AI.

原文鏈接:https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/4719.html

相關(guān)文章

  • Geoffrey Hinton:放棄反向傳播,我們人工智能需要重頭

    摘要:論文鏈接會(huì)上其他科學(xué)家認(rèn)為反向傳播在人工智能的未來仍然起到關(guān)鍵作用。既然要從頭再來,的下一步是什么值得一提的是,與他的谷歌同事和共同完成的論文已被大會(huì)接收。 三十多年前,深度學(xué)習(xí)著名學(xué)者 Geoffrey Hinton 參與完成了論文《Experiments on Learning by Back Propagation》,提出了反向傳播這一深刻影響人工智能領(lǐng)域的方法。今天的他又一次呼吁研究...

    mykurisu 評(píng)論0 收藏0
  • 神經(jīng)網(wǎng)絡(luò)信徒們

    摘要:有幾次,人工智能死在人工神經(jīng)網(wǎng)絡(luò)上。在過去十年中,他一直在舉辦為期一周的有關(guān)神經(jīng)網(wǎng)絡(luò)的暑期學(xué)校,我曾經(jīng)拜訪過。神經(jīng)網(wǎng)絡(luò)壓縮信息之后,這些信息無法復(fù)原。 魔法已經(jīng)進(jìn)入這個(gè)世界。如今,許多美國(guó)人口袋里裝著薄薄的黑色平板,這些機(jī)器接入遙遠(yuǎn)的數(shù)字云和衛(wèi)星,它們解碼語(yǔ)言、通過攝像頭觀察并標(biāo)記現(xiàn)實(shí),挖掘個(gè)人數(shù)據(jù),它們以某種方式理解、預(yù)測(cè)著我們的心愿。傾聽、幫助著人類。因?yàn)榕c多倫多大學(xué)有個(gè)約會(huì),這個(gè)夏天,...

    ChristmasBoy 評(píng)論0 收藏0
  • 2018年深度學(xué)習(xí)主要進(jìn)步

    摘要:在過去幾年中,深度學(xué)習(xí)改變了整個(gè)人工智能的發(fā)展。在本文中,我將介紹年深度學(xué)習(xí)的一些主要進(jìn)展,與年深度學(xué)習(xí)進(jìn)展版本一樣,我沒有辦法進(jìn)行詳盡的審查。最后的想法與去年的情況一樣,年深度學(xué)習(xí)技術(shù)的使用持續(xù)增加。 在過去幾年中,深度學(xué)習(xí)改變了整個(gè)人工智能的發(fā)展。深度學(xué)習(xí)技術(shù)已經(jīng)開始在醫(yī)療保健,金融,人力資源,零售,地震檢測(cè)和自動(dòng)駕駛汽車等領(lǐng)域的應(yīng)用程序中出現(xiàn)。至于現(xiàn)有的成果表現(xiàn)也一直在穩(wěn)步提高。在學(xué)術(shù)...

    sushi 評(píng)論0 收藏0
  • 深度學(xué)習(xí)能力拓展,Google Brain講解注意力模型和增強(qiáng)RNN

    摘要:它可以用來做語(yǔ)音識(shí)別,使得一個(gè)處理語(yǔ)音,另一個(gè)瀏覽它,使其在生成文本時(shí)可以集中在相關(guān)的部分上。它對(duì)模型使用的計(jì)算量予以處罰。 本文的作者是 Google Brain 的兩位研究者 Chris Olah 和 Shan Carter,重點(diǎn)介紹了注意力和增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò),他們認(rèn)為未來幾年這些「增強(qiáng) RNN(augmented RNN)」將在深度學(xué)習(xí)能力擴(kuò)展中發(fā)揮重要的作用。循環(huán)神經(jīng)網(wǎng)絡(luò)(recur...

    RayKr 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<