Facebook何愷明等大神最新論文提出非局部神經(jīng)網(wǎng)絡(luò)

nevermind 發(fā)布于2019-04-25 18:22 / 1885人閱讀

摘要：何愷明和兩位大神最近提出非局部操作為解決視頻處理中時(shí)空域的長距離依賴打開了新的方向。何愷明等人提出新的非局部通用網(wǎng)絡(luò)結(jié)構(gòu)，超越。殘差連接是何愷明在他的年較佳論文中提出的。

Facebook何愷明和RGB兩位大神最近提出非局部操作non-local operations為解決視頻處理中時(shí)空域的長距離依賴打開了新的方向。文章采用圖像去噪中常用的非局部平均的思想處理局部特征與全圖特征點(diǎn)的關(guān)系。這種非局部操作可以很方便的嵌入已有模型，在視頻分類任務(wù)中取得的很好的結(jié)果，并在在靜態(tài)圖像識別的任務(wù)中超過了何愷明本人ICCV較佳論文的Mask R-CNN。何愷明等人提出新的非局部通用網(wǎng)絡(luò)結(jié)構(gòu)，超越CNN。

何愷明博士，2007年清華大學(xué)畢業(yè)之后開始在微軟亞洲研究院（MSRA）實(shí)習(xí)，2011年香港中文大學(xué)博士畢業(yè)后正式加入MSRA，目前在Facebook AI Research (FAIR)實(shí)驗(yàn)室擔(dān)任研究科學(xué)家。曾以第一作者身份拿過兩次CVPR較佳論文獎(jiǎng)（2009和2016），一次ICCV較佳論文。

Ross Girshick，在讀博士的時(shí)候就因?yàn)閐pm獲得過pascal voc 的終身成就獎(jiǎng)。同時(shí)也是RCNN，fast RCNN ，faster RCNN，YOLO一系列重要的目標(biāo)檢測算法的作者?，F(xiàn)在同樣就職于FAIR。

背景

文章主要受到NL-Means在圖像去噪應(yīng)用中的啟發(fā)，在處理序列化的任務(wù)是考慮所有的特征點(diǎn)來進(jìn)行加權(quán)計(jì)算，克服了CNN網(wǎng)絡(luò)過于關(guān)注局部特征的缺點(diǎn)。

圖像去噪是非常基礎(chǔ)也是非常必要的研究，去噪常常在更高級的圖像處理之前進(jìn)行，是圖像處理的基礎(chǔ)。圖像中的噪聲常常用高斯噪聲N(μ,σ^2)來近似表示。一個(gè)有效的去除高斯噪聲的方式是圖像求平均，對N幅相同的圖像求平均的結(jié)果將使得高斯噪聲的方差降低到原來的N分之一，現(xiàn)在效果比較好的去噪算法都是基于這一思想來進(jìn)行算法設(shè)計(jì)。

NL-Means的全稱是：Non-Local Means，直譯過來是非局部平均，在2005年由Baudes提出，該算法使用自然圖像中普遍存在的冗余信息來去噪聲。與常用的雙線性濾波、中值濾波等利用圖像局部信息來濾波不同的是，它利用了整幅圖像來進(jìn)行去噪，以圖像塊為單位在圖像中尋找相似區(qū)域，再對這些區(qū)域求平均，能夠比較好地去掉圖像中存在的高斯噪聲。

通常的CNN網(wǎng)絡(luò)模擬人的認(rèn)知過程，在網(wǎng)絡(luò)的相鄰兩層之間使用局部連接來獲取圖像的局部特性，一般認(rèn)為人對外界的認(rèn)知是從局部到全局的，而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密，而距離較遠(yuǎn)的像素相關(guān)性則較弱。因而，每個(gè)神經(jīng)元其實(shí)沒有必要對全局圖像進(jìn)行感知，只需要對局部進(jìn)行感知，然后在更高層將局部的信息綜合起來就得到了全局的信息。網(wǎng)絡(luò)部分連通的思想，也是受啟發(fā)于生物學(xué)里面的視覺系統(tǒng)結(jié)構(gòu)，底層的去捕捉輪廓信息，中層的組合輪廓信息，高層的組合全局信息，最終不同的全局信息最終被綜合，但由于采樣以及信息逐層傳遞損失了大量信息，所以傳統(tǒng)cnn在全局信息捕捉上存在局限性。

圖3是指在res3上一個(gè)非局部模塊的行為的示例，其在Kinetics數(shù)據(jù)集上基于5-block的非局部模型訓(xùn)練得到的。這些例子來自于驗(yàn)證集視頻。

而在處理視頻等序列化數(shù)據(jù)時(shí)，傳統(tǒng)cnn的這種局限性就顯得尤為嚴(yán)重了。比如在記錄一場網(wǎng)球比賽的視頻中，每一幀都能很容易的檢測到他的手握拍在哪，一個(gè)卷積核就能覆蓋位置也就是手腕周圍的區(qū)域。

但是為了識別揮拍這個(gè)動(dòng)作，僅僅關(guān)注手腕周圍的信息是不夠的，我們需要了解到人的手腕跟他的胳膊、肩膀、膝蓋以及腳發(fā)生了哪些一系列的相對位移才能判斷出揮拍動(dòng)作。這些信息是將網(wǎng)球區(qū)別于其他運(yùn)動(dòng)的重要信息，因?yàn)殪o止來看運(yùn)動(dòng)員都拿著拍子站在那而已。而這些重要的全局位移信息很難被關(guān)注局部的卷積核收集到。

非局部神經(jīng)網(wǎng)絡(luò)（Non-local Neural Networks）

非局部操作（Non-local operation）

為了處理這些全局動(dòng)作信息，文章借鑒NL-Means中利用整幅圖去噪的思想。前面講到 NL-Means利用了整幅圖像來進(jìn)行去噪，以圖像塊為單位在圖像中尋找相似區(qū)域，再對這些區(qū)域求平均，它的濾波過程可以用下面公式來表示：

在這個(gè)公式中，w(x,y)是一個(gè)權(quán)重，表示在原始圖像中，像素 x和像素 y 的相似度。這個(gè)權(quán)重要大于0，同時(shí)，權(quán)重的和為1。

類似的，該文章定義了一個(gè)用于處理當(dāng)前動(dòng)作點(diǎn)與全局所有信息關(guān)系的函數(shù)

這里x是輸入信號，也是和x尺寸一樣的輸出信號，i代表時(shí)間空間上的輸出位置索引，j代表全圖中所有可能位置的枚舉索引。函數(shù)f(x_i, x_j)計(jì)算位置i和j的權(quán)重。函數(shù)g用來計(jì)算j位置輸入信號的一個(gè)表示。文章中的Non-Local操作就是考慮了圖像中的所有可能位置j。

文中還給出了具體的幾種f(x_i,x_j)函數(shù)的實(shí)現(xiàn)形式

1. ? ? Gaussian

2. ? ? Embedded Gaussian

3. ? ? Dot product

4. ? ? Concatenation

非局部模塊（Non-local Block）

文章中還定義了Non-local Block，也就是把前面的這種Non-local操作封裝起來作為一個(gè)模塊可以很方便的用在現(xiàn)有的框架中。

這里y_i就是公式(1)中的輸出結(jié)果?！?x_i”表示殘差連接。殘差連接是何愷明在他的2016年CVPR較佳論文中提出的。這個(gè)殘差連接使得我們可以將這個(gè)Non-local Block很方便的插入已有的預(yù)訓(xùn)練模型中，而不會(huì)破壞模型原有的操作。

上圖是一個(gè)Non-local Block的例子。特征圖尺寸為T×H×W×1024 也就是有 1024 個(gè)通道。 f函數(shù)采用的是公式3中的Embedded Gaussian。藍(lán)色框表示1×1×1 的卷積操作，這種結(jié)構(gòu)為512通道的“瓶頸”(bottleneck)結(jié)構(gòu)。

實(shí)驗(yàn)

視頻分類

文章在Kinetics 和Charades兩個(gè)視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，baseline選的是帶殘差結(jié)構(gòu)的cnn網(wǎng)絡(luò)。

表3是在Kinetics上的比較結(jié)果。標(biāo)記"+"是指在測試集上的結(jié)果，其余沒有標(biāo)記的是在驗(yàn)證集的結(jié)果。我們包含了2017年包括Kinetics競爭冠軍的結(jié)果,但是他們較好的結(jié)果利用了音頻信號(標(biāo)記為灰色)，不是一個(gè)僅僅基于視覺的解決方法。

表4是在Charades數(shù)據(jù)集上的分類結(jié)果，數(shù)據(jù)集被劃分成訓(xùn)練集/驗(yàn)證集，訓(xùn)練驗(yàn)證/測試集兩種方式。我們的結(jié)果是基于ResNet-101, 我們提出的的NL I3D使用了5個(gè)non-local blocks.

COCO數(shù)據(jù)

文章還在靜態(tài)圖像數(shù)據(jù)識別進(jìn)行實(shí)驗(yàn)。用在物體識別分割以及姿態(tài)識別任務(wù)上的Baseline是何愷明剛在ICCV上取得較佳論文的Mask R-CNN.

表5是在COCO物體檢測和示例分割任務(wù)中增加一個(gè)non-local block到Mask R-CNN的結(jié)果。

表6是在COCO關(guān)鍵點(diǎn)檢測任務(wù)中增加non-local blocks到Mask R-CNN的結(jié)果。

在未來，我們也希望在未來網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中非局部層能成為一個(gè)不可或缺模塊。

論文：Non-local Neural Networks

鏈接：https://arxiv.org/abs/1711.07971

（附上專知內(nèi)容組翻譯的摘要和引言，有錯(cuò)誤和不完善的地方，請大家提建議和指正）

摘要

卷積和循環(huán)網(wǎng)絡(luò)操作都是常用的處理局部領(lǐng)域的基礎(chǔ)模塊。在本文中，我們提出將非局部操作（non-local operations）作為捕獲長距離依賴的通用模塊。受計(jì)算機(jī)視覺中的經(jīng)典非局部均值方法的啟發(fā)，我們的非局部運(yùn)算將位置處的響應(yīng)計(jì)算為所有位置處的特征的加權(quán)和。這個(gè)構(gòu)建模塊可以應(yīng)用到許多計(jì)算機(jī)視覺體系結(jié)構(gòu)中。

在視頻分類的任務(wù)上，即使沒有用任何花里胡哨的技巧，我們的非局部模型也可以在Kinetics和Charades數(shù)據(jù)集上超過對手的效果。在靜態(tài)圖像識別中，我們的非局部模型在COCO比賽中的三個(gè)任務(wù)，對象檢測/分割和姿態(tài)估計(jì)中都效果都有提升。代碼將隨后提供。

引言

在深層神經(jīng)網(wǎng)絡(luò)中，捕獲長期依賴關(guān)系是至關(guān)重要的。對于連續(xù)的數(shù)據(jù)（例如演講中語言），循環(huán)操作是時(shí)間域上長期依賴問題的主要解決方案。對于圖像數(shù)據(jù)，長距離依賴關(guān)系是對大量的卷積操作形成的大的感受野進(jìn)行建模的。

卷積操作或循環(huán)操作都是處理空間或者時(shí)間上的局部鄰域的。這樣，只有當(dāng)這些操作被反復(fù)應(yīng)用的時(shí)候，長距離依賴關(guān)系才能被捕獲，信號才能通過數(shù)據(jù)不斷地傳播。重復(fù)的局部操作有一些限制：首先，計(jì)算效率很低；其次，增加優(yōu)化難度；最后，這些挑戰(zhàn)導(dǎo)致多跳依賴建模，例如，當(dāng)消息需要在遠(yuǎn)距離之間來回傳遞時(shí)，是非常困難的。

本文中，我們提出將非局部操作作為一個(gè)高效的、簡單的、通用的組件，并用深度神經(jīng)網(wǎng)絡(luò)捕捉長距離依賴關(guān)系。我們提出的非局部操作受啟發(fā)于計(jì)算機(jī)視覺中經(jīng)典非局部操作的一般含義。直觀地說，非局部操作在一個(gè)位置的計(jì)算響應(yīng)是輸入特性圖中所有位置的特征的加權(quán)總和（如圖1）。一組位置可以在空間、時(shí)間或時(shí)空上，暗示我們的操作可以適用于圖像、序列和視頻問題。

圖1是一個(gè)在視頻分類應(yīng)用中訓(xùn)練的網(wǎng)絡(luò)包含的時(shí)空非局部操作示例。

非局部操作有以下優(yōu)勢：（a）與循環(huán)操作的反復(fù)性行為形成對比，非局部操作直接通過計(jì)算任意兩個(gè)位置之間的相互作用來捕捉長距離依賴關(guān)系，而不需受兩位置的位置距離約束。（b）正如我們在實(shí)驗(yàn)中展示的，非局部操作的效率高，而且在只有幾層的情況下也能達(dá)到較好的結(jié)果。（c）最后，我們的非局部操作保持輸入變量的大小，并且容易與其他操作進(jìn)行結(jié)合（如卷積操作）。

我們將展示非局部操作在視頻分類應(yīng)用中的有效性。在視頻中，遠(yuǎn)距離的相互作用發(fā)生在空間或時(shí)間中的長距離像素之間。一個(gè)非局部塊是我們的基本單位，可以直接通過前饋方式捕捉這種時(shí)空依賴關(guān)系。在一些非局部塊中，我們的網(wǎng)絡(luò)結(jié)構(gòu)被稱為非局部神經(jīng)網(wǎng)絡(luò)，比2D或3D卷積網(wǎng)絡(luò)（包括其變體）有更準(zhǔn)確的視頻分類效果。另外，非局部神經(jīng)網(wǎng)絡(luò)有比3D卷積網(wǎng)絡(luò)有更低的計(jì)算開銷。我們在Kinetics和Charades數(shù)據(jù)集上進(jìn)行了詳細(xì)的研究（分別進(jìn)行了光流、多尺度測試）。我們的方法在所有數(shù)據(jù)集上都能獲得比方法更好的結(jié)果。

為了證明非局部操作的通用性，我們進(jìn)一步在COCO數(shù)據(jù)集上進(jìn)行了目標(biāo)檢測/分割和姿勢估計(jì)的實(shí)驗(yàn)。在MaskR-CNNbaseline的基礎(chǔ)之上，我們的非局部塊僅需要很小的額外計(jì)算開銷，就可以提升在三個(gè)任務(wù)中的準(zhǔn)確度。在視頻和圖像中的實(shí)驗(yàn)證明，非局部操作可以作為設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)的一個(gè)通用的部件。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器非局部均值濾波網(wǎng)絡(luò)銀行論文網(wǎng)絡(luò)信息安全論文計(jì)算機(jī)網(wǎng)絡(luò)論文

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/4694.html

發(fā)表評論

登陸后可評論

0條評論

nevermind

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow1.8

閱讀 3663·2023-04-26 00:05
C語言實(shí)現(xiàn)入門級小游戲——掃雷

閱讀 1032·2021-11-11 16:55
單片機(jī)入門指南

閱讀 3663·2021-09-26 09:46
TP5實(shí)現(xiàn)表格拖動(dòng)排序并保存到數(shù)據(jù)庫功能

閱讀 3601·2019-08-30 15:56
前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

閱讀 974·2019-08-30 15:55
【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

閱讀 2990·2019-08-30 15:53
關(guān)于響應(yīng)式布局，你必須要知道的

閱讀 2024·2019-08-29 17:11
python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁設(shè)計(jì)（表單）

閱讀 872·2019-08-29 16:52

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Facebook何愷明等大神最新論文提出非局部神經(jīng)網(wǎng)絡(luò)

相關(guān)文章

**經(jīng)典ResNet結(jié)果不能復(fù)現(xiàn)？何愷明回應(yīng)：它經(jīng)受住了時(shí)間的考驗(yàn)**

何愷明終結(jié)ImageNet預(yù)訓(xùn)練時(shí)代：從0訓(xùn)練模型效果比肩COCO冠軍

深度學(xué)習(xí)時(shí)代的目標(biāo)檢測算法

**全面解讀Group Normalization-（吳育昕-何愷明）**

何愷明團(tuán)隊(duì)推出Mask^X R-CNN，將實(shí)例分割擴(kuò)展到3000類

發(fā)表評論

0條評論

nevermind

男|高級講師

TA的文章

tensorflow1.8

C語言實(shí)現(xiàn)入門級小游戲——掃雷

單片機(jī)入門指南

TP5實(shí)現(xiàn)表格拖動(dòng)排序并保存到數(shù)據(jù)庫功能

前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

關(guān)于響應(yīng)式布局，你必須要知道的

python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁設(shè)計(jì)（表單）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Facebook何愷明等大神最新論文提出非局部神經(jīng)網(wǎng)絡(luò)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！