斯坦福新深度學(xué)習(xí)系統(tǒng) NoScope：視頻對象檢測快1000倍

xcold 發(fā)布于2019-04-25 18:15 / 1547人閱讀

摘要：通過利用一系列利用視頻局部性的優(yōu)化，顯著降低了在每個幀上的計算量，同時仍保持常規(guī)檢索的高精度。的差異檢測器目前是使用逐幀計算的邏輯回歸模型實現(xiàn)的。這些檢測器在上的運行速度非?？欤棵氤^萬幀。也就是說，每秒處理的視頻幀數(shù)超過幀。

視頻數(shù)據(jù)正在爆炸性地增長——僅英國就有超過400萬個CCTV監(jiān)控攝像頭，用戶每分鐘上傳到 YouTube 上的視頻超過300小時。深度學(xué)習(xí)的進展已經(jīng)能夠自動分析這些海量的視頻數(shù)據(jù)，讓我們得以檢索到感興趣的事物，檢測到異常和異常事件，以及篩選出不會有人看的視頻的生命周期。但是，這些深度學(xué)習(xí)方法在計算上是非常昂貴的：當(dāng)前 state-of-the-art 的目標檢測方法是在較先進的NVIDIA P100 GPU上以每秒10-80幀的速度運行的。這對單個視頻來說還好，但對于大規(guī)模實際部署的視頻來說，這是難以維持的。具體來說，假如用這樣的方法來實時分析英國所有的CCTV監(jiān)控視頻，僅在硬件上就得花費超過50億美元。

為了解決視頻增長速度與分析成本之間的巨大差距，我們構(gòu)建了一個名為 NoScope 的系統(tǒng)，與目前的方法相比，它處理視頻內(nèi)容的速度要快數(shù)千倍。我們的主要想法是，視頻是高度冗余的，包含大量的時間局部性（即時間上的相似性）和空間局部性（即場景中的相似性）。為了利用這種局部性，我們設(shè)計了用于高效處理視頻輸入任務(wù)的 NoScope。通過利用一系列利用視頻局部性的優(yōu)化，顯著降低了在每個幀上的計算量，同時仍保持常規(guī)檢索的高精度。

本文將介紹NoScope優(yōu)化的一個示例，并描述NoScope如何在模型級聯(lián)中端到端地堆疊它們，以獲得倍增的加速——在現(xiàn)實部署的網(wǎng)絡(luò)攝像機上可提速1000倍。

一個典型例子

試想一下，我們想檢索下面的監(jiān)控攝像頭拍攝的視頻，以確定公交車在什么時候經(jīng)過臺北的某個交叉路口（例如，用于交通分析）：

? ? ?

臺北某個交叉路口的兩個視頻片段

那么，當(dāng)前較好的視覺模型是如何處理這個問題的呢？我們可以運行 YOLOv2 或Faster R-CNN 之類的用于對象檢測的卷積神經(jīng)網(wǎng)絡(luò)（CNN），通過在視頻的每個幀上運行CNN來檢測公交車：

? ? ?

使用YOLOv2標記的交叉路口片段

這種方法工作得很好，尤其是如果我們使視頻中出現(xiàn)的標簽流暢的話，那么問題出現(xiàn)在哪里呢？就是這些模型非常昂貴。這些模型的運行速度是每秒10-80幀，這對監(jiān)控單個視頻輸入來說還好，但如果要處理上千個視頻輸入的話，效果并不好。

機會：視頻中的局部性

為了提高檢索的效率，我們應(yīng)該看視頻內(nèi)容本身的性質(zhì)。具體來說，視頻的內(nèi)容是非常冗余性的。讓我們回到臺北的街道監(jiān)控視頻，看一下以下一些出現(xiàn)公交車的幀：

從這個視頻影像的角度看，這些公交車看起來是非常相似的，我們稱這種局部（locality）形式為場景特定的局部性（scene-specific locality），因為在視頻影像中，對象之間看起來并沒有很大的不同（例如，與另一個角度的攝像頭相比）。

此外，從這個監(jiān)控視頻中，很容易看出，即使公交車正在移動，每一個幀之間都沒有太大的變化：

我們將這種特征稱為時間局部性（temporal locality），因為時間點附近的幀看起來相似，并且包含相似的內(nèi)容。

NoScope：利用局部性

為了利用上面觀察到的特征，我們構(gòu)建了一個名為 NoScope 的檢索引擎，可以大大加快視頻分析檢索的速度。給定一個視頻輸入（或一組輸入），一個（或一組）要檢測的對象（例如，“在臺北的監(jiān)控視頻影像中查找包含公交車的幀”），以及一個目標CNN（例如，YOLOv2），NoScope 輸出的幀與YOLOv2的一致。但是NoScope 比輸入CNN要快許多：它可以在可能的時候運行一系列利用局部性的更便宜的模型，而不是簡單地運行成本更高的目標CNN。下面，我們描述了兩類成本較低的模型：專門針對給定的視頻內(nèi)容（feed）和要檢測的對象（以利用場景特定局部性）的模型，以及檢測差異（以利用時間局部性）的模型。

這些模型端到端地堆疊，比原來的CNN要快1000倍。

利用場景特定局部性

NoScope 使用專用模型來利用場景特定局部性，或訓(xùn)練來從特定視頻內(nèi)容的角度檢測特定對象的快速模型。如今的CNN已經(jīng)能夠識別各種各樣的物體，例如貓、滑雪板、馬桶等等。但在我們的檢測臺北地區(qū)的公交車的任務(wù)上，我們不需要關(guān)心貓、滑雪板或馬桶。相反，我們可以訓(xùn)練一個只能從特定角度的監(jiān)控視頻檢測公交車的模型。

舉個例子，下面的圖像是MS-COCO數(shù)據(jù)集中的一些樣本，也是我們在檢測中不需要關(guān)心的對象。

MS-COCO數(shù)據(jù)集中沒有出現(xiàn)公交車的3個樣本

MS-COCO數(shù)據(jù)集中出現(xiàn)公交車的2個樣本。

NoScope 的專用模型也是CNN，但它們比通用的對象檢測CNN更簡單（更淺）。這有什么作用呢？與YOLOv2的每秒80幀相比，NoScope的專用模型每秒可以運行超過15000幀。我們可以將這些模型作為原始CNN的替代。

使用差異檢測器來利用時間局部性

NoScope 使用差異檢測器（difference detector）或設(shè)計來檢測對象變化的快速模型來利用時間局部性。在許多視頻中，標簽（例如“有公交車”，“無公交車”）的變化比幀的變化少很多（例如，一輛公交車出現(xiàn)在幀中長達5秒，而模型以每秒30幀的速度運行）。為了說明，下面是兩個都是150幀長度的視頻，但標簽并不是在每個視頻中都有變化。

每個視頻都是150幀，標簽一樣，但下邊的視頻沒變過！

相比之下，現(xiàn)在的對象檢測模型是逐幀地運行的，與幀之間的實際變化無關(guān)。這樣設(shè)計的原因是，像YOLOv2這樣的模型是用靜態(tài)圖像訓(xùn)練的，因此它將視頻視為一系列的圖像。因為NoScope可以訪問特定的視頻流，因此它可以訓(xùn)練差異檢測模型，這些模型對時間依賴性敏感。NoScope的差異檢測器目前是使用逐幀計算的邏輯回歸模型實現(xiàn)的。這些檢測器在CPU上的運行速度非?？欤棵氤^10萬幀。想專用模型一樣，NoScope可以運行這些差異檢測器，而不是調(diào)用昂貴的CNN。

把這些模型放到一起

NoScope將專用模型和差異檢測器結(jié)合在一起，堆疊在一個級聯(lián)中，或堆疊在使計算簡化的一系列模型。如果差異檢測器沒有發(fā)生任何變化，那么NoScope會丟棄這一幀。如果專用模型對其標簽有信心，那么NoScope會輸出這個標簽。而且，如果面對特別棘手的框架，NoScope 可以隨時返回到完整的CNN。

為了設(shè)置這個級聯(lián)（cascade）以及每個模型的置信度，NoScope提供了可以在精度和速度之間折衷的優(yōu)化器。如果想更快地執(zhí)行，NoScope將通過端到端級聯(lián)傳遞更少的幀。如果想得到更準確的結(jié)果，NoSceop 則將提高分類決定的簡化閾值。如下圖所示，最終結(jié)果實現(xiàn)了比當(dāng)前方法快10000倍的加速。

上圖是NoScope的系統(tǒng)圖示；下圖顯示了在一個有代表性的視頻中速度和準確度的相關(guān)性。

差異檢測器和專用模型都有助于這一結(jié)果。我們先是只使用YOLOv2進行因素分析，然后將每個類型的快速模型添加到級聯(lián)中。兩者都是為了實現(xiàn)較大話性能所必需的。

NoScope系統(tǒng)的因素分析

總結(jié)NoScope的級聯(lián)車輛，優(yōu)化器先在一個特定視頻流中運行較慢的參考模型（YOLOv2，F(xiàn)aster R-CNN等），以獲取標簽。給定這些標簽，NoScope訓(xùn)練一組專用模型和差異檢測器，并使用一個holdout set來選擇使用哪個特定模型或差異檢測器。最后，NoScope的優(yōu)化器將訓(xùn)練好的模型串聯(lián)起來，可以在優(yōu)化模型不確定是調(diào)用原始的模型。

結(jié)論

總結(jié)而言，視頻數(shù)據(jù)非常豐富，但使用現(xiàn)代神經(jīng)網(wǎng)絡(luò)進行檢索的速度非常慢。在NoScope中，我們利用時間局部性，將視頻專用管道中差異檢測和專用CNN相結(jié)合，視頻檢索速度比普通CNN檢索提高了1000倍。也就是說，每秒處理的視頻幀數(shù)超過8000幀。我們將繼續(xù)改進NoScope來支持多類分類，非固定角度監(jiān)控視頻，以及更復(fù)雜的檢索。

原文：http://dawn.cs.stanford.edu/2017/06/22/noscope/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)學(xué)習(xí)視頻深度學(xué)習(xí)視頻學(xué)習(xí) 深度學(xué)習(xí)視頻深度學(xué)習(xí)學(xué)習(xí)視頻教程

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/4581.html

發(fā)表評論

登陸后可評論

0條評論

xcold

男|高級講師

我要關(guān)注我要私信

TA的文章

【LeetCode 二叉樹專項】把二叉搜索樹轉(zhuǎn)換為累加樹（538）

閱讀 3331·2021-11-18 10:02
UCloud金秋狂歡盛典-烏蘭察布上新首促，快杰共享型低至3元/1個月或37元/年-老劉博客

閱讀 1548·2021-10-12 10:08
Docker安裝InfluxDB_用戶名密碼和策略使用

閱讀 1370·2021-10-11 10:58
安裝鴻蒙開發(fā)工具-DevEco Studio

閱讀 1354·2021-10-11 10:57
golang實現(xiàn)儀表控制-visa32.dll方式

閱讀 1258·2021-10-08 10:04
【C++從0到1】新手都能看懂的C++入門（上篇），建議收藏

閱讀 2209·2021-09-29 09:35
彈性云主機是什么原因-電信云主機是什么？

閱讀 851·2021-09-22 15:44
微軟宣布將于 9 月 22 日舉行 Surface 和 Windows 11 活動

閱讀 1346·2021-09-03 10:30

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

斯坦福新深度學(xué)習(xí)系統(tǒng) NoScope：視頻對象檢測快1000倍

相關(guān)文章

擊敗亞馬遜、谷歌！阿里云圖像識別速度創(chuàng)記錄

**用不到1000美元攢一臺深度學(xué)習(xí)用的超快的電腦**

一個時代的終結(jié)：ImageNet 競賽 2017 是最后一屆

**深度學(xué)習(xí)：你該知道八大開源框架**

發(fā)表評論

0條評論

xcold

男|高級講師

TA的文章

【LeetCode 二叉樹專項】把二叉搜索樹轉(zhuǎn)換為累加樹（538）

UCloud金秋狂歡盛典-烏蘭察布上新首促，快杰共享型低至3元/1個月或37元/年-老劉博客

Docker安裝InfluxDB_用戶名密碼和策略使用

安裝鴻蒙開發(fā)工具-DevEco Studio

golang實現(xiàn)儀表控制-visa32.dll方式

【C++從0到1】新手都能看懂的C++入門（上篇），建議收藏

彈性云主機是什么原因-電信云主機是什么？

微軟宣布將于 9 月 22 日舉行 Surface 和 Windows 11 活動

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

斯坦福新深度學(xué)習(xí)系統(tǒng) NoScope：視頻對象檢測快1000倍

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！