摘要:上周,在舊金山召開的人工智能國際較高級會議上,來自微軟亞洲研究院的鄭宇博士及其團(tuán)隊的論文首創(chuàng)性的將時空數(shù)據(jù)與深度學(xué)習(xí)結(jié)合起來,利用時空深度殘差網(wǎng)絡(luò)用于預(yù)測城市人流問題。
上周,在舊金山召開的人工智能國際較高級會議AAAI 2017上,來自微軟亞洲研究院的鄭宇博士及其團(tuán)隊的論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction首創(chuàng)性的將時空數(shù)據(jù)與深度學(xué)習(xí)結(jié)合起來,利用時空深度殘差網(wǎng)絡(luò)用于預(yù)測城市人流問題。
提及這項研究,鄭宇博士介紹到:“這個系統(tǒng)背后的模型研究,其目標(biāo)是預(yù)測整個城市里每個區(qū)域在未來時刻有多少人進(jìn)、有多少人出,從而使得管理者能迅速了解每個區(qū)域的公共安全狀況,及時采取預(yù)警措施?!彼a(bǔ)充,“例如在上海市兩年前跨年夜的踩踏事件之前,如果有這樣的系統(tǒng),就可以提前給民眾發(fā)信息,告知他們這里未來會有多少人進(jìn)來,提醒民眾注意,并建議是否需要提前離開。我們這項研究的想法也正是起源于這次事件?!?/p>
微軟亞洲研究院主管研究員 鄭宇
可擴(kuò)展的整體預(yù)測模型
今天,在貴陽的“塊數(shù)據(jù)”實驗室里的一塊大屏幕上,貴陽市被分為若干個1KM*1KM的小格子,它實時地輸入新數(shù)據(jù),以熱度圖(heat map)的形式不間斷的預(yù)測每個區(qū)域會有多少輛出租車的進(jìn)和出。這是一個以貴陽出租車實時上傳的數(shù)據(jù)作為樣本,基于云計算和大數(shù)據(jù)的系統(tǒng)。
該系統(tǒng)具有極強(qiáng)的擴(kuò)展性,任何可以用于人流數(shù)據(jù)預(yù)測的來源,無論是正在采用的出租車數(shù)據(jù),還是手機(jī)信號、地鐵刷卡記錄等,都可以通過論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中提出的這套系統(tǒng)模型進(jìn)行運(yùn)算,得到相應(yīng)的某地將有多少人進(jìn)和出的結(jié)果,并預(yù)測未來十幾個小時的城市人流情況。
?
傳統(tǒng)的人流預(yù)測方法一般是預(yù)測個人行為。理想狀態(tài)下,只要統(tǒng)計某個區(qū)域里的每個人從哪來去哪里就能測算出該區(qū)域有多少人進(jìn)、多少人出。但這樣的統(tǒng)計本身有很大的障礙,準(zhǔn)確性很難保證,并且涉及隱私問題。除此之外,傳統(tǒng)方法還有一些基于物理學(xué)模型、交通動力學(xué)模型或是土木工程的經(jīng)典模型等,但這些始終難以應(yīng)對大規(guī)模的人流預(yù)測。
?
鄭宇博士及其團(tuán)隊提出的這套方法是一種整體預(yù)測,不涉及個人隱私。該系統(tǒng)將整個城市劃分成若干個相同大小的格子,進(jìn)行同時預(yù)測。整體性預(yù)測的必要性在于區(qū)域和區(qū)域之間具有相關(guān)性,不能多帶帶預(yù)測,在預(yù)測 A 區(qū)域的時候,其實A區(qū)域的變化對B區(qū)域和C區(qū)域同樣可能產(chǎn)生影響,反之亦然。因此,把深度學(xué)習(xí)的思想引入進(jìn)來進(jìn)行整體預(yù)測,與傳統(tǒng)方法相比具有諸多優(yōu)勢。
基于對時空數(shù)據(jù)的深度理解
這項工作其實面臨著諸多難點,其中一個重要原因是:影響人流量的因素非常之多??赡馨ǎ号c區(qū)域里面前一個小時有多少人進(jìn)和出有關(guān)系;與周邊區(qū)域有多少人進(jìn)和出也有關(guān)系;甚至很遠(yuǎn)的地方有多少人進(jìn)和出等等……但是這些區(qū)域之間的關(guān)系又是相互影響的。
?
另一個難點是,人流的變化還受很多外部因素的影響,例如天氣和事件等等。
?
第三點,人流量的預(yù)測是一種時空數(shù)據(jù),它包括時間屬性和空間屬性。不同于圖像數(shù)據(jù)和文本數(shù)據(jù)等,這種特別的屬性就意味著傳統(tǒng)的深度學(xué)習(xí)方法不能直接應(yīng)用。
?
為什么傳統(tǒng)的深度學(xué)習(xí)方法不能直接拿來用?這包括以下四點原因。
?
第一,空間屬性。空間有距離,空間有層次。根據(jù)地理學(xué)第一定律,地理事物或?qū)傩栽诳臻g分布上互為相關(guān),一個空間單元內(nèi)的信息與其周圍單元信息有相似性。即在地圖上,兩個點的距離越遠(yuǎn),可以認(rèn)為該兩點的如空氣質(zhì)量、溫度等屬性可能差異越大。
?
第二,城市的天然層次性。一個城市它有很多區(qū),每個區(qū)又由很多街道社區(qū)組成,它有天然的層次。不像圖像數(shù)據(jù)中的像素,像素和像素之間并不存在層次感。城市的區(qū)域、街道等這些地理信息里都蘊(yùn)藏著明確的多層次的語義信息。
?
以上兩點是空間上的不同。
第三,時間變化的周期性。在相鄰兩個時間點之間,城市的交通容量和人流可能是一個平滑變化的趨勢。例如7點和8點的人流可能是平滑變化的,這很容易理解。但周期性則是一種屬性,城市的交通流量也好、人流也好,它是有一個往復(fù)的周期性。比如說今天早上8點的車流量和昨天早上8點的車流量可能很像,但是今天早上8點和今天中午12點的車流量卻大相徑庭,盡管今天中午12點鐘離今天早上8點鐘只有4個小時,而昨天早上8點鐘離今天早上8點鐘有24個小時,但反而是昨天同一時間的數(shù)據(jù)卻更為相似。不同于傳統(tǒng)的視頻數(shù)據(jù)和圖像數(shù)據(jù),周期性是時空數(shù)據(jù)的特有屬性。
?
第四,時間變化的趨勢性。其實,周期性也不是固定的,它有一種趨勢性的上揚(yáng)和下降,這就叫趨勢性。什么叫趨勢?比如冬天天氣越來越冷了,天亮的時間越來越晚,大家出門的時間就會越來越晚,因此早高峰來的時間就會越來越晚,這種趨勢性慢慢漸變的過程,并不是一個固定的數(shù)值,不是說永遠(yuǎn)早高峰都是8點鐘來。
?
當(dāng)空間屬性和時間屬性結(jié)合在一起,人流數(shù)據(jù)作為時空數(shù)據(jù)的一種,就區(qū)別于以往的視頻、圖像和文本等數(shù)據(jù),已有的深度學(xué)習(xí)方法是無法直接奏效的,這也是研究這類數(shù)據(jù)的難點所在。
時空殘差網(wǎng)絡(luò)
說完了研究難點,那么鄭宇博士及其團(tuán)隊是如何解決這個意義非凡的研究難題的呢?
?
如上文貴陽市“塊數(shù)據(jù)”實驗室的大屏幕所顯示的,鄭宇博士及團(tuán)隊創(chuàng)造性地把城市劃分成若干個均勻且不相交的網(wǎng)格。例如采用1KM*1KM的格子把城市劃分成網(wǎng)格,接下來把收到的人流數(shù)據(jù),例如手機(jī)數(shù)據(jù)或者是出租車軌跡等代表人流量的數(shù)據(jù),投射在網(wǎng)格里面。第三步,以網(wǎng)格為單位計算每個格子里分別有多少人流量的進(jìn)和出。第四步,根據(jù)這些數(shù)據(jù)生成簡單的熱度圖。例如某個方格顏色越亮,則說明這個地方人越多。
因此,某一個時間點的數(shù)據(jù)就能生成一張二維的平面圖。多個時間點的數(shù)據(jù)生成對應(yīng)的圖像,就變成了一個時序。此外,研究員同時挖掘出了數(shù)據(jù)對應(yīng)的事件和天氣信息。這些就構(gòu)成了數(shù)據(jù)的輸出。
有了這些數(shù)據(jù),是否可以直接用上深度學(xué)習(xí)了呢?答案是否定的。根據(jù)論文的描述,我們還要經(jīng)過以下幾個步驟。
?
第一,把最近幾個小時的數(shù)據(jù),即把最近這幾幀的數(shù)據(jù),輸入到一個深度殘差網(wǎng)絡(luò)里面,即時空殘差網(wǎng)絡(luò),來模擬相鄰時刻這些時間點的人流變化的平滑過程。
?
第二,把對應(yīng)時間點不同日期的對應(yīng)時刻,例如周一的兩點鐘和周二的兩點鐘,以及周五的兩點鐘,這些同一時刻的數(shù)據(jù)作為輸入,來模擬周期性。
?
第三,模擬趨勢性,即從更長的時間維度進(jìn)行模擬。例如將每個月的第一周,第二周和第三周周一的下午三點鐘的對應(yīng)數(shù)據(jù)作為輸入,從而模擬趨勢性。
?
以上三點均通過同樣的深度殘差網(wǎng)絡(luò)分別模擬三個屬性:平滑、周期、趨勢。通過這些關(guān)鍵幀的抽取,只要用幾十幀的關(guān)鍵幀作為輸入,就可以體現(xiàn)出城市幾個月時間里所包含的周期性和趨勢性,這極大地簡化了網(wǎng)絡(luò)結(jié)構(gòu),但同時保證了訓(xùn)練的質(zhì)量和效果。
?
接下來,將這三個結(jié)果進(jìn)行融合,在這一階段僅考慮時間屬性和空間屬性。因為外部因素,例如事件和天氣等更多的是全局的、更廣域的影響。因此下一步,再把外部的天氣、事件等因素做二次融合。
那么,空間的特性在這里是如何模擬的呢?
我們都知道,深度卷積神經(jīng)網(wǎng)絡(luò)的過程是這樣的——在將城市區(qū)域劃分成若干個格子之后,把相關(guān)的區(qū)域進(jìn)行卷積運(yùn)算合并到一個值,你可以認(rèn)為通過一次卷積之后,相關(guān)周圍地區(qū)的人流的相關(guān)性就能有所了解。卷積多次之后,相當(dāng)于把更遠(yuǎn)的地方屬性都卷積到一起了。如果你想研究距離很遠(yuǎn)的兩個地方的相關(guān)性,那就對網(wǎng)絡(luò)層次的深度提出了要求。在上海外灘的踩踏事件中,外灘觀景平臺的人流對沖被認(rèn)為是事件的主要原因,但造成大規(guī)模人流對沖的原因仍不清楚。而該模型既可用于解釋人流對沖的原因和趨勢,另一方面還能對人流疏散問題提供解決方案。
?
但另一方面,一旦網(wǎng)絡(luò)的層次比較深,就會讓訓(xùn)練變得非常復(fù)雜、非常困難,精度也無法保證。為了保證訓(xùn)練效果好、提高訓(xùn)練精度,研究員們引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)來解決這個問題。這樣既保證了人流量的空間相關(guān)性,又使得訓(xùn)練精度變得更好。
?
在論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中,鄭宇博士及研究團(tuán)隊用四年內(nèi)的北京市出租車GPS軌跡數(shù)據(jù)和紐約自行車租賃的公開數(shù)據(jù)進(jìn)行了驗證。這套模型的通用性也保證了其他類似數(shù)據(jù)同樣可以用于人流量的預(yù)測問題。
?
鄭宇博士介紹道:“這篇論文可以認(rèn)為是(在國際知名學(xué)術(shù)會議上)真正把深度學(xué)習(xí)有效用在時空數(shù)據(jù)上的第一個研究成果,具有重要意義?!倍疃葘W(xué)習(xí)在時空數(shù)據(jù)方面的應(yīng)用,目前也是微軟亞洲研究院城市計算組的重點研究方向。
為城市喝彩
關(guān)于城市計算的研究已經(jīng)走過了近十年的時光。從2008年初開始,通過分析和融合城市中的各種大數(shù)據(jù),鄭宇博士和團(tuán)隊實現(xiàn)了一系列關(guān)于智能交通、城市規(guī)劃、環(huán)境和能源等的實際案例。相關(guān)技術(shù)不僅被應(yīng)用于微軟的產(chǎn)品,并且還在多個城市為政府決策提供服務(wù)。
?
城市計算作為一個交叉學(xué)科,包括城市感知及數(shù)據(jù)捕獲、數(shù)據(jù)管理、城市數(shù)據(jù)分析、服務(wù)提供四個環(huán)節(jié)。與自然語言分析和圖像處理等“單數(shù)據(jù)單任務(wù)”系統(tǒng)相比,城市計算是一個“多數(shù)據(jù)多任務(wù)”的系統(tǒng)。城市計算中的任務(wù)涵蓋改進(jìn)城市規(guī)劃、緩解交通擁堵、保護(hù)自然環(huán)境、減少能源消耗等等。而在一個任務(wù)中又需要同時用到多種數(shù)據(jù)。比如,在城市規(guī)劃的設(shè)計過程中,我們需要同時參考道路結(jié)構(gòu)、興趣點分布、交通流等多種數(shù)據(jù)源。
?
在城市計算的中文頁面介紹上,鄭宇博士寫道:“更具體的說,城市計算是一個通過不斷獲取、整合和分析城市中多種異構(gòu)大數(shù)據(jù)來解決城市所面臨的挑戰(zhàn)(如環(huán)境惡化、交通擁堵、能耗增加、規(guī)劃落后等)的過程。城市計算將無處不在的感知技術(shù)、高效的數(shù)據(jù)管理和分析算法,以及新穎的可視化技術(shù)相結(jié)合,致力于提高人們的生活品質(zhì)、保護(hù)環(huán)境和促進(jìn)城市運(yùn)轉(zhuǎn)效率。城市計算幫助我們理解各種城市現(xiàn)象的本質(zhì),甚至預(yù)測城市的未來?!?/p>
注:城市計算的中文頁面網(wǎng)址:https://www.microsoft.com/en-us/research/project/%E5%9F%8E%E5%B8%82%E8%AE%A1%E7%AE%97/ (請點擊文末的閱讀原文或直接復(fù)制網(wǎng)址至瀏覽器中打開)
如何成為一個幫助城市建設(shè),為城市喝彩的數(shù)據(jù)科學(xué)家?鄭宇博士給出了以下幾點分享。
?
首先,數(shù)據(jù)科學(xué)家是區(qū)別于數(shù)據(jù)分析師的概念,后者通常都是針對明確的任務(wù)和明確的數(shù)據(jù)進(jìn)行處理。而數(shù)據(jù)科學(xué)家往往需要自己找出問題,找出對應(yīng)的數(shù)據(jù)。例如,如何解決城市的霧霾問題等。
?
其次,數(shù)據(jù)科學(xué)家需要會分析問題,知道這個問題和什么因素相關(guān),也知道用什么樣的數(shù)據(jù)體現(xiàn)這樣的問題。不僅如此,他還需要知道過去解決方案的優(yōu)缺點,并博采眾長,提出自己的解決思路。
?
再來,數(shù)據(jù)科學(xué)家要看懂?dāng)?shù)據(jù),理解數(shù)據(jù)背后的洞察。例如路面上的GPS軌跡,它不光反映了路面的交通容量和速度信息,它也反映了人們的出行規(guī)律。我們知道每個人的上車地點和下車地點,如果我們有很多人的出行規(guī)律,就可以進(jìn)一步反映這個區(qū)域的經(jīng)濟(jì)、功能甚至環(huán)境。進(jìn)而可以用領(lǐng)域A的數(shù)據(jù)去解決領(lǐng)域B的問題,做到跨數(shù)據(jù)多元融合。
?
還有就是要了解各種模型,包括數(shù)據(jù)管理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、可視化等等,以及云計算平臺問題。
?
鄭宇博士總結(jié)道,一個好的數(shù)據(jù)科學(xué)家應(yīng)該是站在云平臺上面看問題,想數(shù)據(jù)、關(guān)聯(lián)模型,并把這些模型有機(jī)地組合起來,部署到我們的云平臺上面,跟它產(chǎn)生鮮活的知識,最終解決行業(yè)問題。
?
這,也是鄭宇博士和城市計算團(tuán)隊一直追求的方向,也是他們?yōu)槌鞘泻炔实囊环N含蓄的表達(dá)方式吧。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/4477.html
摘要:年月日,以數(shù)字金融新原力為主題的螞蟻金服城市峰會在上海隆重舉行。而其分享中最引人關(guān)注的當(dāng)屬螞蟻風(fēng)險大腦,它過去為螞蟻金服業(yè)務(wù)保駕護(hù)航,現(xiàn)已為眾多金融監(jiān)管部門金融機(jī)構(gòu)以及企業(yè)提供安全技術(shù)能力,做好安全的守護(hù)人。 2019年1月4日,以數(shù)字金融新原力(The New Force of Digital Finance)為主題的螞蟻金服ATEC城市峰會在上海隆重舉行。大會聚焦金融數(shù)字化轉(zhuǎn)型,分...
摘要:技術(shù)總言這次主要說最近發(fā)展的無監(jiān)督特征學(xué)習(xí)和深入學(xué)習(xí),其對于時間序列模型問題的評價。建模連續(xù)數(shù)據(jù)的傳統(tǒng)方法包括從假定時間序列模型參數(shù)的估計,如自回歸模型和線性動力系統(tǒng),和著名的隱馬爾可夫模型。此外,時間序列對時間變量有明顯依賴性。 技術(shù)總言:這次主要說最近發(fā)展的無監(jiān)督特征學(xué)習(xí)和深入學(xué)習(xí),其對于時間序列模型問題的評價。這些技術(shù)已經(jīng)展現(xiàn)了希望對于建模靜態(tài)數(shù)據(jù),如計算機(jī)視覺,把它們應(yīng)用到時間序列數(shù)...
摘要:工業(yè)園區(qū)發(fā)展帶動高質(zhì)量發(fā)展,同時也成為城市安全發(fā)展的重要組成部分。智能安全起著是以工業(yè)互聯(lián)網(wǎng)為支撐的智能工業(yè)的基石。黨的十九大報告提出,我國經(jīng)濟(jì)已由高速增長階段轉(zhuǎn)向高質(zhì)量發(fā)展階段,正處在轉(zhuǎn)變發(fā)展方式、優(yōu)化經(jīng)濟(jì)結(jié)構(gòu)、轉(zhuǎn)換增長動力的攻關(guān)期,防風(fēng)險在經(jīng)濟(jì)轉(zhuǎn)型過程中至為關(guān)鍵,城市安全風(fēng)險急需化解。為此,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于推進(jìn)城市安全發(fā)展的意見》。這是轉(zhuǎn)型期城市安全發(fā)展的一個指導(dǎo)...
摘要:好東西傳送門日報星期五機(jī)器學(xué)習(xí)語義分割中的弱監(jiān)督學(xué)習(xí)亮點摘要解密谷歌機(jī)器學(xué)習(xí)工程最佳實踐深度解析京東個性化推薦系統(tǒng)演進(jìn)史最著名的個機(jī)器學(xué)習(xí)項目新技術(shù)與新應(yīng)用高通驍龍解析這次圍繞著人工智能和沉浸式體驗高通量人工智能一體機(jī)首次亮相北京時空大 【好東西傳送門日報】2017-12-08 星期五 【機(jī)器學(xué)習(xí)】 1) 語義分割中的弱監(jiān)督學(xué)習(xí) http://t.cn/RYBWyIZ 2) +NIPS...
閱讀 3491·2023-04-26 02:10
閱讀 3084·2021-10-12 10:12
閱讀 4960·2021-09-27 13:35
閱讀 1691·2019-08-30 15:55
閱讀 1238·2019-08-29 18:37
閱讀 3596·2019-08-28 17:51
閱讀 2122·2019-08-26 13:30
閱讀 1392·2019-08-26 12:09