成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

論文解讀(node2vec)《node2vec Scalable Feature Learning

番茄西紅柿 / 3549人閱讀

摘要:個假設(shè)領(lǐng)域內(nèi)節(jié)點(diǎn)獨(dú)立。參數(shù)的意義分別如下如果,那么采樣會盡量不往回走,對應(yīng)上圖的情況,就是下一個節(jié)點(diǎn)不太可能是上一個訪問的節(jié)點(diǎn)。如果,那么游走會傾向于在起始點(diǎn)周圍的節(jié)點(diǎn)之間跑,可以反映出一個節(jié)點(diǎn)的特性。顯示了當(dāng)設(shè)置,時的示例。

論文題目:《node2vec Scalable Feature Learning for Network》
發(fā)表時間:  KDD 2016 
論文作者:  Aditya Grover;Aditya Grover; Jure Leskovec
論文地址:  Download
Github:      Go


概述

  node2vec is an algorithmic framework for representational learning on graphs. Given any graph, it can learn continuous feature representations for the nodes, which can then be used for various downstream machine learning tasks.

1. Introduction

  先介紹了復(fù)雜網(wǎng)絡(luò)面對的幾種任務(wù),一種是  node classifification task  ,預(yù)測網(wǎng)絡(luò)中  node  最可能的標(biāo)簽 。另一種是  Link prediction  ,就是預(yù)測網(wǎng)絡(luò)中哪些頂點(diǎn)有潛在的關(guān)聯(lián)。
  要解決上述問題通常得先解決 NE 的問題,先前基于專家系統(tǒng)的  hand-engineering  存在著諸多的問題。一種取而代之的方法就是通過優(yōu)化目標(biāo)函數(shù)來學(xué)習(xí)網(wǎng)絡(luò)的表示特征,但是卻存在計算效率和準(zhǔn)確度平衡的問題。傳統(tǒng)的降維方法存在諸多的問題,一般是指基于矩陣分解的方法,這種方法對于large graph 是不適用的(Adjacency matrix),運(yùn)算量大,且準(zhǔn)確率不高,同時只使用于特定的任務(wù)。
  本文舉例說明:
  • homophily:在同質(zhì)性假設(shè)下,高度連接且屬于相似網(wǎng)絡(luò)集群或社區(qū)的節(jié)點(diǎn)應(yīng)該緊密地嵌入在一起。(例如,圖1中的節(jié)點(diǎn) $s_1$ 和 $u$ 屬于同一個網(wǎng)絡(luò)社區(qū))
  • structural equivalence:在結(jié)構(gòu)等價假設(shè)下,在網(wǎng)絡(luò)中具有相似結(jié)構(gòu)角色的節(jié)點(diǎn)應(yīng)該緊密地嵌入在一起。(例如,圖1中的節(jié)點(diǎn) $u$ 和 $s_6$ 作為它們相應(yīng)社區(qū)的樞紐)。
  如下圖,  $u, s_{1}, s_{2}, s_{3}, s_{4}$  就屬于一個社區(qū),而  $u, s_{6}$  在結(jié)構(gòu)上有著相似的特征。
        
  NE 設(shè)計理念:
    • 同一個社區(qū)內(nèi)的節(jié)點(diǎn)表示相似。
    • 擁有類似結(jié)構(gòu)特征的節(jié)點(diǎn)表示相似。

2. Related work

  介紹傳統(tǒng)方法的不足,以及本文采用的自然語言處理方法的介紹。

3. Feature learning framework

  Definitions:
    $G=(V,E)$  is a network,which can be a (un)directed, (un)weighted network.
    $f: V /rightarrow /mathbb{R}^6a22guqa$  be the mapping function. $f$  is a matrix of size  $|V| /times d$  parameters.
    $N_{S}(u) /subset V$ is the neighborhood  of  $u /in V $,through a neighborhood sampling strategy  S .

    objective function: 

       $/underset{f}{max} /quad  /sum /limits _{u /in V} /log /operatorname{Pr}/left(N_{S}(u) /mid f(u)/right)    /quad  /quad /quad /quad (1)$

  2個假設(shè)

    • Conditional independence:領(lǐng)域內(nèi)節(jié)點(diǎn)獨(dú)立。
      $/operatorname{Pr}/left(N_{S}(u) /mid f(u)/right)=/prod /limits _{n_{i} /in N_{S}(u)} /operatorname{Pr}/left(n_{i} /mid f(u)/right)$
    • Symmetry in feature space:點(diǎn)間的影響的一樣的,即:a 對 b 的影響和 b 對 a 的影響一樣。

      ${/large /operatorname{Pr}/left(n_{i} /mid f(u)/right)=/frac{/exp /left(f/left(n_{i}/right) /cdot f(u)/right)}{/sum_{v /in V} /exp (f(v) /cdot f(u))}} $

  總結(jié)上述兩個假設(shè)得:

    $/max _{f} /sum /limits_{u /in V}/left[-/log Z_{u}+/sum/limits_{n_{i} /in N_{S}(u)} f/left(n_{i}/right) /cdot f(u)/right]$

  其中 $Z_{u}=/sum /limits _{v /in V} /exp (f(u) /cdot f(v))$ 。

   推導(dǎo)過程:

    ${/large /begin{array}{l}/underset{f}{max}  /sum /limits _{u /in V} /log P_{r}/left(N_{s}(u) /mid f(u)/right)///left.=/underset{f}{max}  /sum /limits _{u /in V} /log /prod /limits_{n_{i} /in N_{s}(u)} P_{r}/left(n_{i}/right) f(u)/right)//=/underset{f}{max} /sum /limits_{u /in V} /sum /limits_{n_{i} /in N_{s}(u)} /log /frac{/operatorname{exp}/left(f/left(n_{i}/right) /cdot f(u)/right)}{/sum /limits_{V /in V} /exp (f(v) /cdot f(u))}//=/underset{f}{max} /left[-/sum /limits_{n_{i} /in N_{s}(u)} /log Z_{u}+/sum /limits_{n_{i} /in N_{s}(u)} f/left(n_{i}/right) f(u)/right]//=/underset{f}{max} /left[-/left|N_{s}(u)/right| /log Z_{u}+/sum /limits_{n_{i} /in N_{s}(u)} f/left(n_{i}/right) f(u)/right]/end{array}} $

  推導(dǎo)過程中常數(shù) $/left|N_{s}(u)/right|$ 忽略掉了,可能是因?yàn)檫@邊采用了負(fù)采樣策略,和鄰居節(jié)點(diǎn)沒有關(guān)系。

  鄰域 $N_{s}(u)$  并不局限于近鄰,但根據(jù)采樣策略S,可以有很大不同的結(jié)構(gòu)。

3.1 Classic search strategies

  鄰域 $N_{s}(u)$  的大小固定為 $k$ ,使用不同的采樣策略。這里提出兩種采樣策略:BFS and DFS。

  DFS:鄰域被限制為源的近鄰節(jié)點(diǎn)。

    在 Figure 1 中,假設(shè) $k=3$, 則在 $u$ 的附近采樣 node $s_{1}, s_{2}, s_{3}$。

  BFS:鄰域由距離源節(jié)點(diǎn)的距離順序采樣的節(jié)點(diǎn)組成。

    在 Figure 1 中,假設(shè) $k=3$, 則在 $u$ 的某路徑上采樣 node $s_{4}, s_{5}, s_{6}$。

3.2 node2vec

  基于上述觀察結(jié)果,我們設(shè)計了一種靈活的鄰域采樣策略,使我們能夠平滑地在 BFS 和 DFS 之間進(jìn)行插值。我們通過開發(fā)一種靈活的 biased random walk 來實(shí)現(xiàn)這一點(diǎn),該程序可以以 BFS 和 DFS 的方式探索社區(qū)。

3.2.1 Random Walks

  形式上,給定一個源節(jié)點(diǎn)  $u$ ,我們模擬一個固定長度為  $l$  的隨機(jī)游動。設(shè)  $c_i$  表示行走中的第  $i$  個節(jié)點(diǎn),以  $c_0=u$  開始。節(jié)點(diǎn)  $c_i$  由以下分布方式生成:

    $P/left(c_{i}=x /mid c_{i-1}=v/right)=/left/{/begin{array}{ll}/frac{/pi_{v x}}{Z} & /text { if }(v, x) /in E //0 & /text { otherwise } /end{array}/right.$

  其中  $/pi_{v x}$  為節(jié)點(diǎn)  $v$  和節(jié)點(diǎn)  $x$  之間的非歸一化轉(zhuǎn)移概率,$Z$  為歸一化常數(shù)。

3.2.2 Search bias α

  最簡單的方法:  $/pi_{v x}=w_{v x}$  ,對于無權(quán)圖設(shè)置  $w_{v x} = 1$,對于有權(quán)圖  $/pi_{v x}=w_{v x}$  。

  我們定義了一個具有兩個參數(shù)  $p$  和  $q$  的二階隨機(jī)游走:

  對于一個隨機(jī)游走,如果已經(jīng)采樣了  $(t,v)$  ,即現(xiàn)在停留在節(jié)點(diǎn)  $v$  上,那么下一個要采樣的節(jié)點(diǎn)  $x$  是?作者定義了一個概率分布,也就是一個節(jié)點(diǎn)到它的不同鄰居的轉(zhuǎn)移概率: 

    $/pi_{v x}=/alpha_{p q}(t, x) /cdot w_{v x}$

  其中:

    $/alpha_{p q}(t, x)=/left/{/begin{array}{ll}/frac{1}{p} & /text { if } d_{t x}=0 //1 & /text { if } d_{t x}=1 ///frac{1}{q} & /text { if } d_{t x}=2/end{array}/right.$

  這里,$d_{tx}$  表示節(jié)點(diǎn)  $t$  和節(jié)點(diǎn)  $x$  之間的最短路徑距離。

  $/alpha_{p q}(t, x)$ 解釋如下:

    • 如果  $t$  與  $x$  相等,那么采樣  $x$  的概率為 $/frac{1}{p} $ ;
    • 如果  $  /mathrm{t}$  與  $/mathrm{x}$  相連,那么采樣 $/mathrm{x}$  的概率 $1$ ;
    • 如果  $t$  與  $x$  不相連,那么采樣  $x$  概率為 $/frac{1}{q} $。

  參數(shù) $p、q $ 的意義分別如下:

  Return parameter p:

    • 如果 $p>max(q,1)$,那么采樣會盡量不往回走,對應(yīng)上圖的情況,就是下一個節(jié)點(diǎn)不太可能是上一個訪問的節(jié)點(diǎn)  $t$。
    • 如果 $p

  In-out parameter q

    • 如果  $q>1$ ,那么游走會傾向于在起始點(diǎn)周圍的節(jié)點(diǎn)之間跑,可以反映出一個節(jié)點(diǎn)的 BFS 特性。
    • 如果  $q<1$ ,那么游走會傾向于往遠(yuǎn)處跑,反映出 DFS 特性。

  當(dāng)  $p=1,q=1$  時,游走方式就等同于  DeepWalk  中的隨機(jī)游走。

  Benefifits of random walks
    • 存儲圖中每個節(jié)點(diǎn)的近鄰的空間復(fù)雜度為  $O(|E|)$ 。對于二階隨機(jī)游走,存儲每個節(jié)點(diǎn)的鄰居之間的互連是有幫助的,導(dǎo)致空間復(fù)雜度為 $O(a^2|V|)$,其中  $a$  是圖的平均度,對于現(xiàn)實(shí)世界的網(wǎng)絡(luò)來說通常很小。
    • 與經(jīng)典的基于搜索的采樣策略相比,隨機(jī)游走的另一個關(guān)鍵優(yōu)勢是其時間復(fù)雜度。通過在樣本生成過程中施加圖的連通性,跨不同源節(jié)點(diǎn)重用采樣來提高有效采樣率。因此,我們的有效復(fù)雜度是每個樣本的$O/left(/frac{l}{k(l-k)}/right)$。請注意,樣本重用可能會在整個過程中引入一些偏差。然而,我們觀察到,它極大地提高了效率。
      • 舉例:一個長度 $k=6$ 的隨機(jī)游走序列 $/left/{u, s_{4}, s_{5}, s_{6}, s_{8}, s_{9}/right/}$ ,為每個節(jié)點(diǎn)生成鄰居信息,$N_{S}(u)=/left/{s_{4}, s_{5}, s_{6}/right/}$  ,   $N_{S}/left(s_{4}/right)=/left/{s_{5}, s_{6}, s_{8}/right/}$ ,   $N_{S}/left(s_{5}/right)=/left/{s_{6}, s_{8}, s_{9}/right/}$

3.2.3 The node2vec algorithm

    

  算法參數(shù):graph  $G$、dimension $d$、Walks per node  $r$,Walk length  $l$,Context size $k$ ,Return  $p$、In-out $q$ 。

    1. 根據(jù) $p、q$ 以及權(quán)重參數(shù)計算節(jié)點(diǎn)到它鄰居的轉(zhuǎn)移概率;
    2. 將轉(zhuǎn)移概率加到graph  $G$  中形成  $G$。
    3. $walks$ 用來存儲隨機(jī)游走路徑,初始化時為空。
    4. 外循環(huán) $r$  次表示每個節(jié)點(diǎn)作為初始節(jié)點(diǎn)要生成  $r$  個隨機(jī)游走。
    5. 然后對圖中每個節(jié)點(diǎn)。
    6. 生成一條隨機(jī)游走  $walk$ 。
    7. 將  $walk $  添加到  $walks$  中保存。
    8. 然后用  $SGD$  的方法對  $walks$  進(jìn)行訓(xùn)練。

  Step 6 中一條 $walk$ 的生成方式如下:

    1. 將初始節(jié)點(diǎn) $u$ 添加進(jìn)去。
    2. $walk$ 的長度為 $l$,因此還要再循環(huán)添加 $l-1$個節(jié)點(diǎn)。
    3. 當(dāng)前節(jié)點(diǎn)設(shè)為 $walk$ 最后添加的節(jié)點(diǎn)。
    4. 找出當(dāng)前節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)。
    5. 根據(jù)轉(zhuǎn)移概率采樣選擇某個鄰居 $s$。
    6. 將該鄰居添加到 $walk$ 中。

3.3 Learning edge features

  我們通常對涉及節(jié)點(diǎn)對而不是單個節(jié)點(diǎn)的預(yù)測任務(wù)感興趣,即  link prediction 。這里定義一個  $g(u,v)$  使用  $f(u)$  和  $f(v)$  來代表邊的特征向量。

    

4. EXPERIMENTS

4.1 Case Study: Les Misérables network

        

  Figure 3(top)顯示了當(dāng)設(shè)置  $p=1,q=0.5$  時的示例。不同網(wǎng)絡(luò)社區(qū)使用不相同的顏色著色。在這個設(shè)置中,node2vec 發(fā)現(xiàn)了在小說的主要子情節(jié)中經(jīng)常相互作用的角色集群/社區(qū)。由于字符之間的邊緣是基于共現(xiàn)的,我們可以得出這一表征與同質(zhì)性密切相關(guān)的結(jié)論。

  為發(fā)現(xiàn)哪些節(jié)點(diǎn)具有相同的結(jié)構(gòu)角色,我們使用相同的網(wǎng)絡(luò),但設(shè)置了 $p=1,q=2$,使用  node2vec 獲得節(jié)點(diǎn)特征,然后根據(jù)所獲得的特征對節(jié)點(diǎn)進(jìn)行聚類。在這里,  node2vec  獲得了一個節(jié)點(diǎn)對簇的互補(bǔ)分配,這樣顏色就對應(yīng)于結(jié)構(gòu)的等價性,如 Figure 3(bottom)所示。例如, node2vec 將藍(lán)色的節(jié)點(diǎn)嵌入在一起。這些節(jié)點(diǎn)代表了小說中不同子情節(jié)之間的橋梁。類似地,黃色節(jié)點(diǎn)主要代表位于外圍且交互作用有限的字符。我們可以為這些節(jié)點(diǎn)集群分配替代的語義解釋,但關(guān)鍵的結(jié)論是,  node2vec  并不與特定的等價概念綁定。正如我們通過實(shí)驗(yàn)所表明的,這些等價的概念通常在大多數(shù)現(xiàn)實(shí)世界的網(wǎng)絡(luò)中表現(xiàn)出來,并對預(yù)測任務(wù)的學(xué)習(xí)表示的性能有重大影響。

4.2 Experimental setup

  我們的實(shí)驗(yàn)評估了通過  node2vec  在標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)任務(wù)上獲得的特征表示:multilabel classification for nodes and link prediction for edges。對于這兩項任務(wù),我們根據(jù)以下特征學(xué)習(xí)算法來評估  node2vec  的性能:

        

  具體來說,我們設(shè)置了  $d=128 , r=10  ,  l=80  ,  k=10$,并在一個 epoch 中進(jìn)行優(yōu)化。我們使用 10 個隨機(jī)種子初始化重復(fù)實(shí)驗(yàn)。對 10%標(biāo)記數(shù)據(jù)進(jìn)行  $ p、q∈{0.25、0.50、1、2、4}$  網(wǎng)格搜索的 10-fold cross-validation ,學(xué)習(xí)最佳  $p$  和  $q$。

  Node feature representations 被輸入到一個   L2 regularization 的  one-vs-rest logistic regression classifier 上。我們使用 $Macro-F1 scores$ 作為評價標(biāo)準(zhǔn)。

  對于更多的 fine-grained analysis,我們還比較了性能,同時將 $train-test split$ 從  $10%$  改變到  $90%$  ,學(xué)習(xí)參數(shù)  $p$  和  $q$  在  $10%$  的數(shù)據(jù)進(jìn)行分析。在 Figure 4 中總結(jié)了  Micro-F1  和  Macro-F1  score  的結(jié)果。

        

4.4 Parameter sensitivity

  node2vec算法涉及許多參數(shù),在 Figure 5a 中,我們使用標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)之間的不同參數(shù)選擇如何影響博客目錄數(shù)據(jù)集上的  node2vec  的性能。除要測試的參數(shù)外,所有其他參數(shù)都假設(shè)為默認(rèn)值。
        

4.5 Perturbation Analysis

  在第一種情況下,我們研究  missing edges  比列對性能的影響(相對于完整的網(wǎng)絡(luò))。缺失邊是隨機(jī)選擇的,受網(wǎng)絡(luò)中連接組件數(shù)量保持固定的約束。如圖我們可以在Figure 5 b(top)中看到,隨著缺邊比列的增加,Macro-F1 分?jǐn)?shù)大致呈線性下降,斜率較小。在圖隨著時間的推移而演化(例如引文網(wǎng)絡(luò))或網(wǎng)絡(luò)構(gòu)建昂貴(例如生物網(wǎng)絡(luò))時,對網(wǎng)絡(luò)中缺失邊緣的魯棒性尤為重要。

  在第二個擾動設(shè)置中,我們在網(wǎng)絡(luò)中隨機(jī)選擇的節(jié)點(diǎn)對之間有噪聲的邊。如 Figure 5 b(bottom)所示,與  missing edges  的設(shè)置相比,node2vec  的性能最初下降的速度略快,但Macro-F1評分的下降速度隨著時間的推移逐漸減慢。同樣,node2vec  對  false edges  的魯棒性在一些情況下是有用的,如傳感器網(wǎng)絡(luò),用于構(gòu)建網(wǎng)絡(luò)的測量值是有噪聲的。

4.6 Scalability

  為了測試可伸縮性,我們使用  node2vec  學(xué)習(xí)節(jié)點(diǎn)表示,并使用   Erdo-Renyi Graph 的默認(rèn)參數(shù),Node 數(shù)量從 100 個節(jié)點(diǎn)增加到  1000,000  個節(jié)點(diǎn),平均度設(shè)置為10 不變 。實(shí)驗(yàn)如下:

        

  采樣過程包括計算隨機(jī)游走的  transition probabilities(可忽略的小)和模擬隨機(jī)游走的預(yù)處理。

4.7 Link prediction

  在鏈路預(yù)測中,我們給出了一個去掉一定比例邊的網(wǎng)絡(luò),并且我們想預(yù)測這些缺失的邊。

   We generate the labeled dataset of edges as follows: To obtain positive examples, we remove 50% of edges chosen randomly from the network while ensuring that the residual network obtained after the edge removals is connected, and to generate negative examples, we randomly sample an equal number of node pairs from the network which have no edge connecting them.

  我們所考慮的分?jǐn)?shù)是根據(jù)構(gòu)成這對節(jié)點(diǎn)的節(jié)點(diǎn)的鄰域集來定義的(Table 3)。

        

   實(shí)驗(yàn)結(jié)果:

        

5 總結(jié)

 

 

 

 

『總結(jié)不易,加個關(guān)注唄!』

        

 

 

Datasets

Links to datasets used in the paper:

因上求緣,果上努力~~~~ 作者:希望每天漲粉,轉(zhuǎn)載請注明原文鏈接:https://www.cnblogs.com/BlairGrowing/p/15601261.html

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/125377.html

相關(guān)文章

  • 深度學(xué)習(xí)在推薦領(lǐng)域的應(yīng)用

    摘要:調(diào)研首先要確定微博領(lǐng)域的數(shù)據(jù),關(guān)于微博的數(shù)據(jù)可以這樣分類用戶基礎(chǔ)數(shù)據(jù)年齡性別公司郵箱地點(diǎn)公司等。這意味著深度學(xué)習(xí)在推薦領(lǐng)域應(yīng)用的關(guān)鍵技術(shù)點(diǎn)已被解決。 當(dāng)2012年Facebook在廣告領(lǐng)域開始應(yīng)用定制化受眾(Facebook Custom Audiences)功能后,受眾發(fā)現(xiàn)這個概念真正得到大規(guī)模應(yīng)用,什么叫受眾發(fā)現(xiàn)?如果你的企業(yè)已經(jīng)積累了一定的客戶,無論這些客戶是否關(guān)注你或者是否跟你在Fa...

    tanglijun 評論0 收藏0
  • 從DensNet到CliqueNet,解讀北大在卷積架構(gòu)上的探索

    摘要:首先第一種當(dāng)然是在年提出的,它奠定了整個卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。其中局部感受野表示卷積核只關(guān)注圖像的局部特征,而權(quán)重共享表示一個卷積核在整張圖像上都使用相同的權(quán)值,最后的子采樣即我們常用的池化操作,它可以精煉抽取的特征。 近日,微軟亞洲研究院主辦了一場關(guān)于 CVPR 2018 中國論文分享會,機(jī)器之心在分享會中發(fā)現(xiàn)了一篇非常有意思的論文,它介紹了一種新型卷積網(wǎng)絡(luò)架構(gòu),并且相比于 DenseNet...

    Jackwoo 評論0 收藏0
  • 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)引用量最高的20篇論文(2014-2017)

    摘要:機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的研究進(jìn)展正深刻變革著人類的技術(shù),本文列出了自年以來這兩個領(lǐng)域發(fā)表的最重要被引用次數(shù)最多的篇科學(xué)論文,以饗讀者。注意第篇論文去年才發(fā)表要了解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的進(jìn)展,這些論文一定不能錯過。 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的研究進(jìn)展正深刻變革著人類的技術(shù),本文列出了自 2014 年以來這兩個領(lǐng)域發(fā)表的最重要(被引用次數(shù)最多)的 20 篇科學(xué)論文,以饗讀者。機(jī)器學(xué)習(xí),尤其是其子領(lǐng)域深度學(xué)習(xí)...

    jollywing 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<