干货| 美国康奈尔大学博士生——王彦邦
點擊藍字
關注我們
AI TIME歡迎每一位AI愛好者的加入!
在現實世界中,許多動態系統都可以抽象為時序網絡,這些網絡通常按照某些規律發展,比如在社會網絡中普遍存在的Triadic closure。時序網絡通過歸納表征學習可以捕捉到這樣的規律,并進一步將其應用于遵循相同規律但在訓練階段未曾見過的系統。這一領域的先前工作依賴于網絡節點的身份或豐富的邊緣屬性,但通常這些規律很難被提取到。在《Inductive Representation Learning in Temporal Networks via Causal Anonymous Walks》一文中,作者提出采用Causal Anonymous Walks(CAWs)代表一個時間網絡。
CAWs由temporal random walks提取,作為temporal network motifs的自動檢索來表示網絡動態,同時避免了對motifs進行耗時的選擇和計數。CAWs采用了一種新的匿名化策略,用基于一組抽樣行走的節點的命中率計數代替節點身份,以保持方法的歸納性,并同時建立了motifs之間的關聯性。作者進一步提出了一個神經網絡模型CAW-N來編碼CAWs,并將其與具有恒定內存和時間成本的CAW采樣策略配對,以支持在線訓練和推理。
作者通過預測6個真實時序網絡中的鏈接對CAW-N進行了評估,結果表明,預測結果在不同的模式下以平均10%的AUC增益優于以前的SOTA方法。另外,在2/3的網絡中,CAW-N模型所得到的結果也優于以前的方法。
本期AI TIME PhD直播間,我們有幸邀請到了該論文的作者,現就讀于康奈爾大學的博士生王彥邦,為大家分享這項有趣的研究工作!
# 嘉賓介紹 #
王彥邦:
斯坦福大學計算機科學碩士,康奈爾大學計算機科學博士生。研究興趣:圖的機器學習、數據挖掘、計算社會科學和大數據分析。目前在Stanford Social Network Analysis Group工作,由Jure Leskovec和Pan Li教授指導。曾在NeurIPS、ICLR、WWW、TVCG、LAK等國際頂級會議和期刊上發表多篇論文。
#1
什么是時序網絡?
時序網絡,與普通網絡相比,它包含了更多與時間有關的信息。如下圖1所示,節點a和b的邊只出現于時間戳0,3和8的時候,節點a和c的邊只出現于時間戳1的時候。值得注意的是,對于時序網絡的觀察是隨著時間的推移而不斷變化的。比如,在時間為0的時候,我們僅能觀察到節點a和節點b和他們之間的邊,節點g和節點h也一樣。
?圖1. 時序網絡示意圖
1.1|時序網絡的動態演變
時序網絡變化的法則被稱為“Laws”。經典Laws包括Triadic closure和Feed-forward control等。如下圖2所示,如果在T1時刻,u和w之間有一條邊,在T2時刻,在w和v之間有一條邊,那么在某一未來時刻T3,u和v之間很有可能會形成一條邊。通過社交網絡來解釋:如果A和B兩個人都有共同的朋友,那么很可能在未來某一個時刻,A和B也會成為朋友。
隨著節點的數量越來越多,Laws也會越來越復雜,而人類也越來越難以去總結,那么,如何準確的捕獲時序網絡中的Laws是當前十分有挑戰性的問題。
圖2. 常見的Laws示意圖
1.2|存在的問題
圖3.兩節點相連規則示意圖
(1) 先前的研究采用靜態圖GNN處理時序上的信息,然后簡單的生成GNN模型。但GNN學習complex laws是存在一定問題的,例如,我們只能寄希望于GNN隱性的學習到Triadic closure Law,但很多工作指出其學習效果并不好。
(2) 并沒有真實的捕捉到network evolution的法則,只是嘗試記憶已有的結構。例如,如圖3,已知時刻0到時刻9的所有邊,那么當t=10時,u和v之間是否有邊相連接?一些先前的工作認為可以通過觀察在t<10時,u和v之間是否存在邊相連接,如果有,那么大概率認為t=10的時候,u和v之間存在邊相連,反之亦然。
(3) 之前的一些工作通常非常依賴于鏈接或者節點屬性。如果鏈接或者節點屬性不能夠很好的提供有效信息或者幫助區分節點屬性,那么這些之前的工作帶來的結果都會存在一定的問題。
#2
Causal?Anonymous?Walks?(CAWs)
Step1:Causality Extraction
在步驟1中主要完成抽取temporal random walk的工作,接下來,舉例說明這個過程。
如圖4(左)所示,假設我們依然想完成上述問題,即判斷在t=10時,u和v之間是否有邊相連。我們在圖中只能觀察到時間從0-9的信息。對此我們需要做的是,分別從節點u和節點v出發,對兩節點周邊的圖結構進行采樣,各對他們采M條random walk。比如從u出發,按圖中紅色箭頭所示的方向逐個采樣,分別經過t=6,t=3,和t=1走到節點c。由此獲得了一條從u出發到c單調遞減的時間戳,反之是從c到u單調遞增的時間戳 (如圖4右邊Su所代表的random walk所示)。那么,規定時間單調性的原因是我們希望采樣到的是隨時間單調遞增或遞減的事件鏈,其本身是有因果關系存在的,如果不加此限制,那么時間戳將會十分混亂,無法體現其dynamic的特性。同理,對節點v使用同樣的采樣方法。所以,現在一共有2M條random work。
步驟一也稱為對temporal network motif的自動化采樣。在之前的工作中已經驗證了temporal network motif是可以有效的表征網絡中的法則,但它同時也存在一些問題,當motif所涉及的數量比較多,或者節點度比較高的情況下,temporal network motif是非常容易導致組合爆炸的。而步驟一的自動化采樣可以有效地避免這一點。
圖4. Causality Extraction示意圖
Step2:Set-based Anonymization
如何把步驟1中采樣到的所有的節點重新標記為一個新的身份?如何用新的身份替代原來的節點字母?接下來,我們繼續舉例說明這個過程。
如圖5所示,Su中采樣了3條M,我們記錄節點b關于u的位置的四個坐標,其中坐標表示節點b在三個random work中不同位置出現的次數,圖中對勾處展現的是節點b的位置,(0,2,1,0)T即為b的新身份。同理可以標記b關于v的位置。
由此可以設想,如果b到u的坐標與b到v的坐標很相近,那么b到u的距離與其到v的距離在局部上是非常相似的;反之,如果b關于v的位置從來沒出現過,那么b與v是沒有任何聯系的。同時,我們也可以認為這些坐標向量建立了采樣temporal network motif之間的聯系。
圖5. 新身份的產生過程示意圖
#3
嵌入編碼
作者給出了兩種編碼方式:基于平均化編碼和基于自注意力機制的編碼。
#4
實驗研究
首先對時間序列進行split,用前85%的時間用作訓練集,后15%的時間用作測試集。另外還會分為Inductive和Transductive兩種實驗模式。在Inductive模式中,我們隨機抽取90%的nodes的叫做Old nodes,剩余10%叫做New nodes。與此同時,在Inductive模式下,我們只在90%的Old nodes之間進行訓練,而New nodes之間的edges,以及一個New nodes和一個Old nodes之間的edges進行測試。而在Transductive模式下,劃分只是基于時間進行劃分。相比之下,Inductive模式下的測試將更加困難。圖6展示了整個實驗過程的示意圖。
圖6. 實驗過程示意圖
4.1|實驗結果
圖7展示了不同方法在不同模式下的AUC性能的對比。從圖7可以看出,我們所提出的方法在New nodes和New nodes模式下, AUC性能提高了14.46%;在New nodes和Old nodes模式下,AUC性能提高了3.49%;在Transductive模式下,AUC性能提高了2.48%。出現上述結果的一個重要原因是因為之前提出的方法多數沒有真正學習到network dynamic的法則,而且非常依賴于豐富的鏈接和節點屬性。而我們的方法在任何一種設置下,結果都是非常穩定的。這是因為我們的方案在學習的過程中并不需要記憶各個節點在整個網絡中的身份是什么,而只需要知道節點局部的圖結構是怎樣的。
圖7. AUC性能的對比
#5
展望
研究了關于CAWs采樣方面的Hyperparameter的設置。在整個方案中,采樣方法是最關鍵的,它決定了后續分析過程的所有信息。對于每個節點的采樣數M和對于歷史時間的偏好α,α越大,它對較遠的歷史較為偏好,α越小,說明其對臨近的歷史較為偏好。通過觀察下圖可以得出兩個結論:從圖(a)中可以發現,CAW采樣的數量是非常小的,在采樣4-8條時,AUC的性能已經達到了較為穩定的狀態;從圖(b)中可以發現,時間偏好是存在最優范圍的。如果從遙遠的歷史時間進行采樣,所得到的結果并非最好,因為此時并沒有獲得最有時效的信息,反之,對于較近的歷史較為偏好,則會因為只采樣到了非常局部的歷史信息而忽略了更加全局的動態,這樣得到的效果也不是最好,所以只有采樣在中間位置才會得到更有效地的動態信息。所以這也是值得進一步探究的問題。
圖8. Hyperparameter?Investigation
# 今日視頻推薦 #
整理:張麗
審核:王彥邦
AI TIME歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術。針對熱門話題,我們將邀請專家一起論道。同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你!
請將簡歷等信息發至yun.he@aminer.cn!
微信聯系:AITIME_HY
AI TIME是清華大學計算機系一群關注人工智能發展,并有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地。
更多資訊請掃碼關注
我知道你??在看??哦
點擊?閱讀原文?查看精彩回放!
總結
以上是生活随笔為你收集整理的干货| 美国康奈尔大学博士生——王彦邦的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 交换分区吗_MySQL分区表
- 下一篇: 友情与感情