WWW 2020 开源论文 | 异构图Transformer
論文標題:Heterogeneous Graph Transformer
論文來源:WWW 2020
論文鏈接:https://arxiv.org/pdf/2003.01332.pdf
代碼鏈接:https://github.com/acbull/pyHGT
簡介
近年來,圖神經網絡(GNNs)在圖數據分析領域取得了巨大的成功。然而,大多數的 GNN 都是針對同構圖設計的。在同構圖中,所有的節點和邊都屬于同一種類型。
然而實際生活中,我們可能會處理更復雜的圖數據,其節點與邊會有不同的類別,學術界稱這類圖數據為異構圖。
比如學術網絡、知識圖譜,乃至物聯網等。例如,下圖中的開放學術網絡包含五種類型的節點:論文、作者、機構、會議和領域,以及它們之間不同類型的關系。
在這篇論文中,我們提出了一種處理異構圖的 GNN 模型,Heterogeneous Graph Transformer (HGT)。該模型可以對億數量級節點的異構動態圖進行建模。
模型
為了處理圖的異構性,我們將每條邊的模型參數分解為三個矩陣相乘。其分解根據每條邊的三元組 <初始節點類型,邊類型,目標節點類型>來定義。具體來說,我們使用這些三元組來對權重矩陣參數化,以計算每條邊上的注意力以及信息傳遞。
因此,HGT不需要手動設計元路徑 (meta path) ,也可以自動、隱式地學習和提取對不同下游任務重要的元路徑。在此分解基礎上,整體的計算仿照Transformer,因此相較于傳統圖模型有更強的表征能力。
為了處理圖數據的動態特性,我們引入了相對時間編碼(Relative Temporal Encoding)。相較于傳統做法,即根據不同的時間戳把初始圖分割成若干個圖,我們采用將發生在不同時間的邊全部放在一個圖里。
我們計算兩兩節點相互之間的時間差,并對每一個時間差以一個編碼,加在初始節點表征上。這樣,在學習過程中,HGT 可以學習出圖中的時間依賴關系,同時發生在不同時間的節點間也可以進行信息傳遞。
為了處理網絡規模的圖形數據,我們設計了針對異構圖的采樣算法? HGSampling。它的主要思想是樣本異構子圖中不同類型的節點以相同的比例,并利用重要性采樣降低采樣中的信息損失。
通過 HGSampling,所有的 GNN 模型,包括我們提出的 HGT,都可以在任意大小的異構圖上進行訓練和推理。
?
?
實驗
我們在開放學術圖譜(OAG)上進行試驗。該數據集包含 1.79 億個節點和 20 億個邊組成,時間跨度從 1900 年到 2019 年。實驗結果表明,與傳統的 GNNs 和異構圖模型相比,在下游任務中 HGT 可以顯著提高 9-21%。
?
?
同時,利用我們提出的相對時間編碼(RTE),我們可以動態地計算出任意一個年份的節點標準。例如,我們可以觀測出每個會議在不同時間其相似會議的變化。如下圖所示,WWW 在 2020 年與一些網絡、數據庫的會議更接近,而在 2020 年卻與一些數據挖掘的會議更接近。
同時,我們還驗證了 HGT 可以隱性地抽取出對下游任務重要的元路徑,而不需要人為定義。例如下圖中的 <paper, is_published_at, venue, is_published_at-1, paper> 路徑就有著最高的重要性。
點擊以下標題查看更多往期內容:?
圖神經網絡時代的深度聚類
圖自編碼器的起源和應用
圖神經網絡三劍客:GCN、GAT與GraphSAGE
針對圖嵌入模型的受限黑盒對抗攻擊框架
AAAI 2020 開源論文 | 多成分圖卷積協同過濾
ICLR 2020?| 多關系圖神經網絡CompGCN
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的WWW 2020 开源论文 | 异构图Transformer的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpaceX新一轮融资20亿美元
- 下一篇: c轮后多久上市