KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练
論文標題:GPT-GNN: Generative Pre-Training of Graph Neural Networks
論文鏈接:https://arxiv.org/abs/2006.15437
代碼鏈接:https://github.com/acbull/GPT-GNN
PPT:? https://acbull.github.io/pdf/gpt.pptx
?
簡介
?
本文研究如何利用圖生成作為自監督任務來預訓練 GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN 可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。
?
背景:預訓練
機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。?
例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。
為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervised pre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。
在 NLP 領域,BERT 及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的 Transformer 模型,以捕捉語言的底層知識,如語法、句法、詞義等。
同樣,在 CV 領域,最近的工作如 SimCLR 也顯示出通過對比學習(Contrastive Learning)對 ResNet 進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。
受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期 GNN 能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。
GPT-GNN模型
?
要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?
本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。
由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。
?
在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,
在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。
?
我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。
?
為了并行高效地計算每個節點的 loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。
?
實驗
?
我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。
第一個異構圖是 Microsoft Academic Graph(OAG),其中包含超過 2 億個節點和 23 億條邊。另一個是 Amazon Recommendation 數據集。
總體而言,我們提出的 GPT-GNN 在不同的實驗設定下顯著提高下游任務的性能,平均能達到 9.1% 的性能提升,且優于其他圖預訓練的方法。
?
我們還評估了在不同百分比的標記數據下,GPT-GNN 是否依然能取得提升。我們可以看到,使用 GPT 預訓練時,僅使用 20% 標簽數據的模型性能就會比使用 100% 數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的KDD 2020 开源论文 | GPT-GNN:图神经网络的生成式预训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 双 28mm 扇,利民推出 Royal
- 下一篇: 我国首条自主超导量子计算机制造链启动升级