KDD 2019论文解读:异构信息网络上的对抗生成学习
前言
網絡表示學習是一種在低維空間中表示網絡數據的方法,在異構信息網絡分析中得到了廣泛的應用?,F有的異構信息網絡表示學習方法雖然在一定程度上實現了性能的提高,但仍然存在一些主要的不足。最重要的是,它們通常采用負抽樣的方法從網絡中隨機選擇節點,而不學習底層的分布以獲得更魯棒的表示。
受生成式對抗網絡 (GAN)的啟發,我們開發了一個用于異構信息網絡表示學習的新框架HeGAN,它在一種極小極大的博弈中同時訓練判別器和生成器。與現有異構信息網絡表示學習方法相比,我們的生成器可以學習節點分布,生成更好的負樣本。與同質網絡上的生成對抗網絡相比,我們設計的判別器和生成器是關系感知的,以便在異構信息網絡上捕獲豐富的語義。此外,為了提高采樣效率,我們提出了一種廣義的生成器,它直接從連續分布中對“潛在”節點進行采樣,而不像現有方法那樣局限于原始網絡中的節點。最后,我們在四個實際數據集進行了大量的實驗。結果表明,在所有數據集和任務中,我們始終如一且顯著地優于當前的表示學習方法。
關于“異構信息網絡”和“對抗生成學習”
網絡結構在現實世界的應用中無處不在,從社會和生物網絡到交通和電信系統。因此,網絡分析對于解決社交網絡的個性化用戶推薦、生物網絡的基因識別困難等關鍵問題顯得越來越重要。這些問題往往表現為對網絡數據進行節點聚類、節點分類和鏈路預測,所以這些問題從根本上依賴于一種有效的網絡表示形式。近年來,網絡表示學習已經成為無監督學習節點表示的一個很有前途的方向,其目的是將網絡節點投射到低維空間中,同時保持原網絡的結構特性。
?
異構信息網絡。雖然早期的網絡表示學習工作已經取得了相當大的成功,但它們只能處理所謂的同質網絡,即網絡中只包含一種類型的節點和邊。然而,在實際場景中,節點自然地由不同類型的實體構成,這些實體通過多種關系相互。這種網絡稱為異構信息網絡,如圖(a)所示。該異構信息網絡由多種類型的節點(如author和paper)組成,節點之間通過各種類型的關系(如write/ writing relationship between author and paper, publish/published relationship between paper and conference)連接。
由于其異構性, 異構信息網絡往往具有極其豐富和復雜的語義。因此,許多研究者開始研究異構信息網絡下的表示學習,最值得關注的工作有metapath2vec和HIN2vec。如圖1(b-1)所示,現有異構信息網絡網絡的表示學習方法從思想上可以歸結為兩個采樣器,分別從網絡中給定的“中心”節點(如paper p2)選擇“上下文”節點作為正例(如author a2)和負例(如陰影圓圈)(注意,每個節點都可以充當中心或上下文,類似于Skip-gram模型)。然后,在這些樣本上訓練一個損失函數來優化節點表示。雖然這些方法取得了一定的性能提升,但它們也存在嚴重的局限性。首先,它們通常使用負抽樣來隨機選擇網絡中現有的節點作為負抽樣。因此,它們的負樣本不僅是任意的,而且局限于原始網絡的宇宙。其次,它們主要關注于在異構信息網絡上捕獲豐富的語義信息,而不注意節點的底層分布,因此對于通常稀疏且有噪聲的真實的網絡缺乏魯棒性。第三,當前的許多異構信息網絡方法依賴于適當的元路徑來匹配所需的語義,這通常需要領域知識,而這些知識有時是主觀的,而且通常很難獲取。
對抗生成學習。生成對抗網絡(GAN)已被開發用于學習各種應用中魯棒的潛在表示。GANs依賴于對抗性學習的思想,判別器和生成器相互競爭,不僅要訓練更好的判別模型,還要學習底層的數據分布。后者使得模型對稀疏或有噪聲數據的魯棒性更強[13,24],也提供了更好的樣本來降低標注要求。鑒于這些優點,基于GAN的網絡表示學習已經有了一些初步的嘗試。然而,這些研究只研究了同質網絡,沒有考慮節點和關系的異構性,導致在語義豐富的異構信息網絡上性能不理想。
HeGAN及其貢獻。為了克服現有工作的局限,我們提出了一個新的框架HeGAN,基于GAN的異構信息網絡表示框架。具體地,我們提出了一種新的判別器和生成器,如圖(b-2)所示。首先,我們的判別器和生成器被設計成關系感知的,以便區分由不同關系連接的節點。也就是說,對于任何關系,判別器都可以分辨出一個節點對是真還是假,而生成器可以生成模仿真節點對的假節點對。特別是,只有節點對是(i)基于網絡拓撲結構的正對且(ii)在正確的關系下形成對時,才認為該節點對是正例對;。其次,我們設計了一個廣義生成器,它能夠直接從連續分布中抽取潛在節點,因此(i)不需要softmax的計算; (ii)假樣本不局限于現有節點??傊?#xff0c;本文做出了以下貢獻。
(1)我們是第一個將對抗性學習應用于異構信息網絡表示的,從而來利用異構信息網絡上的豐富的語義,同時保證學習到的表示的魯棒性。
(2)我們提出了一種新型的HeGAN框架,該框架不僅能夠感知關系以獲取豐富的語義,而且還具有高效的生成負樣本的機制。
(3)我們在四個公共數據集進行一系列下游任務的實驗。結果表明HeGAN具有明顯的優越性。
異構信息網絡上的對抗生成學習
生成對抗的網絡。我們的工作受到GANs的啟發,GANs可以被看作是兩個玩家之間的一個極小極大的博弈,即生成器G和鑒別器D。具體的優化形式如下所示:
?
HeGAN的總體框架。如圖(c)所示,我們的框架主要由兩個相互競爭的模塊組成,即判別器和生成器。給定一個節點,生成器嘗試生成與給定節點相關聯的偽樣本,以提供給判別器,而判別器則嘗試改進其參數來將假樣本與實際連接到給定節點的真實樣本分離。在這個重復的過程中,訓練好的判別器會迫使生產器產生更好的假樣本,而判別器則也會增強其判斷能力。在這樣的迭代過程中,生成器和判別器都得到了正強化。
現有的研究只是利用GAN來區分節點與給定節點在結構連接上是真還是假,而沒有考慮到異構信息網絡的不同語義。例如,給定一篇論文p2,它們將節點a2、a4視為真,節點a1、a3為偽(根據圖(a)所示的網絡的拓撲結構),。但是,a2和a4連接到p2的原因不同: a2寫了p2, a4讀了p2。因此,它們忽略了異構信息網絡所包含的有價值的語義,無法區分a2和a4,因為它們扮演著不同的語義角色。在語義保持的表示學習方面,HeGAN引入了一個關系感知的判別器和生成器,以區分節點之間的各種類型的語義關系。在以上的異構信息網絡上,給定節點p2和一個關系,比如write/ write,我們的判別器能夠分辨出a2和a4,而我們的生成器將嘗試生成更像a2而不是a4的假樣本。
其次,現有的研究在假樣本的生成的有效性和效率上有局限性。他們通常對在原始網絡中的所有節點上使用某種形式的softmax來生成假樣本。在有效性方面,他們的假樣本受限于網絡中已經存在的節點,或許最具代表性的假樣本可能不存在于現有的可觀察到的節點。例如,給定一個節點p2,他們只能選擇來自空間V(V為網絡中所有節點的集合)的樣本,比如a1和a3。然而,兩者可能都不是與實際節點a2充分相似。為了更好的樣本生成, 我們引入一個廣義生成器,可以生成例如a’之類的假樣本,其中,a’可能并不屬于V。我們可以只為a’可能是a1、a3的“平均”,更類似于真正的樣本a2。在計算效率方面,softmax函數的計算開銷較大,必須采用負采樣和圖softmax等近似方法。相反,我們的生成器可以直接從連續的空間中采樣假節點,而無需使用softmax。我們的具體框架如下所示。
?
我們在DBLP、Yelp、Aminer、Movielens四個數據集上進行了實驗,具體在節點聚類、節點分類、鏈路預測和推薦四個任務上驗證了有效性。實驗數據集如下所示。
?
首先,我們依此來看下節點分類、鏈路預測、節點聚類、推薦四個任務下的實驗結果。
其次我們來可視化一下節點表示的空間(Yelp數據集),
?
由圖可知,HeGAN的邊界更清晰,集群更加密集。
我們給出了Yelp上的HeGAN生成器器和判別器的學習曲線,從損失變化和聚類效果兩方面進行分析。在損失的初始波動之后,生成器和判別器開始了他們之間的極小極大的博弈,兩者的損失逐漸減少。經過大約20個epoch的對抗性訓練,兩者的損失趨于收斂,而勝者實現了更好的性能。注意,當訓練了更多的epoch時,由于過度擬合,聚類性能下降。
?
之后,我們在節點聚類和節點分類兩個任務上驗證異構信息和我們提出的廣義的生成器的有效性,我們可以得出如下結論:(1) 在異構信息網絡中,不同類型的節點和關系應加以區分。(2) 我們的廣義生成器確實可以產生更有代表性的樣本。
?
最后,我們來看一下HeGAN的效率。
?
從圖中我們可以看到HeGAN的訓練時間和節點數成線性關系,時間性能大大優于基于softmax的GraphGAN。
結語
本文涉及的技術主要為異構信息網絡和對抗生成學習。實際中所涉及的網絡往往不會只包含單一類型的節點或者關系,網絡由越來越多的復雜關系構成是大勢所趨。所以如何更好利用和表示這種復雜的網絡來產生更多的價值一直研究的重點。其次,現有的網絡往往存在很多噪聲,或者抗噪能力薄弱,這激勵著我們學習更加魯棒性的網絡表示。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的KDD 2019论文解读:异构信息网络上的对抗生成学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DLedger —基于 raft 协议的
- 下一篇: 如何回答性能优化的问题,才能打动阿里面试