NeurIPS 2021 | 图上不均衡表示学习新视野:基于拓扑结构的不均衡学习
論文標題:
Topology-Imbalance Learning for Semi-Supervised Node Classification
論文鏈接:
https://arxiv.org/abs/2110.04099
代碼鏈接:
https://github.com/victorchen96/renode
稿件作者:
陳德里
論文作者:
陳德里,林衍凱,趙光香,任宣丞,李鵬,周杰,孫栩
論文機構:
微信AI & 北京大學
聯系作者:
delichen@tencent.com
研究動機
類別不均衡(Class Imbalance)是真實場景中非常常見的問題,受到了學界和業界非常多的關注。一般在我們提及類別不均衡時,默認指的是數量不均衡:即不同類中訓練樣本數量的不一致帶來的模型于不同類別學習能力的差異,由此引起的一個嚴重問題是模型的決策邊界會主要由數量多的類來決定 [1]。?
但是在圖結構中,不同類別的訓練樣本不僅有在數量上的差異,也有在位置結構上的差異。這就使得圖上的類別不均衡問題有了一個獨特的來源:拓撲不均衡。而目前學界缺乏對于拓撲不均衡相關問題的研究。這個工作最主要的動機就是研究拓撲不均衡的特點,危害以及解決方法,希望能夠引起社區對拓撲不均衡問題的重視。
▲?圖1?拓撲不均衡問題與ReNode方法
研究拓撲不均衡有哪些特點?為什么要研究它?
1. 拓撲不均衡廣泛存在于節點分類中?
抽象于真實問題的圖結構往往有著復雜的節點間連邊關系,而不同類之間的拓撲結構往往是不對稱的;而具體到節點分類任務中,標注(訓練)節點在圖上的分布也是不均勻的;這不對稱且不均衡的特點使得不同類別的拓撲結構對于訓練的影響是天然不同的,也使得拓撲不均衡問題天然存在于節點分類任務中。
2. 干拓撲不均衡擾圖分類模型訓練?
Message-Passing 是學習節點分類任務的最為重要而常見的方法,即標注節點沿著圖中邊將信息傳遞給無標注節點來進性節點表示學習。而 拓撲結構的不均勻就會導致信息傳遞中存在信息沖突(靠近類邊界的節點)以及信息不足(遠離信息源的節點)的問題,從而影響圖模型訓練(如圖 1 左側所示)。?
3. 缺少相關研究的解決方法?
拓撲不均衡是圖結構中所特有的不均衡問題,而目前關于不均衡問題的研究集中在數量不均衡領域 [2][3][4]。因此學如何深入認識拓撲不均衡問題以及設計相應的解決方法是亟待研究的課題。
拓撲不均衡與數量不均衡與哪些區別?
▲?圖2?圖上不均衡問題的兩個場景
拓撲不均衡問題獨立于數量不均衡問題而存在:即使在數量均衡的設定中,非對稱的拓撲結構也會造成模型學習的類別不均衡。也因為如此,數量不均衡的方法很難被遷移應用于解決拓撲不均衡的問題。
數量不均衡中,決策邊界會主要由數量多的類別來決定;而在拓撲不均衡中,決策邊界則主要由靠近圖中類別邊界的節點來決定。因此,數量不均衡的解決方法往往將同一個類的標注節點同等對待,并基于類別整體標注數量設計方法(例如 re-sampling 以及 re-weighting)。而拓撲不均衡問題中,我們更加關注每個標注節點在拓撲結構中獨特的位置以及對模型訓練產生的作用。
在圖 2 中我們展示了圖中兩種不同的不均衡問題:1)左圖是在隨機采樣的情況下,圖中同時存在數量不均衡和拓撲不均衡的問題,模型的決策邊界(黃線)向少數類偏移;2)右圖是在類別數量均勻采樣的情況下,圖中依然存在拓撲不均衡的問題,此時模型的決策邊界向多數類偏移。
怎么量化拓撲不均衡問題?
和數量不均衡問題存在類別標注數量這個直接的量化指標不同,雖然我們能確實感受到類別在其拓撲結構上的差異,但是如何對這一概念進行抽象和量化卻是挺棘手的問題。
在這個工作中,我們分析指出拓撲不均衡的主要現象是靠近邊界的類別節點引起的決策邊界偏移,因此我們首先將拓撲不均衡問題抽象為標注節點到類邊界的距離差異。之后我們設計了基于節點影響力沖突檢測的拓撲不均衡量化指標 Totoro。其主要思想在于:如果標注節點 v 在其本身有著比較大影響力的子圖上遇到了比較強的影響力沖突,我們認為節點 v 是更加靠近類別邊界的節點。
▲ 圖3 Totoro指標對Node-Level和Graph-Level的拓撲不均衡問題體現
在圖 3(左)中,我們展示了 t-SNE 降維的圖節點在二維上的分布(不同顏色代表不同的類別,五角星的顏色深淺代表其 Totoro 值的大小),可以看出越是遠離邊界的標注節點 Totoro 值越小,而越是靠近邊界的標注節點的 Totoro 值越大。
在圖 3(右)中,我們展示了標注集合整體的拓撲沖突水平和模型表現的關系,可以看出兩者存在顯著的相關關系。這說明了 Totoro 指標能有效的反映圖上的拓撲不均衡程度。
怎么來解決拓撲不均衡問題?
在設計拓撲不均衡方法之前,我們首先在思考拓撲不均衡的解決方法應該滿足什么要求?考慮到拓撲不均衡問題的普遍性,以及現有的 GNN 模型缺乏對其的特殊設計和考慮,解決方案應該盡可能的兼容眾多已有的 GNN 結構。同時針對于拓撲不均衡的方法應該盡可能和已有的數量不均衡方法兼容,從而更加全面完整的解決圖上不均衡問題。此外,所設計的方法給模型訓練帶來的額外開銷應該盡可能小,并能夠適用于幾百萬節點的超大規模圖結構。
基于這些考慮,我們提出了用于解決拓撲不均衡問題的 ReNode 框架(如圖 1 所示)。整個框架包括兩個步驟:?
1. 標注節點的拓撲定位:計算節點到類邊界的遠近(Totoro 指標);?
2. 標注節點訓練權重 Re-Weight:減少靠近類邊界節點的訓練權重,增加靠近類中心節點的訓練權重。
ReNode 是基于每個標注節點到其類邊界的距離的遠近進行 instance-level 的重新加權。通過 ReNode 方法,靠近類別邊界位置的、容易引起決策邊界偏移的訓練節點的權重被減少,而靠近類別中心位置的訓練節點權重增大。這就使得節點的影響力邊界和真實的類別邊界更加重合,減少了因為拓撲結構不均衡引起的決策邊界偏移問題。
我們的方法效果如何?
對應于上一節中我們關于拓撲不均衡的解決方法應該滿足什么要求的思考,我們在三個不同的場景中驗證了 ReNode 方法的有效性:
1.?拓撲不均衡,數量均衡
▲?表1 拓撲不均衡-數量均衡設定下實驗結果
這里選用了 GCN, GAT, PPNP, GRAPHSAGE, Cheb GCN, SGC 等六個常用的圖神經網絡作為 backbone 模型,對比了是否使用 ReNode 方法情況下模型訓練效果;在 CORA 等 5 個 benchmark 數據集上,ReNode 方法能夠有效地緩解拓撲不均衡問題并提升模型的訓練效果。
2. 拓撲不均衡,數量不均衡
▲?表2 拓撲不均衡,數量不均衡下的實驗結果
這個實驗設定標注結合同時為拓撲不均衡和數量不均衡(imbalance ratio=5/10)。實驗結果表明,我們的方法能夠很好地和數量不均衡的方法結合(Re-weight, Focal Loss, Class-Balanced Loss),從而更加全面地解決圖上拓撲不均衡的問題。
3. 超大圖場景
▲?圖4 超大圖上的實驗結果
在兩個大規模的圖數據中展開實驗:社交網絡 Reddit 以及引用網絡 MAG-Scholar(千萬節點),這里我們同樣設定了只有拓撲不均衡的場景,已經拓撲不均衡和數量不均衡的綜合場景。結果驗證了我們的方法對于超大圖上的拓撲不均衡問題的解決能力。
關于拓撲不均衡有哪些亟待研究的問題?
在做這個工作的過程中,我越發認識到了拓撲不均衡給圖結構相關任務帶來的威脅以及問題本身的復雜性,還有許許多多工作要做來更進一步地認識和解決這一問題。?
這里我整理了一些未來可以考慮做的問題和方向,可能有不成熟之處,就當拋磚引玉,希望大家能有更好的想法。?
1. 設計更有效的解決節點分類中拓撲不均衡的方法?
ReNode 方法在標注比例低和圖連通性差的場景中效果不明顯,克服這些問題能夠更好地解決拓撲不均衡這一問題。?
2. 考慮特殊領域中拓撲不均衡問題的特點和解法?
在分子醫藥,交通運輸等特殊應用場景中考慮拓撲不均衡問題有哪些不同的特點,并設計相應的解決方法。?
3. 在更一般的前提下考慮拓撲不均衡問題?
這篇工作的部分結論只在同質連邊的圖中成立,未來工作可以考慮更一般的場景:例如從同質連邊到異質連邊,從同構圖到異構圖等等。?
4. 研究其他圖結構相關任務中的拓撲不均衡問題?
雖然這篇工作基于圖節點分類展開,但是拓撲結構不平衡問題廣泛存在于圖相關的任務中并值得關注。例如和節點分類緊密相關的鏈接預測任務,拓撲不均衡直接影響著節點表示學習的質量從而影響鏈接預測的準確性,因此也可以從解決拓撲不均衡出發也是提升連接預測任務的效果。
再如主動學習(active learning),我們的 ReNode 方法是在給定了標注節點后去在學習中緩解拓撲不均衡帶來的影響。而換個思路,從主動學習的角度出發,我們是否能夠在標注節點學習階段通過主動學習的方法來獲取一個拓撲相對均衡的標注數據集呢??
總結來看,關于拓撲不均衡還有很多有趣的可以研究的方向,歡迎大家就相關研究問題進行討論!
路漫漫而修遠兮,與諸君共勉~
參考文獻
[1]?Rethinking the Value of Labels for Improving Class-Imbalanced Learning?
[2] RA-GCN: Graph Convolutional Network for Disease Prediction Problems with Imbalanced Data?
[3] Multi-Class Imbalanced Graph Convolutional Network Learning?
[4] GraphSMOTE: Imbalanced Node Classifi- cation on Graphs with Graph Neural Networks
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的NeurIPS 2021 | 图上不均衡表示学习新视野:基于拓扑结构的不均衡学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 52023年燃油车下半年购置税还会减半吗
- 下一篇: 09年狮跑怎么调节仪表台亮度?