ICLR最高分论文揭秘模型泛化,GNN是潜力股
文 | Jerry Qiu
編 | 小軼
我們都知道,人類在很多任務上都可以很好地完成“外推”,例如:
啊不——我是說——例如,我們學會兩位數的加減乘除后,就可以輕松將其推廣至任意大整數的四則運算:
從數學的角度來講,外推其實是與內插并列的一個概念。想必大家對多項式插值、樣條插值等插值方法不陌生。通過已知的、離散的數據點,在范圍內推求新數據點,即稱為內插(Interpolation)。而如果我們在已知數據在范圍外推求新數據點,則是外推(Extrapolate)。
在通用人工智能被廣泛討論的今天,我們不禁發問,神經網絡能像人類一樣完成外推嗎?即神經網絡在訓練分布的支撐集[1]之外,會如何表現?前輩們對于這一問題已經進行了一定的探究。然而令人困惑的是,他們對神經網絡的外推給出了截然不同的結論。
早期的工作表明,多層感知機(Multi-layer Perceptron,MLP)在學習簡單的多項式函數時不能很好地外推[2,3]。然而近期的?些工作則表明,在部分具有挑戰性的算法任務上(例如求解數學方程、預測物理系統的時間演化),圖神經網絡(Graph Neural Network,GNN)具有很好的泛化能力,能夠將訓練結果推廣至比訓練集更大的圖上[4,5,6]。
多層感知機與圖神經網絡截然相反的表現引人深思:什么樣的網絡,在什么樣的條件下才會具有較強的外推能力呢?
今天給大家分享的這篇論文便研究了這一問題。該文在ICLR'21的review階段獲得了最高的平均得分。審稿人們紛紛贊其見解之深刻,在神經網絡外推能力的分析上邁出了重要的一步。
論文題目:
How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks
論文鏈接:
https://arxiv.org/pdf/2009.11848.pdf
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【1231】 下載論文PDF~
論文概述
為了解釋為何不同神經網絡的外推能力不盡相同,論文作者詳細探究了使用梯度下降訓練的神經網絡是如何外推的。直覺上來說,神經網絡在訓練分布之外的表現是任意的、不可預料的[7],但事實上,如果網絡用梯度下降算法進行訓練,則它的外推能力是有規律可循的。
在我們評價神經網絡的外推能力前,我們需要先確定一個指標來衡量它。為此,論文作者定義了外推誤差這一概念。一個模型的外推誤差越小,則其外推能力越強。作者基于此討論了MLP和GNN的具備外推能力的條件。
外推誤差
在機器學習中,我們通常都希望在訓練集上學習一個函數,訓練目標是使滿足。注意,這里是訓練分布的支撐集,且只是的一個子集。
然而由于種種因素的限制,神經網絡一般難以學到完美符合要求的函數,而只能得出一個與存在差距的函數,從而我們定義外推誤差如下:
不難看出,外推誤差就是函數在訓練分布支撐集之外的誤差上界。
MLP
多層感知機是結構最簡單的神經網絡,也是眾多復雜網絡架構(例如GNN)的組成部分。
收斂至線性
作者發現,使用ReLU激活函數、過參數化的MLP在訓練分布外,總是沿著從原點出發的各個方向都收斂為線性函數,如下圖所示。
圖中灰色部分是MLP需要學習的非線性函數,藍色部分是MLP在訓練分布內學得的結果,黑色部分是MLP在訓練分布外的表現。
作者也從理論上給出了雙層ReLU MLP收斂速率的證明,發現這種收斂常常出現在靠近訓練數據的位置,這表明ReLU MLPs在大多數非線性任務上的外推能力都較弱。
MLPs外推誤差小的條件
同時作者也發現,當目標函數為線性函數時,MLPs的外推表現較好。然而MLPs能否成功地進行外推,還取決于訓練數據的幾何形狀。如果訓練分布的支撐集包括了各個方向(例如包含原點的超立方體),則MLPs的外推誤差較小。這一條件聽起來可能無法理解,不妨一睹作者給出的數學定義:
Suppose the target function is for some . Suppose the training data is sampled from a distribution whose support contains subset , where for any non-zero , there exists so that .
即MLPs 外推誤差小的條件是:訓練數據是從支撐集中采樣得到的,它包含一個子集,滿足:對于任意的維向量,存在正數使得屬于,我們不難發現,顯然這個需要包含原點。
作者給出了MLP學習線性目標函數的示例(灰色部分是MLP需要學習的線性函數,藍色部分是訓練分布,黑色部分是MLP在訓練分布外的表現):
由于圖上已經說得比較清楚,筆者嘗試換個角度給出說明:假定數據分布定義在一個矩形區域內(藍色部分),左一的原點在矩形區域內,此時訓練數據自然是包含從原點出發的各個方向的,可以看出這時MLP外推效果較好;左二的原點在矩形的邊上,那么從原點出發的紅色箭頭的反方向就沒有訓練數據,MLP外推開始出現了一些偏差;右二的原點在矩形的角上,MLP外推的偏差也較大;右一中,數據分布定義在一條經過原點的線上,使得訓練分布之外的部分有明顯的外推誤差。
GNN
圖神經網絡在多項非線性算法任務上表現出不錯的外推能力,例如圖算法、符號數學等。作者基于前文關于MLP的結論,繼續探究GNN的外推效果。
作者猜想,如果編碼適當的非線性至GNN的架構和輸入表示中,讓MLP組件僅學習線性函數,那么GNN就能在動態規劃任務中順利外推,獲得較小的外推誤差。
編碼非線性至架構
以最短路問題為例,著名的的Bellman-Ford算法中的更新式如下:
而使用最小值聚合(min-aggregation)的GNN架構的節點表示如下:
不難發現以上兩式十分相似。因此, 如果我們讓GNN中的MLP模塊學習線性函數,則GNN就可以模擬Bellman-Ford算法。由于我們已知MLP在線性任務上外推能力較強,因此使用最小值聚合的GNN也可以在這個最短路問題上具備較強的外推能力。
編碼非線性至輸入表示
對于某些任務,改變輸入表示,會更容易達到好的外推能力。在這種情況下,我們可以將目標函數分解成嵌入(Embedding)和一個模型外推效果較好的目標函數,使得,就可以有助于外推。
作者在動態規劃中的多體問題上驗證了這一觀點(多體問題:預測多個物體在引力作用下隨時間的演化情況)。作者對輸入表示進行了轉換,使得MLP只需學習線性函數。與轉換前MLP需要學習非線性函數相比,平均絕對百分比誤差(Mean Average Percentage Error)大大下降。
總結
本論文是麻省理工CSAIL實驗室研究生Keyulu Xu繼ICLR 2020論文 What can Neural Networks Reason About? 之后的又一力作。論文兼具嚴謹的理論推導及有力的實驗驗證,甚至有一位審稿人直言40頁的附錄太長沒看。
作為一篇數理性較強的研究,它的行文也做到了較高的流暢性和易讀性。適逢GNN大紅大紫之時,作者高屋建瓴,對GNN的外推能力提出了新的觀點,對社區做出了可觀的貢獻,確實令人欽佩。
最后,愿大家都能在學術領域中勇闖無人之境!
Boldly go where no one has gone before. ——《Star Trek》
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]Support (mathematics): https://en.wikipedia.org/wiki/Support_(mathematics)
[2]Barnard E, Wessels L F A. Extrapolation and interpolation in neural network classifiers[J]. IEEE Control Systems Magazine, 1992, 12(5): 50-53.
[3]Haley P J, Soloway D. Extrapolation limitations of multilayer feedforward neural networks[C]// IJCNN International Joint Conference on Neural Networks. IEEE, 1992, 4: 25-30.
[4]Battaglia P, Pascanu R, Lai M, et al. Interaction networks for learning about objects, relations and physics[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 4509-4517.
[5]Veli?kovi? P, Ying R, Padovano M, et al. Neural Execution of Graph Algorithms[C]//International Conference on Learning Representations. 2019.
[6] Lample G, Charton F. Deep Learning For Symbolic Mathematics[C]//International Conference on Learning Representations. 2019.
[7]Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization[J]. arXiv preprint arXiv:1611.03530, 2016.
總結
以上是生活随笔為你收集整理的ICLR最高分论文揭秘模型泛化,GNN是潜力股的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌、CMU发文:别压榨单模型了!集成+
- 下一篇: ACL2020 | 线上搜索结果大幅提升