F-Principle:初探深度学习在计算数学的应用
作者丨許志欽、張耀宇
學校丨紐約大學阿布扎比分校博士后、紐約大學庫朗研究所訪問學者
研究方向丨計算神經科學、深度學習理論
在上一篇文章F-Principle:初探理解深度學習不能做什么中,我們介紹了如何用一個統一的框架來初步理解深度學習的優勢與局限。在這篇文章中,我們將探索如何利用我們對深度學習已有的理解來設計算法。我們期待這些初步的探索能對解決真實問題起到引導作用。?
首先,我們回顧一下這個框架。我們的發現可以用一句話概括:深度學習傾向于優先使用低頻來擬合目標函數。我們將這個機制稱為 F-Principle(頻率原則)。
我們先用一個簡單的例子來理解 F-Principle。用一個深度神經網絡(DNN)去擬合如下的紅色實線函數。訓練完后,該曲線能被深度網絡(藍色點)很好地擬合。
我們感興趣的是 DNN 的訓練過程。如下圖動畫所示,紅色為目標函數的 FT(傅里葉變換),藍色為網絡輸出的 FT,每一幀表示一個訓練步,橫坐標是頻率,縱坐標是振幅。
我們發現,在訓練過程中,DNN 表示的函數的演化在頻域空間有一個清晰的規律,即頻率從低到高依次收斂。
部分讀者覺得 F-Principle 非常直觀,甚至非常顯然(trivial)。部分原因可能是因為 F-Principle 并不是一個陌生的概念,而是我們日常生活中經常都在用的一個原則。想象一下,如果讓一個人去記住一個沒見過的東西,一般比較粗糙的輪廓信息會先被記住,然后再是很多細節。
沒錯,DNN 也正是使用了這樣的一個學習過程。舉一個例子,我們來訓練一個 DNN 來記住一張圖片。DNN 的輸入是一個位置坐標 (x,y),我們希望它輸出這個位置對應的灰度值。
下圖的一系列圖展示了不同訓練步數,DNN 學習到的圖像,正如我們前面所猜測的從粗糙的輪廓到細節的學習過程。
然而!更多的人非常驚訝于 DNN 有這樣簡單的規則。特別地,在計算數學中,很多迭代格式都是先收斂高頻,例如 Jacobi 方法和 Gauss–Seidel 方法。由于低頻往往是比較重要的,因此高頻優先的原則造成了很多苦惱。于是許多研究者手動設計很多算法來提升收斂低頻的速度,比如多重網格法。
對于大部分 DNN,它并不需要任何顯示的條件或者手動設計,它自然有低頻優先的原則。舉個例子,考慮如下 Poisson 方程:
其中,。它的真實解如下圖曲線所示:
▲?黑色為Poisson方程的真解,插圖里紅色為真解的傅里葉變換
真解中有三個比較顯著的頻率峰值。如果我們用 Jacobi 迭代去解這個方程,如下圖,高頻先收斂。
▲?Jacobi迭代:三個重要頻率點處的相對誤差與訓練步數的關系,紅色表示相對誤差小,高頻先收斂
如果我們用 DNN 來解這個方程,我們會得到完全不一樣的結果。DNN 的輸入為 x,我們用 DNN 的輸出去逼近真解 u(x)。損失函數采用 Poisson 方程的能量泛函。具體解的過程可以參見論文。如下圖所示,F-Principle 非常明顯,既低頻比高頻收斂得快很多。
▲?寬度為1-4000-500-400-1的DNN:三個重要頻率點處的相對誤差與訓練步數的關系,紅色表示相對誤差小,低頻先收斂
一個自然的想法是,為了更快地解 Poisson 方程,我們可以先用 DNN 解出低頻部分。等低頻收斂好以后,將 DNN 的輸出作為 Jacobi 迭代的初值來繼續解 Poisson 方程。
在下圖中,我們展示了結合兩種方法的效果。下圖展示的是數值解和真實解之差的最大絕對值隨計算機運行時間的變化。
▲?結合DNN與Jacobi來解Poisson方程。橫坐標:計算機運行時間。縱坐標:數值解和真實解之差的最大絕對值。綠色星號:DNN的結果。虛線:Jacobi方法繼續運算的結果,不同虛線表示選擇不同DNN訓練時刻的輸出作為初值
如果單純使用 DNN,綠色星號表明在一段時間后,DNN 的輸出振蕩很厲害。三條虛線的結果是在不同時刻使用 Jacobi 繼續運算的結果。最左邊的藍色虛線選擇的時刻過早,導致 Jacobi 方法需要花大時時間來收斂低頻,因此誤差下降很慢。最右邊的綠色虛線選擇的時刻過晚,導致大量時間花在 DNN 收斂高頻上。中間的橙色虛線剛好利用了 DNN 收斂好的低頻,并且馬上使用 Jacobi 方法快速收斂高頻,所以誤差在短時間內能下降最快。
在偏微分方程的數值問題中,有很多問題對于傳統算法是很困難的。很多研究工作已經開始探索如何使用 DNN 來解這些問題。
這個例子只是一個非常簡單地情況,對于用 F-Principle 的理解來幫助 DNN 應用在更復雜、更高維的問題中,仍然有非常多值得探討的問題。這個例子展示了在理解 DNN 的基礎上去使用 DNN,我們可以既利用 DNN 的強項,又能避免 DNN 的弱點。
參考文獻
Xu, Zhi-Qin John; Zhang, Yaoyu; Luo, Tao; Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構信息網絡表示學習論文解讀
不懂Photoshop如何P圖?交給深度學習吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的F-Principle:初探深度学习在计算数学的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: arXiv热文解读 | 不懂Photos
- 下一篇: 开学综合症有救了!17篇最新AI论文不容