深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性
?PaperWeekly 原創 · 作者 |?王馨月
學校 |?四川大學本科生
研究方向?|?自然語言處理
摘要
高斯過程是貝葉斯學習的主要方法之一。盡管該方法已應用于許多問題并取得成功,但它還是有一些基本的局限性。許多文獻中的方法已經解決了這些局限,但到目前為止,還沒有對這些主題進行的全面綜述。大多數現有研究僅關注高斯過程及其衍生的一種特定變體。本篇綜述詳細介紹了使用高斯過程的核心動機、它們的數學公式、局限性以及多年來為解決上述局限性而蓬勃發展的研究主題。?
此外,一個特定的研究領域是在過去十年中得到了顯著改進的深層高斯過程 (Deep Gaussian Processes, DGPs)。本篇綜述概述了推動該研究領域前沿的重要文獻。最后,對未解決的問題和未來工作的研究方向進行了簡要討論。
論文標題:
Deep Gaussian Processes: A Survey
論文作者:
Kalvik Jakkala
論文鏈接:
https://arxiv.org/abs/2106.12135
引言
近年來,機器學習領域取得了許多進展。這些進展中的大多數可歸因于反向傳播、大型數據集和計算資源的改進。然而,目前大多數流行的機器學習方法(主要是深度學習方法)都基于概率論方法,這需要通過研究數據集中特征和預測之間的相關性來做出預測決策。這種方法的問題在于,它很容易過擬合可用數據集,并有可能在數據集中學習不必要的偏差。
此外,當前的方法使得將任何先驗領域知識引入預測模型變得困難并且不直觀。一些現實問題都有領域專家,結合他們的知識可以產生更好的模型。然而,大多數深度學習方法不適應此類合并,需要開發特定于應用的方法來解決此類問題。
預測不確定性是一個重要的指標,需要通過可靠的模型進行估計。大多數數據源都包含不可忽略的噪聲,這些噪聲可能會阻礙預測模型的性能。測試數據樣本與訓練數據集分布不太相似的情況也并不少見。在這種情況下,了解模型的預測不確定性至關重要。如果將該模型用于關鍵任務而不考慮其預測的不確定性,則可能會導致災難性的結果。
傳統深度學習方法的另一個主要缺點是模型比較。深度學習方法是參數化的,需要對模型架構進行明確定義。此外,模型架構是特定于應用的。通常需要將多個模型架構相互比較,以確定哪個是任務的最佳模型。然而,在參數數量和比較精度方面考慮模型大小是很重要的。
貝葉斯方法以不同程度的簡便性和效率解決了上述限制。我們可以將領域知識與先驗分布結合起來,可以通過預測方差來估計預測不確定性,并且可以使用貝葉斯因子恰當地將模型相互比較。
除了上述優點外,貝葉斯方法的另一個有趣特征是它們有助于對任何系統或過程進行因果建模。實際上,大多數分類或回歸問題都需要一系列子決策,每個子決策都會導致最終預測。然而,傳統的深度學習方法并不特別適合指定此類因果模型。貝葉斯框架以及 do-calculus 可用于在模型中指定此類結構。
貝葉斯方法的優勢引出了為什么它們還沒有廣泛適用的問題。貝葉斯方法通常會產生大量的計算開銷或完全難以處理的問題,這使得它們在幾個問題上不可行。盡管如此,這些方法歷史悠久,并已被用于解決許多具有重大影響的問題。貝葉斯框架一次又一次地證明了自己值得進一步研究。
本文考慮了一種特殊類型的貝葉斯方法,即高斯過程。該方法源于隨機過程——一個致力于用概率理論對隨機過程建模的研究領域 。大多數感興趣的問題通常不是確定性過程,或者即使是確定性過程,人們也可能無法訪問對其進行建模所需的所有信息。隨機過程在數學上適應了這種不確定性,而高斯過程是隨機過程的一種特殊變體。
我通過詳細介紹高斯過程、它們的優點和缺點來開始我的闡釋。但是,本篇綜述的主要重點是深層高斯過程 (DGPs)。我將描述一些對構建 DGPs 至關重要的高斯過程的突出變體,并解釋關鍵的 DGPs 方法。
總結
高斯過程本身就很吸引人。它們的非參數形式、分析特性和對不確定性建模的能力在機器學習中令人向往。然而,它們仍然受到巨大的計算和存儲成本限制的困擾。此外,傳統的內核函數限制了 GP 可以建模的函數族。
稀疏高斯過程(Sparse Gaussian Processes, SGPs)試圖解決存儲和計算成本。SGPs 的一種主要方法是使用 Nystr?m 近似。該方法需要使用變分方法來為完全貝葉斯處理的偽點分布建模。沿著這條研究路線已經提出了幾種方法,每種方法都有其優點和局限性。
此外,高斯過程潛變量模型(Gaussian process latent variable model, GPLVM) 是邁向 DGP 的一步。然而,分層特征表示不是預期的用例。它被提議作為概率 PCA 和無監督學習的方法。貝葉斯 GPLVM 通過引入純貝葉斯訓練方法改進了原始方法。BGPLVMs 促進了潛在空間不確定性向后驗的傳播,從而建立了一種通過 GP 中的非線性傳播不確定性的技術。
大多數 DGP 方法都考慮 SGP 和 GPLVM 來解決分層特征表示的問題。DGP 的主要趨勢是以前饋方式堆疊 GP,并使用用于訓練 SGP 和 GPLVM 的方法來訓練它們。然而,這種方法有其局限性。開發的優化邊界并不總是嚴格的,并且某些方法僅限于解析解,這對此類技術施加了可擴展性限制。
此外,堆疊 GP 使模型參數化,因為它需要預定義的模型深度和層寬。Lee 等人考慮了這些問題,并試圖通過將潛在函數空間建模為深度神經網絡的空間來解決這些問題。但是,該方法目前對于現實世界的應用尚不可行,需要做更多的工作才能實現。Garnelo 等人考慮使用 DNN 參數化的隨機過程,而不是使用內核函數定義潛在函數空間的高斯分布。盡管如此,該方法需要對特定于任務的神經網絡進行建模,并且只是對未知隨機過程的近似。基于能量的過程解決了這個限制,但該方法還不夠成熟。
總之,GP 是建模數據集的絕佳方法。該領域的總體趨勢似乎正在擺脫高斯假設并考慮一般隨機過程。該方法從起步階段已經走了很長一段路,但仍然存在需要解決的開放性問題,才能將其提升到應有的地位。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当兵的pc的多吗
- 下一篇: 法警教官有年龄限制吗到多少岁不可以当了?