相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?
?作者?|?杜偉、陳萍
來源?|?機(jī)器之心
其實(shí),針對(duì)不同類型的任務(wù),我們可以有選擇性地使用傅里葉變換或神經(jīng)網(wǎng)絡(luò)。
函數(shù)逼近(function approximation)是函數(shù)論的一個(gè)重要組成部分,涉及的基本問題是函數(shù)的近似表示問題。函數(shù)逼近的需求出現(xiàn)在很多應(yīng)用數(shù)學(xué)的分支學(xué)科中,尤其是計(jì)算機(jī)科學(xué)。具體而言,函數(shù)逼近問題要求我們?cè)诙x明確的類中選擇一個(gè)能夠以特定于任務(wù)的方式匹配(或逼近)目標(biāo)函數(shù)的函數(shù)。
目前,領(lǐng)域內(nèi)可以實(shí)現(xiàn)函數(shù)逼近的方式有很多,比如傅里葉變換以及近年來新興的神經(jīng)網(wǎng)絡(luò)。這些函數(shù)逼近器在實(shí)現(xiàn)過程中采用的方法各有不同,效果也各有差異。
近日,reddit 上的一個(gè)熱議帖子「對(duì)傅里葉變換和神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器進(jìn)行了比較」。
發(fā)帖者認(rèn)為,這是一個(gè)基礎(chǔ)性問題。ta 提出了疑問,「如果神經(jīng)網(wǎng)絡(luò)的主要前提是全局函數(shù)逼近器,那么與傅里葉變換等其它也被證明能逼近任何函數(shù)的逼近器相比有哪些優(yōu)勢?為什么整個(gè)監(jiān)督學(xué)習(xí)沒有變成計(jì)算傅里葉系數(shù)的領(lǐng)域之一?」
原貼地址:https://www.reddit.com/r/MachineLearning/comments/ryw53x/d_fourier_transform_vs_nns_as_function/
網(wǎng)友紛紛對(duì)以上問題給出了他們的解讀。
傅里葉變換、神經(jīng)網(wǎng)絡(luò),應(yīng)按需使用
在網(wǎng)友眾多的回答中,一位網(wǎng)友的回答可謂是高贊,收獲 208 點(diǎn)贊量。ta 的回答是這樣的:
高贊回答部分截圖
大多數(shù)研究都證明了這一點(diǎn),即傅里葉級(jí)數(shù)是連續(xù)函數(shù)的通用逼近器。(快速)傅里葉變換(FFT)可用于從均勻間隔的數(shù)據(jù)中快速計(jì)算傅里葉級(jí)數(shù),盡管也存在非均勻 FFT。FFT 具有以下特性:如果模型足夠平滑,它們會(huì)得到光譜收斂,這意味著誤差呈指數(shù)遞減(你可以通過系數(shù)的赫爾德條件看到這一點(diǎn))。雖然傅里葉級(jí)數(shù)需要周期性,但對(duì)其模型的擴(kuò)展包括切比雪夫變換 / 切比雪夫多項(xiàng)式,它們具有相似的光譜收斂性,但在 [-1,1] 上,它們是非周期函數(shù)。
神經(jīng)網(wǎng)絡(luò)收斂速度達(dá)不到指數(shù)級(jí),甚至在最優(yōu)的情況下,也很少達(dá)到線性收斂速度,那么為什么很多研究都使用神經(jīng)網(wǎng)絡(luò)方法呢?首先,我們以計(jì)算科學(xué)來說,很多研究都使用擬譜法、譜元素等。甚至多項(xiàng)式也是大量函數(shù)的通用逼近器(參考魏爾施特拉斯逼近定理)。
我們回到剛才的問題,為什么是神經(jīng)網(wǎng)絡(luò)?答案是因?yàn)樗羞@些通用逼近器都是一維的(也有一些專門為低維設(shè)計(jì)的逼近器,例如球諧函數(shù),但它們適用于非常特殊的情況)。你可以通過張量積將一維通用逼近器變?yōu)槎嗑S,但是如果將其寫出來,你會(huì)看到會(huì)發(fā)生以下現(xiàn)象,一維通用逼近器:
a0 + a1*sin(x) + b1*cos(x) + a2*sin(2x) + b2*cos(2x) + ...二維通用逼近器,其形式如下:
a0 + a1*sin(x) + b1*cos(x) + c1*sin(y) + d1*cos(y) + a2*sin(2x) + b2*cos(2x) + c2*sin(2y) + d2*cos(2y) + e2*sin(x)*cos(y) + ...通過對(duì)上述公式進(jìn)行研究發(fā)現(xiàn),當(dāng)進(jìn)入更高維度時(shí),必須為更高階項(xiàng)的每個(gè)組合添加新的項(xiàng)。組合以階乘或近似指數(shù)的方式增長。例如一個(gè)表達(dá)形式有 161,700 個(gè)項(xiàng),這也僅表示 100 維輸入擴(kuò)展的三階交叉項(xiàng)。使用這種近似器永遠(yuǎn)不會(huì)完全表示具有數(shù)千個(gè)像素的大圖像。
這種相對(duì)于輸入大小呈現(xiàn)指數(shù)增長的方式就是所謂的維度災(zāi)難。神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)證明了多項(xiàng)式成本增長與輸入大小的關(guān)系,這就是為什么神經(jīng)網(wǎng)絡(luò)被用于這些大數(shù)據(jù)問題的原因。
但這是否意味著傅里葉級(jí)數(shù)可以更好地解決足夠小、足夠平滑的問題?確實(shí)如此!這就是為什么基于物理的神經(jīng)網(wǎng)絡(luò)和傅里葉神經(jīng)算子在 3 維情況下無法與優(yōu)秀的 PDE 求解器競爭。事實(shí)上,在論文《Universal Differential Equations for Scientific Machine Learning》中,該研究展示了如何以特定方式將 CNN + 通用逼近器混合到 ODE(通用微分方程)中,以自動(dòng)發(fā)現(xiàn) PDE 離散化,論文表明,對(duì)于特定情況,傅里葉通用逼近器比神經(jīng)網(wǎng)絡(luò)效果更好。出于這個(gè)原因,DiffEqFlux.jl 包括經(jīng)典基礎(chǔ)層和張量積工具,也就是說,它們必須在正確的上下文中使用。請(qǐng)記住,譜收斂要求被逼近的函數(shù)是平滑的,當(dāng)違反這一點(diǎn)時(shí),你仍然可以獲得收斂,但速度很慢。
神經(jīng)網(wǎng)絡(luò)是一種工具,傅里葉級(jí)數(shù)是一種工具,切比雪夫系列也是一種工具。當(dāng)它們以符合其理論特性的方式使用時(shí),你可以提高性能。?
補(bǔ)充一點(diǎn)關(guān)于吉布斯現(xiàn)象。如果假設(shè)一個(gè)函數(shù)是平滑的,那么每個(gè)點(diǎn)都會(huì)影響域中的其他任何地方。你可以通過查看泰勒級(jí)數(shù)的收斂性來考慮這一點(diǎn),隨著獲得越來越多的導(dǎo)數(shù)正確,近似值越來越接近原始函數(shù)。當(dāng)假設(shè)無限多的導(dǎo)數(shù)時(shí),每條數(shù)據(jù)的影響實(shí)際上是全局的。當(dāng)你有一個(gè)不連續(xù)性時(shí),這不再是正確的,所以吉布斯現(xiàn)象是一種在這個(gè)假設(shè)被打破的點(diǎn)附近引入的畸變。這是一個(gè)非常高級(jí)的描述,但你可以將其引入光譜分析,因?yàn)樗钦`差界限需要做出平滑假設(shè)的地方。
傅里葉變換輕松處理音頻信號(hào),但面對(duì)高維數(shù)據(jù)效率低下
網(wǎng)友 @hillac 認(rèn)為,傅里葉變換被認(rèn)為是具有集合核的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。經(jīng)過數(shù)據(jù)預(yù)訓(xùn)練的傅里葉變換可以實(shí)現(xiàn)很好地逼近。當(dāng)你觀察圖像上訓(xùn)練的 CNN 的傾斜內(nèi)核時(shí),它們會(huì)讓人聯(lián)想到傅里葉變換中發(fā)現(xiàn)的不同頻率的觸發(fā)函數(shù)。對(duì)于大多數(shù)應(yīng)用來說,傅里葉變換的速度比 CNN 快,所以,如果數(shù)據(jù)易于處理,則可以使用傅里葉變換。
神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練用于更好地逼近任意數(shù)據(jù),因?yàn)樗粫?huì)像傅里葉變換那樣對(duì)數(shù)據(jù)攜帶的信息做出相同假設(shè)。因此,雖然傅里葉變換可以輕松地將音頻信號(hào)分解為信息高度密集的表示,但如果嘗試將它用于文本數(shù)據(jù),則效果會(huì)很差。
另一位網(wǎng)友 @wavefield 表示,傅里葉變換不近似值。它是信息到傅里葉域的轉(zhuǎn)換,仍然包含原始信號(hào)中的所有信息,這也是為何能夠逆計(jì)算的原因。應(yīng)該看到,某些神經(jīng)網(wǎng)絡(luò)運(yùn)算更容易在傅里葉域中學(xué)習(xí)。
這一觀點(diǎn)獲得了贊同。我們可以通過找到用于表示的頻率子集來將傅里葉變換轉(zhuǎn)換為近似值。如果使用損失函數(shù)(L1)的話,這可以高效地完成。
還有網(wǎng)友 @visualard 總結(jié)了傅里葉變換與 CNN 的其他特征。
傅里葉分析是在全局信號(hào)上計(jì)算的,而 CNN 的一個(gè)優(yōu)點(diǎn)是它們可以檢測局部模式。有時(shí)將整個(gè)信號(hào)分解為多個(gè)部分,然后再對(duì)信號(hào)中的全局「thing」做出決策會(huì)更有意義。
有人更是指出,傅里葉變換對(duì)高維數(shù)據(jù)效率非常低下。對(duì)此,使用隨機(jī)傅里葉特征是一種解決方案,它類似于僅訓(xùn)練最后一層的隨機(jī)單隱藏層神經(jīng)網(wǎng)絡(luò)。
對(duì)于傅里葉變換和神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器的異同與優(yōu)劣,各位讀者可在留言區(qū)給出自己的觀點(diǎn)。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 科研实习 | 北京大学前沿中心王鹤老师具
- 下一篇: 不限量套餐将取消 难道是为5G套餐作准