如何向非技术人员解释“稀疏傅里叶变换”算法?
【伯樂在線導讀】:這個問題來自 Quora,下面是來自?Tanooj Luthra 的回復。
讓我們來演奏一架想象中的鋼琴。
鋼琴的每個琴鍵都對應一個特定頻率的聲音。例如,一個比較有名的頻率是國際標準音A(440赫茲)。當有琴鍵按下時,你聽到的聲音是一個完美的正弦波,振蕩在440赫茲。同樣,中央C對應的頻率約為261赫茲聲波。
不過,每次只演奏一個音符太單調(diào)了,我們來嘗試幾個音符同時演奏。有趣的是,兩個各不相關的聲音結(jié)合起來,就創(chuàng)造一個全新的獨特聲音。它不再只是單一的頻率,這是兩個頻率的結(jié)合。如果琴鍵一起按下我們會發(fā)現(xiàn),對應的頻率也疊加在了一起。
三個音符組合形成的最終聲音信號!
快速傅立葉變換(FFT)可以讓我們將這個新的聲音解構為原始的頻率,從本質(zhì)上得到這個和弦是由哪些琴鍵組成的。現(xiàn)在我們退一步,只演奏一個音符,看看這個原始信號及其FFT的示例圖。
這幅圖中的數(shù)字沒有曲線形狀所代表的意義那么重要。上面圖中藍色表示聲音的波形,表示了其幅值相對于時間的關系。它是一個單一的頻率,表示只演奏了音符A。FFT變換后,我們得到了一個很有趣的圖形,幅值相對于頻率的關系。此圖中單個波峰表示原始信號中的單一頻率,而大部分的頻率不存在。前進一點點,在我們的和弦例子中有兩個音符C和A,我們的FFT將有兩個波峰!一個會出現(xiàn)在相同的位置,而另一個將出現(xiàn)在較低的頻率。總體來說,一個信號的FFT將每個“純”頻率相加得到最終的輸出結(jié)果。
我們給鋼琴加一個歌手伴奏。
人的聲音頻率范圍很寬,多種多樣的頻率組成了多種多樣的聲音(詞語)。正如下面的圖片,音頻信號可能會非常非常復雜。相應的FFT在一定比例上有成千上萬的非零頻率(圖上的紅色曲線將有成千上萬不同高度的峰值)。舉個例子,即使是一個歌手想發(fā)出F音,最終也會產(chǎn)生許多不同的頻率,因為人聲不是一個理想的樂器。
說出不同詞語時的音頻信號。顯然不像上面的標準音A那樣光滑波動!
現(xiàn)在,我們已經(jīng)有點明白FFT了,現(xiàn)在來看看MIT的稀疏FFT。當我們?yōu)殇撉偌恿烁枋职樽嗪?#xff0c;我們有一個C和A的和弦以及一個歌手努力維持唱出的F音,然后得到了一個參差不齊的音頻信號及其FFT。原本的FFT將計算出每個頻率的幅度,但我們也許可以利用這樣一個事實,即大部分的頻率將集中在C、A和F周圍!因此,如果我們只計算組成最終音頻信號的三個頻率,可以復制出一個足夠接近于原音樂樂譜的聲音。這就是稀疏FFT在做什么。
這篇論文注意到一個事實,在視頻信號中有89%的頻率不是必須存在的。只計算11%的頻率的稀疏FFT,信號質(zhì)量不會惡化太多。雖然視頻的頻率和信號的相關概念更偏向技術性,但是理論同樣適用于鋼琴和歌手。
總結(jié)
以上是生活随笔為你收集整理的如何向非技术人员解释“稀疏傅里叶变换”算法?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 类似《寒战》的影视剧是?电影《寒战》的内
- 下一篇: 钟汉良到底帅不帅?
