如何提取出一首歌曲的梅尔频谱
如何提取出一首歌曲的梅爾頻譜
1.聲譜圖
如下圖1一段聲音信號直觀地看起來是時間和能量的關(guān)系,在語音識別,音樂信息檢索中常常關(guān)注的是聲音中頻率和能量的關(guān)系,即聲譜圖描述的就是頻率和能量的關(guān)系。所以我們拿到一段音頻需要先進(jìn)行初步的處理,獲得它的聲譜圖。具體的做法則是將聲音信號分幀,然后對每一幀都用短時傅里葉變換處理,當(dāng)然進(jìn)行傅里葉變換之前還預(yù)先需要對聲音信號進(jìn)行預(yù)加重,加窗。
2.梅爾頻譜
由于人耳對聲音的感知不是線性的,人耳對聲音的低頻比對聲音的高頻更加敏感。所以常常需要將線性頻譜轉(zhuǎn)換到非線性的梅爾頻譜。普通頻率轉(zhuǎn)換到梅爾頻率的公式是 m = 2595 l o g 10 ( 1 + f 700 ) ? m=2595log_{10}(1+\frac f{700})? m=2595log10?(1+700f?)?,我們將一組頻域信號通過梅爾濾波器組就可以獲得梅爾頻譜。
總結(jié)一下獲得梅爾頻譜的大概流程:首先對時域信號進(jìn)行傅里葉變換轉(zhuǎn)換到頻域,然后再利用梅爾頻率刻度的濾波器組對應(yīng)頻域信號進(jìn)行處理,就可以得到梅爾頻譜。這個流程可以使用librosa庫來完成,下面就是相應(yīng)的代碼。
import librosa import numpy as np # audio_path是歌曲的保存路徑,需要是load方法可以讀取的歌曲文件格式 def get_melcepstrum(audio_path,mel_save_path):y, sr = librosa.load(aduio_path,sr=22050) #返回這首歌的time series序列和采樣率S = librosa.core.stft(y,n_fft=1024,hop_length=512,win_length=1024)# S.shape = (1+n_fft/2,幀數(shù))X = np.abs(S)mel_basis = librosa.filters.mel(r,n_fft=1024,n_mels=128) #梅爾濾波器矩陣# mel_basis.shape=(n_mels,1+n_fft/2)mel_s = np.dot(mel_basis,X)np.save(mel_save_path,mel_s)reference
以下這兩篇博客將梅爾頻率倒譜系數(shù)(MFCC)講得很清楚,推薦!求MFCC需要在梅爾頻譜的基礎(chǔ)上繼續(xù)取對數(shù)再進(jìn)行變換。這次我只是把梅爾頻譜當(dāng)做神經(jīng)網(wǎng)絡(luò)的輸入,就先到這里。
總結(jié)
以上是生活随笔為你收集整理的如何提取出一首歌曲的梅尔频谱的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《重学Java系列》之 泛型(上)
- 下一篇: 一条sql语句查询成绩排名