當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Audio-based snore detection using deep neural networks解读

發布時間：2024/8/23 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 Audio-based snore detection using deep neural networks解读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

0 摘要

Background and Objective: 打鼾是一種普遍現象。它可能是良性的，但也可能是阻塞性睡眠呼吸暫停 (OSA) 一種普遍存在的睡眠障礙的癥狀。準確檢測打鼾可能有助于篩查和診斷 OSA。
Methods: 我們介紹了一種基于卷積神經網絡 (CNN) 和循環神經網絡 (RNN) 組合的打鼾檢測算法。我們獲得了轉診到臨床中心進行睡眠研究的 38 名受試者的錄音。所有受試者都由放置在床周圍關鍵位置的總共 5 個麥克風記錄。 CNN 用于從聲音頻譜圖中提取特征，而 RNN 用于處理連續的 CNN 輸出并將音頻事件分類為打鼾和非打鼾事件。我們還解決了麥克風放置對算法性能的影響。
Results: 該算法在我們的數據集（包括 18412 個聲音事件）的鼾聲檢測中對所有麥克風實現了 95.3 ± 0.5% 的準確度、92.2 ± 0.9% 的靈敏度和 97.7 ± 0.4% 的特異性。從放置在受試者頭部上方約 70 cm 處的麥克風觀察到的最佳準確度 (95.9%)，從放置在受試者頭部上方約 130 cm 處的麥克風觀察到的最差 (94.4%)。
Conclusion: 我們的結果表明，我們的方法可以高精度地從錄音中檢測打鼾事件，并且麥克風的放置對檢測性能沒有重大影響。
keywords: Snore detection, Convolutional neural network, Recurrent neural network, Audio signal processing, Constant Q transformation, Body-position in sleep

1 引言

Motivation: 盡管上述幾項研究產生了相對準確或至少有希望的結果，但它們涉及手動特征提取，這不僅需要特定領域和信號處理知識，還需要大量人力。
Methods: 作者引入了一種使用音頻信號進行打鼾檢測的深度學習方法。網絡架構主要由三個卷積神經網絡 (CNN) 層和一個循環神經網絡 (RNN) 層組成。（1）CNN 層用于從音頻數據的二維 (2D) 表示中自動提取特征（無需人工進行特征工程）[16,17]。（2）由于其在低頻范圍內具有更高的頻譜分辨率，類似于梅爾標度，因此選擇了恒定 Q 變換 (Constant-Q transformation, CQT) 來將音頻信號轉換為其相關的 2D 表示。它已由 Youngberg 和 Boll [18] 以及后來的 Brown [19] 提出，并已用于音樂處理 [20-22]。（3） RNN 層用于探索音頻數據的序列特征，已廣泛應用于其它基于音頻的應用，如語音識別 [23,24] 和自然語言處理 [25-27]。
此外，在以前的研究中，麥克風幾乎總是放置在一個固定位置，這似乎是臨時的，并且因研究而異（見表 6）。打鼾記錄技術缺乏一致性和建議 [7,28,29]。有限數量的研究調查了麥克風放置對打鼾記錄的影響。吳等人 [30] 評估了嘴到麥克風的距離對打鼾信號質量和患者舒適度的影響。該研究建議最佳嘴到麥克風距離為 0.3 m。赫爾佐格等人 [31] 研究了麥克風放置與鼾聲頻率分析結果之間的關系。他們觀察到空氣耦合麥克風比身體接觸麥克風具有更寬的頻率范圍。然而，他們的研究并不清楚麥克風的放置如何影響打鼾檢測性能。

2 數據和方法

2.1 數據

數據集： 使用的數據集是大型 SOMNIA 數據庫 [32] 的一個子集。根據錄音的可用性，包括 38 名受試者。
2017 年 6 月至 2017 年 11 月期間，所有受試者在荷蘭 Heeze 的 Kempenhaeghe 睡眠醫學中心的睡眠實驗室接受了常規 PSG 監測。
在性別、體重指數 (BMI) 和 AHI 方面沒有強加特定的選擇要求。年齡小于 18 歲和接受持續氣道正壓通氣治療的受試者被排除在外。表 1 總結了這些受試者的人口統計學和診斷信息。

SOMNIA 研究由 Maxima 醫療中心（荷蘭埃因霍溫。文件編號：N16.074 和 W17.128）的醫學倫理委員會審查。所有參與者都提供了書面知情同意書。所有研究均符合赫爾辛基宣言的倫理原則、良好臨床實踐指南和現行法律要求。本數據分析研究的方案得到了 Kempenhaeghe 睡眠醫學中心審查委員會和飛利浦機構審查委員會（生物醫學實驗內部委員會）的批準。

2.2 數據標注

聲音事件的手動檢測是一個勞動密集型過程。為了加快速度，我們使用了由Arsenali 等人 [14]描述的聲音間隔的自動選擇。然后是打鼾、非打鼾、可能打鼾和可能非打鼾事件的手動注釋，由經驗豐富的睡眠技術人員完成。
Arenai 等人的自動檢測方法[14]有四個步驟。首先，原始信號由 A 加權濾波器處理，該濾波器考慮人耳感知的相對響度。其次，使用持續時間為 0.1 秒和步長為 1 個樣本的滾動窗口來估計濾波信號的功率。第三，雙閾值用于從過濾信號的估計功率中檢測聲音事件。檢測閾值（即，低和高）是為每個記錄手動選擇的，以考慮由例如空調系統引起的本底噪聲的變化。最后，持續時間小于 0.2 秒的聲音事件被排除在進一步分析之外。此過程導致每個受試者平均 4756 個聲音事件（最小值和最大值分別為 1793 和 8509）。
接下來，圖形用戶界面促進了手動注釋，該界面可以對自動檢測到的聲音事件進行視聽檢查，并使用其周圍環境來加快注釋過程。每個事件都由一名注釋者標記為以下標簽之一：打鼾、非打鼾、可能打鼾和可能非打鼾。這兩個標簽用于指示既不屬于清除打鼾也不屬于清除非打鼾的事件（即，它們用于標記不確定事件）。注釋者被指示專注于反復出現的打鼾模式。這樣做有兩個原因。首先，這些模式通常包含相似數量的打鼾和非打鼾聲音事件，這會產生一個平衡良好的數據集。其次，在打鼾序列內進行注釋時，注釋過程通常比在此模式之外進行注釋時更快。上述過程共產生了 20225 個帶注釋的聲音事件，包括 7936 個（39.2%）打鼾事件（每個受試者的范圍從 25 到 439 個）、10476 個（51.8%）非打鼾事件和 1813 個（9%）不確定事件（注釋為可能打鼾和可能不打鼾）。本研究排除了不確定事件，因為尚不清楚這些事件是打鼾還是呼吸急促。

2.3 數據預處理及表示

圖2. Pre-processing flowchart for snore detection.

圖 2 顯示了主要的數據處理步驟。對于每個聲音事件，將截止頻率為 50 Hz 且階數為 3 的低通濾波器應用于其相關的音頻信號，以去除電源噪聲。為了確保 CNN 層的所有輸入具有相同的長度，我們截斷了超過 3.5 秒的聲音事件，并在處理之前對較短的事件使用零填充。 3.5 s 的長度是通過檢查所有帶注釋的聲音事件的持續時間來決定的。

圖3. Histogram of all sound event lengths.

圖 3 顯示了所有聲音事件的時間長度分布，從中我們可以看出大多數聲音事件（> 99％）短于 3.5 s，平均持續時間為 1.3 s。因此，選擇 3.5 s 以減少不必要的計算并保留盡可能多的信息。
將事件切割為 3.5 秒后，信號通過 CQT，產生其 2D 頻譜圖表示。這種表示同時顯示了時域和頻域，并實現了輸入數據的簡化。在 CQT 中，Q 代表 Q 因子，它是中心頻率與帶寬的比值。所有頻率倉的 Q 因子都相等。這里我們簡要介紹 CQT 的數學計算，更多細節可以在 [18,19]找到。
Q 因子可以表示為
$\frac{f_k}{\Delta f_k} \tag1$
其中 $Δfk\Delta f_k$ 是帶寬， $f_k$ 是第 $k$ 個 bin 的中心頻率。 $f_k$ 值可以由下式來獲取：
$fk=f12k?1B(2)f_k = f_1 2^{\frac{k-1}{B}} \tag2$
其中 $f_1$ 是最低頻率倉的中心頻率，B 表示每倍頻程的倉數。
基于這兩個方程，CQT頻譜圖在低頻范圍內具有較高的頻率分辨率，在高頻范圍內具有較高的時間分辨率。這一重要特性使得 CQT 比線性頻率尺度上的短時傅立葉變換更適合于打鼾信號處理，因為打鼾聲音在低頻段比在高頻段具有更多的成分 [28]。此外，CQT 的頻率尺度接近人類聽覺系統 [20]，這類似于眾所周知的 Mel 頻率尺度，但在低頻段具有更多細節。
對于離散時域信號 $x (n)$ ，其 CQT $X (k, n)$ 定義為：
$\sum_{j = n - \lfloor N_k/2 \rfloor}^{j = n + \lfloor N_k/2 \rfloor} x(j) a_k^*(j-n+N_k/2) \tag3$
其中 $???\lfloor \bullet \rfloor$ 表示向負無窮大舍入， $a_k^*(n)$ 是 $a_k(n)$ 的復共軛?；瘮? $a_k(n)$ 是復值波形，定義為
$ak(n)=1Nkw(nNk)exp[?i2πnfkfs](4)a_k(n) = \frac{1}{N_k}w(\frac{n}{N_k})exp[-i 2\pi n \frac{f_k}{f_s}] \tag4$
其中 $f_s$ 是采樣頻率， $w (t)$ 是一個連續的窗函數（本工作中的 Hanning）， $Nk∈RN_k \in R$ 在公式(3)-(4)處表示采樣窗口長度。
CQT 計算基于 Python 庫 LibROSA (https://librosa.github.io/librosa) 使用 Youngberg 和 Boll [18] 提出的遞歸子采樣方法實現的。在計算 CQT 能量時，選擇了 512 個樣本的跳躍長度和 84 個 bin 數（每倍頻程 12 個 bin）。然后用對數標度（以分貝為單位）轉換計算出的光譜能量，以應對大范圍的能量強度。包括 7 個鼾聲事件和相應 CQT 頻譜圖的音頻信號的示例如圖 4 所示?？梢杂^察到，鼾聲事件的主頻率分量主要分布在低頻范圍內，CQT 頻譜圖提供了準確的表示。

圖4. Example of an audio signal containing 7 snore events. The bottom part of the figure shows an example of raw signal after applying a Butterworth HP filter, where the red parts are snore events. The top part of the figure depicts the spectrogram based on CQT.包含 7 個鼾聲事件的音頻信號示例。該圖的底部顯示了應用巴特沃斯 HP 濾波器后的原始信號示例，其中紅色部分是打鼾事件。該圖的頂部描繪了基于 CQT 的頻譜圖。

之后，將光譜能量歸一化為具有零均值和單位標準偏差，并應用零填充以確保長度為 3.5 s。這確定了提交給分類神經網絡的輸入樣本。

2.4 深度神經網絡體系

如前所述，我們的深度神經網絡架構主要由三個 CNN 層和一個 RNN 層構成，如圖 5 所示。該架構是基于對訓練損失和準確性的實驗設計的。

圖5. The proposed deep neural network architecture for snore detection.

CNN 層用于從 CQT 頻譜圖中自動提取時頻域特征，而不會沿時間軸改變輸入的形狀。 CNN 中經常使用的方形濾波器被更改為矩形濾波器，以從頻域中獲取更多特征 [33]。這些濾波器沿頻率軸 2 和時間軸具有 8 個數據點（像素）的長度。對于每個 CNN 層，使用“ReLU”作為激活函數，然后是一個 2D 最大池化層和一個丟棄率為 0.5 的丟棄層，以減少過度擬合。
關于 RNN，在我們的架構中選擇了長短期記憶 (LSTM) 模型，因為它旨在表征具有長期依賴關系的序列數據，并且它比傳統 RNN 模型更有效地用于聲學相關應用 [34] . 使用動態 LSTM 層來處理可變序列長度。從 CNN 獲得的特征和沿時間軸的聲音事件的頻譜圖長度一起輸入到具有 64 個隱藏單元的動態 LSTM 層。之后，連接具有“softmax”激活函數的全連接層以生成模型輸出（即檢測打鼾事件）。
在訓練過程中，使用學習率為 0.001 的自適應矩估計算法（Adam）作為優化器，使用交叉熵作為損失函數。批量大小和紀元數(batch size and epoch number)根據經驗分別設置為 64 和 100。這些超參數是通過實驗確定的。

2.5 驗證

我們使用 5 折交叉驗證來迭代訓練和測試我們的算法。 38 名受試者被分為五組，三組 8 名受試者和兩組 7 名受試者。在每一輪交叉驗證中，四組用于訓練，剩下的一組用于測試。這種方法可確?！蔼毩⒂谥黝}”的建模和評估，其中來自同一主題的數據不會同時出現在訓練和測試組中。運行交叉驗證后，我們得到了五組檢測輸出。我們對這些輸出應用了 0.5 的分類閾值以獲得打鼾/非打鼾分類。然后我們評估了每個科目的表現。之后，將所有這些結果集匯總在一起以評估算法的整體性能。分類結果由混淆矩陣、陽性預測值 (PPV)、陰性預測值 (NPV)、敏感性、特異性和準確性表示。為了公平比較，分別訓練和驗證不同麥克風記錄的音頻數據。

2.6 麥克風放置分析

為了研究麥克風放置對打鼾檢測精度的影響，從 PSG 數據中提取所有打鼾事件的身體位置信息。總共有4種不同的體位：

睡在右肩上（身體面向 M3），

仰臥（仰臥，身體面向M1和M2），

睡在左肩（身體面向 M4），

趴著睡覺（俯臥）。

監測和分析每個麥克風每個身體位置的鼾聲事件檢測率，以評估麥克風放置對分類性能的影響。為了確保一個麥克風只有一個面向它的體位，當M5在床的左側時，我們將M5的體位左右切換，因為M5沒有固定在一個位置（右27，左11） . 此后，M5在右側體位的檢出率即為身體面向M5時的檢出率。

圖1. 睡眠實驗室設置的麥克風設置，其中麥克風位置（M1-M5）以黃色表示。床的高度在65厘米到85厘米之間，可以由受試者稍微調整。床頭柜的高度與床相似。 M3、M4與地板之間的距離為102厘米。話筒 M5放在床頭柜上，距離受試者頭部約 100 厘米（在少數情況下，這張桌子可能被受試者移動），床頭柜的位置取決于具體的房間設置，可以在左側或在對象的右側（左側 27 個，右側 11 個）。

3 結果

打鼾和非打鼾分類的混淆矩陣是從所有 38 名受試者可用的聲音注釋上的每個麥克風數據流中獲得的。表 2 中給出了 5 個混淆矩陣，從中計算了分類器的主要性能指標，包括陽性預測值 (PPV)、陰性預測值 (NPV)、敏感性、特異性和準確性。表 3 將每個麥克風條件的這些值以百分比形式報告為匯總值（整體性能）。匯集的準確度值在 94.4% 和 95.9% 之間的范圍內，雖然相似，但它們在麥克風之間顯示出有趣的差異。當使用位于受試者 (M1) 上方 70 cm 處的麥克風時，我們的方法在 PPV (97.6%)、特異性 (98.3%) 和準確性 (95.9%) 方面實現了最佳的整體性能。使用 M3 和 M4 獲得第二好的結果，它們以固定距離放置在對象的左側或右側。 M5 放置在床頭柜上更遠的地方，而 M2 位于對象上方 130 厘米處，導致大多數指標的表現最差。通過將匯總的靈敏度和特異性值分別解釋為打鼾和非打鼾聲音的檢測率，可以觀察到非打鼾事件比打鼾事件更容易識別，平均差異為 5.5%，最大值為 6.9% M2 和 M4 最低 4.2%。

在表 3 中，除了整體合并性能外，我們還指出了所有麥克風的每個主題的中值和四分位距 (IQR)。通過這種方式，可以在個體層面評估分類器的性能。所有中值均高于合并值，PPV 在 97.1% 到 98.2% 之間，NPV 在 97.0% 到 98.7% 之間，敏感性在 95.4% 到 97.7% 之間，特異性在 95.4% 到 97.7% 之間，準確度在 96.3 之間% 和 97.8%。它們顯示出與整體性能相似的趨勢，M1 的性能更好，而 M2 和 M5 的性能更差。除了靈敏度，幾乎所有的 IQR 都在 5% 左右。盡管中位數靈敏度遠高于匯總靈敏度，但高 IQR（約 10%）表明，相當多的受試者誤檢了許多打鼾事件。使用 Wilcoxon 秩和檢驗來測試 M1 和其他麥克風之間差異的顯著性，我們發現只有使用 M2 的特異性顯著低于使用 M1（p < 0.05）。

4 討論

我們基于深度神經網絡模型從音頻錄音中開發了一種自動打鼾檢測算法。目前的算法是在 38 名受試者中開發和驗證的。對來自所有麥克風的錄音進行 5 倍交叉驗證的總體準確度高于 94%。對于每個受試者的準確性，M1、M3、M4 和 M5 之間沒有發現顯著差異，表明該算法對麥克風放置和受試者之間的差異具有魯棒性。盡管總體準確度很高，但仍有 4.2% 至 6.9% 的打鼾事件被遺漏，并且一些受試者的準確度和靈敏度低于平均水平（圖 6）。為了找出原因，我們分析了BMI、AHI、性別和年齡，發現它們與性能之間沒有統計關聯。為了進一步解釋錯過的打鼾檢測，我們對所有錯過的事件進行了徹底的監聽，直觀地分析了 CQT 頻譜圖，并確定了導致大多數誤檢測的四個主要因素：

呼氣時（而不是吸氣時）產生的鼾聲。

對應于弱響度事件的低水平聲能。

由于咽部收縮的不同位置，鼾聲的變化。

打鼾和非打鼾事件的手動注釋不一致。
對于第一個因素，有一小部分呼氣打鼾聲音與主要的主要吸氣打鼾聲音具有不同的聲音特征 [35]。它們的小流行使算法難以學習呼氣打鼾的特征，從而導致對這些打鼾事件的誤檢測。 Dafna 等人之前已經發現并解決了這個問題 [11]。關于第二個因素，低水平聲能的打鼾事件具有較小的信噪比和較不清晰的頻譜圖。因此，我們的算法很容易錯過這些事件。當談到第三個因素時，鼾聲的特征可能非常多樣化，因為它們對應于上呼吸道的不同部分收縮位置 [36]。一個例子如圖 7 所示，從中我們可以清楚地看到來自不同受試者的兩個打鼾事件的 CQT 譜圖。不同的光譜圖。如果一種鼾聲在訓練集中沒有很好地代表，則在測試過程中可能會遺漏它。這導致某些特定主題的準確性較低。最后一個因素涉及注釋的準確性。注釋由一個人完成，沒有進一步驗證或重新確認。因此，存在與注釋相關的主觀因素，根據定義，無法保證 100% 準確，這可能會導致錯誤率。 Dafna 等人也提到了這個因素。 [11] 并且已經通過涉及同一數據集的三個注釋者并在沒有完全同意的情況下對事件應用多數票來解決。

圖7. Two different snore events. The left view shows a snore example of palatal vibrations (low F0 ~ 75 Hz), the right one is probably due to tongue or pharyngeal wall vibrations (F0 ~1 KHz).

除了 CQT 譜圖外，語音識別中經常使用的 Mel-scale 譜圖也使用相同的神經網絡模型進行訓練和測試。 Huzaifah [37] 已經證明，使用 CNN 進行環境聲音分類時，梅爾尺度頻譜圖的性能始終優于短時傅立葉變換 (STFT) 和 CQT 頻譜圖。使用 M1 數據的 Melscaled 頻譜圖的準確率為 95.3%，中位數為 96.9%，IQR 為 6.7%。這個性能比 CQT 譜圖略差。然而，得出結論認為 CQT 頻譜圖在打鼾檢測方面始終優于 Mel 標度頻譜圖是危險的，因為我們只試驗了一個數據集，而 CQT 頻譜圖和 Mel 標度頻譜圖都可以在一定程度上提供低頻范圍內的更多細節 . 為了找到音頻數據的最佳二維表示，應該測試具有大數據集的其他時頻表示（例如 STFT、小波變換）。
為了將我們的研究與之前的工作進行比較，我們在表 6 中總結了之前的研究。從該表中，我們可以看到大多數方法需要從音頻信號中提取多個特征，這需要特定的特征提取和選擇算法知識.相比之下，我們的深度 NN 方法算法可以使用 CNN 層自動獲取特征，這是本研究的主要新穎之處。雖然孫等人。 [13] 使用原始音頻信號，PPV 比我們的低得多。此外，除了 Dafna 等人的研究外，我們的算法優于大多數先前的研究。 [11] 和 Shin 和 Cho [15]。但是 Dafna 等人的方法的一個缺點。 [11] 是它需要 127 個特征。對于 Shin 和 Cho [15]，他們只考慮簡單的打鼾者。 Ar senali 等。 [14] 在本研究中使用了相同數據的一個子集，并在 6 個受試者上評估了他們的算法，打鼾檢測準確率為 95.4%，對于相同的受試者，我們的分類器達到了 97.5% 的準確率。

本研究的另一個貢獻涉及麥克風放置對打鼾檢測準確性的影響。已發表的探索不同麥克風類型和位置的研究并不總是解決這一問題，如表 6 所示。從表 5 中，我們可以觀察到，當麥克風面向對象時，檢測率略高，而當麥克風面向對象時，檢測率略低。麥克風面向對象的背部進行橫向位置。在仰臥位時，考慮到當受試者仰臥時，他的頭部仍然可以向左或向右轉動，面向其他麥克風，因此很難詳細說明。盡管如此，我們注意到仰臥位的檢出率低于其他位置的檢出率。在檢查錯誤分類的事件后，我們發現在我們的數據集中，具有低聲能的弱鼾聲的受試者在仰臥位時過多。這是出乎意料的，因為經常觀察到在仰臥位打鼾特別響亮，這是由于上咽部分減少引起的帆板或后舌的機械振動 [38]。這可能是由于選擇了僅在每晚的一部分采樣并且不代表整個睡眠時段的帶注釋的聲音。這需要進一步調查證實。
即使不同麥克風在不同位置的檢測率不同，M1、M3 和 M4 的整體性能也相似（表 2）。因此，我們可以得出結論，在安靜的外部條件（臥室的低背景噪音）下評估麥克風放置對檢測性能沒有重大影響。從表 2 中我們可以進一步觀察到 M2 的整體性能最差。由于 M2 與對象的距離最大（約 130 厘米），這表明距離可能是比麥克風放置在鼾聲檢測性能方面更重要的因素。在這項研究中，我們建議將麥克風緊貼在睡眠者的頭頂上方，因為 M1 具有最佳的整體性能。
盡管我們的算法在打鼾檢測方面取得了良好的性能，但也存在局限性。第一個是主體的可變性。這些特征在年齡、BMI 和 AHI 方面差異很大，再加上樣本量有限，很難比較這種方法在不同群體上的表現。此外，只有少數打鼾事件發生在呼吸暫停附近，這可能是我們找不到這些與檢測性能之間相關性的原因。第二個因素是我們只使用了整夜錄音的部分內容。如果沒有對全夜錄音進行測試，就很難知道該方法將如何推廣到現實世界應用中全夜錄音存在的問題。最后一個限制是安靜的背景。由于該數據集的噪音水平較低，因此不清楚在使用噪音水平較高的錄音時性能如何。

5 結論和未來的工作

我們提出了一種深度神經網絡模型，可以從音頻信號中對打鼾和非打鼾音頻事件進行分類。設計的深度學習模型不使用任何人工設計的功能，而是對來自不同位置的 5 個麥克風的 38 個對象的音頻數據進行了訓練和測試。我們在所有麥克風位置都獲得了穩健的性能。該方法優于以往研究中的大多數方法。此外，我們分析了麥克風放置對這種方法性能的影響，發現距離比位置更重要。
未來的工作可以沿著不同的方向進行。第一個可能是進一步提高當前打鼾檢測算法的準確性。這可以通過將呼氣與吸氣鼾聲分離、添加更多來自不同對象的事件以提高訓練樣本的多樣性、使用降噪技術提高信噪比、組合來自不同麥克風的信號以增加高質量覆蓋范圍來實現。信號并進一步檢查注釋的有效性。另一個方向可能是探索打鼾檢測如何幫助 OSA 檢測任務。這項研究可能是 OSA 檢測的第一步，因為進一步分析打鼾的聲學特性可能會產生診斷該病癥的特征 [39]。除了聲學特性外，打鼾的其他特性（例如睡眠期間打鼾的時間百分比）也可能是呼吸暫停分析的指標。此外，一些研究表明呼吸暫停后立即產生的打鼾與其他打鼾事件之間存在差異 [40,41]。因此，我們可以擴展當前的算法來分離這些鼾聲，以潛在地幫助估計 AHI（例如，[42]）

參考文獻

[1] Chamara V. Senaratna, Jennifer L. Perret, Caroline J. Lodge, Adrian J. Lowe, Brittany E. Campbell, Melanie C. Matheson, Garun S. Hamilton, Shyamali C. Dharmage, Prevalence of obstructive sleep apnea in the general population: a systematic review, Sleep medicine reviews 34 (2017) 70–81.
[2] Terry Young, Paul E. Peppard, Daniel J. Gottlieb, Epidemiology of obstructive sleep apnea: a population health perspective, American journal of respiratory and critical care medicine 165 (9) (2002) 1217–1239.
[3] Fabio Mendonca, Sheikh Shanawaz Mostafa, Antonio G. Ravelo-García, Fernando Morgado-Dias, Thomas Penzel, A review of obstructive sleep apnea detection approaches, IEEE journal of biomedical and health informatics 23 (2) (2018) 825–837.
[4] Asela S. Karunajeewa, Udantha R. Abeyratne, Craig Hukins, Silence-breathing–snore classification from snore-related sounds, Physiological Measurement 29 (2) (2008) 227.
[5] Negar Ahmadi, Gilla K. Shapiro, Sharon A. Chung, Colin M. Shapiro, Clinical diagnosis of sleep apnea based on single night of polysomnography vs. two
nights of polysomnography, Sleep and Breathing 13 (3) (2009) 221–226.
[6] Nimrod Maimon, Patrick J. Hanly, Does snoring intensity correlate with the severity of obstructive sleep apnea? Journal of clinical sleep medicine 6 (05)
(2010) 475–478.
[7] Victor. Hoffstein, Snoring, Chest 109 (1) (1996) 201–223.
[8] W.D. Duckitt, S.K. Tuomi, T.R. Niesler, Automatic detection, segmentation and assessment of snoring from ambient acoustic data, Physiological measurement 27 (10) (2006) 1047.
[9] M. Cavusoglu, M. Kamasak, O. Erogul, T.O.L.G.A. Ciloglu, Y.E. ?S. ˙I. M. Serinagaoglu, T. Akcam, An efficient method for snore/nonsnore classification of sleep sounds, Physiological measurement 28 (8) (2007) 841.
[10] Ali Azarbarzin, Zahra MK Moussavi, Automatic and unsupervised snore sound extraction from respiratory sound signals, IEEE Transactions on Biomedical Engineering 58 (5) (2011) 1156–1162.
[11] Eliran Dafna, Ariel Tarasiuk, Yaniv Zigel, Automatic detection of whole night snoring events using non-contact microphone, PloS one 8 (12) (2013).
[12] Vinayak R. Swarnkar, Udantha R. Abeyratne, Roneel V. Sharan, Automatic picking of snore events from overnight breath sound recordings, 2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 2822-2825. IEEE, 2017.
[13] Jingpeng Sun, Xiyuan Hu, Yingying Zhao, Shuchen Sun, Chen Chen, Silong Peng, SnoreNet: Detecting Snore Events from Raw Sound Recordings, 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 4977-4981. IEEE? 2019.
[14] Bruno Arsenali, Johannes van Dijk, Okke Ouweltjes, Bert den Brinker, Dirk Pevernagie, Roy Krijn, Merel van Gilst, Sebastiaan Overeem, Recurrent neural network for classification of snoring and non-snoring sound events, 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 328-331. IEEE, 2018.
[15] Hangsik Shin, Jaegeol Cho, Unconstrained snoring detection using a smart-phone during ordinary sleep, Biomedical engineering online 13 (1) (2014) 116.
[16] Tom LH Li, Antoni B. Chan, Andy HW Chun, Automatic musical pattern feature extraction using convolutional neural network, Genre 10 (2010) 1x1.
[17] Minkyu Lim, Donghyun Lee, Hosung Park, Yoseb Kang, Junseok Oh, Jeong-Sik Park, Gil-Jin Jang, Ji-Hwan Kim, Convolutional Neural Network based Audio Event Classification, KSII Transactions on Internet & Information Systems 12 (6) (2018).
[18] James Youngberg, Steven Boll, Constant-Q signal analysis and synthesis, In ICASSP’78. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 3, pp. 375-378. IEEE, 1978.
[19] Judith C. Brown, Calculation of a constant Q spectral transform, The Journal of the Acoustical Society of America 89 (1) (1991) 425–434.
[20] Christian Sch?rkhuber, Anssi Klapuri, Constant-Q transform toolbox for music processing, 7th Sound and Music Computing Conference, Barcelona, Spain, pp.3-64., 2010.
[21] Robert Alexandru Dobre, Negrescu Cristian, “Automatic music transcription software based on constant Q transform.”, 2016 8th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), pp. 1-4. IEEE, 2016.
[22] Chun-Ta Chen, Jyh-Shing Roger Jang, Wen-Shan Liu, Chi-Yao Weng, An efficient method for polyphonic audio-to-score alignment using onset detection and constant Q transform, 2016 IEEE International Conference on Acoustics, Speech And Signal Processing (ICASSP), pp. 2802-2806. IEEE, 2016.
[23] Alex Graves, Abdel-rahman Mohamed, Geoffrey Hinton, Speech recognition with deep recurrent neural networks, 2013 IEEE international conference on acoustics, speech and signal processing, pp. 6645-6649. IEEE, 2013.
[24] Sak, Ha ?sim, Andrew Senior, Kanishka Rao, and Fran?oise Beaufays. “Fast and accurate recurrent neural network acoustic models for speech recognition.” arXiv preprint arXiv:1507.06947 (2015).
[25] Tomá? Mikolov, Martin Karafiát, Luká? Burget, Jan ˇ Cernocky, Sanjeev Khudanpur, Recurrent neural network based language model, Eleventh annual conference of the international speech communication association (2010).
[26] Tomá? Mikolov, Stefan Kombrink, Luká? Burget, Jan ˇCernocky, Sanjeev Khudanpur, Extensions of recurrent neural network language model, 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp.5528-5531. IEEE? 2011.
[27] Tomas Mikolov, Geoffrey Zweig, Context dependent recurrent neural network language model, 2012 IEEE Spoken Language Technology Workshop (SLT), pp.234-239. IEEE, 2012.
[28] Dirk Pevernagie, Ronald M. Aarts, Micheline De Meyer, The acoustics of snoring, Sleep medicine reviews 14 (2) (2010) 131–144.
[29] Carolina Beatriz Gonzalez de Oliveira, Diego Greatti Vaz da Silva, Henrique Takachi Moriya, Robert Skomro, Adriano Mesquita Alencar, Geraldo Lorenzi-Filho, Snoring: the silent signal in sleep medicine, Sleep Science 4 (1) (2011) 21–27.
[30] Andrew Keong Ng, Zhi Jie Ho, Tong San Koh, Effects of microphone position on snore signal quality and patient comfort, 2008 9th International Conference on
Signal Processing, pp. 2130-2133. IEEE, 2008.
[31] Michael Herzog, Thomas Kühnel, Thomas Bremert, Beatrice Herzog, Werner Hosemann, Holger Kaftan, The impact of the microphone position on the frequency analysis of snoring sounds, European archives of oto-rhino-laryngology 266 (8) (2009) 1315–1322.
[32] Merel M. van Gilst, Johannes P.van Dijk, Roy Krijn, Bertram Hoondert, Pedro Fonseca, Ruud JG van Sloun, Bruno Arsenali, et al., Protocol of the SOMNIA project: an observational study to create a neurophysiological database for advanced clinical sleep monitoring, BMJ open 9 (11) (2019).
[33] Jordi Pons, Thomas Lidy, Xavier Serra, Experimenting with musically motivated convolutional neural networks, 2016 14th international workshop on content-based multimedia indexing (CBMI), pp. 1-6. IEEE, 2016.
[34] Sak, Hasim, Andrew W. Senior, and Fran?oise Beaufays. “Long short-term memory recurrent neural network architectures for large scale acoustic modeling.” (2014).
[35] W. Whitelaw, Characteristics of the snoring noise in patients with and without occlusive sleep apnea, Am Rev Respir Dis 147 (1993) 635–644.
[36] Yoshiaki Miyazaki, Kazuo Itasaka, Kiyoshi Ishikawa, Soichiro Togawa, Acoustic analysis of snoring and the site of airway obstruction in sleep related respiratory disorders, Acta Oto-Laryngologica 118 (537) (1998) 47–51.
[37] Huzaifah, Muhammad. “Comparison of time-frequency representations for environmental sound classification using convolutional neural networks.” arXiv preprint arXiv:1706.07156 (2017).
[38] Hiroshi Nakano, Togo Ikeda, Makito Hayashi, Etsuko Ohshima, Akihiro Onizuka, Effects of body position on snoring in apneic and nonapneic snorers, Sleep 26(2) (2003) 169–172.
[39] Hui Jin, Li-Ang Lee, Lijuan Song, Yanmei Li, Jianxin Peng, Nanshan Zhong, Hsueh-Yu Li, Xiaowen Zhang, Acoustic analysis of snoring in the diagnosis of obstructive sleep apnea syndrome: a call for more rigorous studies, Journal of Clinical Sleep Medicine 11 (7) (2015) 765–771.
[40] W. Whitelaw, Characteristics of the snoring noise in patients with and without occlusive sleep apnea, Am Rev Respir Dis 147 (1993) 635–644.
[41] J.A. Fiz, J. Abad, R. Jane, M. Riera, M.A. Mananas, P. Caminal, D. Rodenstein, J. Morera, Acoustic analysis of snoring sound in patients with simple snoring and obstructive sleep apnoea, European Respiratory Journal 9 (11) (1996) 2365–2370.
[42] Nir Ben-Israel, Ariel Tarasiuk, Yaniv Zigel, Obstructive apnea hypopnea index estimation by analysis of nocturnal snoring signals in adults, Sleep 35 (9) (2012) 1299–1305.

總結

以上是生活随笔為你收集整理的Audio-based snore detection using deep neural networks解读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：两列布局 html5,CSS两列布局的N
下一篇： python 实现 CRC 冗余码的方法