Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)
在DCASE 2013官網上,了解到在本篇文章中,詳細描述了DCASE2013挑戰賽的結果。下面加上個人的理解做了相應的翻譯,可能有不對的地方,在之后的會慢慢改善。
摘要
對于智能系統來說,使用音頻形態是最好的,重點在于他們不僅能識別作為特定的任務研究過的語言音樂,而且能識別日常環境中的一般聲音。為了激勵這個領域的研究,我們進行了一項公共研究挑戰賽:IEEE AASP(音頻和聲學信號處理技術委員會)對聲學場景分類與事件檢測(DCASE)的挑戰賽。本文中,我們報告了自動音頻場景分類的技術狀態,自動檢測和分類音頻事件。我們調查了以前的工作以及來自各研究小組所提出的挑戰所代表的技術水平。我們還提供有關組織挑戰的詳細信息,以便我們作為挑戰主持人的經驗可能對組織類似領域的挑戰有幫助。 我們為挑戰創造了新的音頻數據集和基準系統; 這些以及一些提交的系統可以在公開許可證下公開提供,作為進一步研究通用機器監聽的基準。
關鍵字:音頻數據庫,事件檢測,機器智能,模式識別
前言
自動語音識別(ASR)的進步已經整合到工作的工業系統中[1],這個算法的前景可以預見,分類和翻譯各種聲音近在咫尺。 在ASR中,研究人員繼續提高識別質量,在具有挑戰性的音頻條件下,如針對嘈雜背景遠處的語音[2]。此外,在音樂信息檢索(MIR)的進步給我們帶來了可以錄制的音符和和弦音樂[3],或從低質量的聲音片段[4]識別曲名和歌手系統。然而,語音和音樂只是在典型的室內或室外環境中可以聽到的許多類型的聲音中的兩種。部署在各種可以聽到聲音的環境的機器越來越多,它們可以是手機,助聽器或者自主機器人,但是他們能聽懂他們聽到什么嗎?
聲音通常能對諸如視頻之類的模式提供有用的補充,其中攜帶不存在如來自語音和鳥鳴的信息。聲音也可以更方便地收集,例如,在手機上 。從語義音頻分析收集的信息有助于做如機器人導航,用戶警報或分析和預測事件模式的進一步處理[5]。 除了收聽設備之外,相同的技術在音頻文檔分類/搜索中也有應用,數字收藏在近幾十年中已經大大增長[6]。 音頻檔案通常包含豐富多樣的語音,音樂,動物聲音,城市音樂,民族志記錄等等,但是它們的可訪問性目前落后于文本檔案。
為了促進機器對一般音頻環境聽覺的研究,在2012-2013年期間,我們在IEEE AASP主持下組織了一個研究挑戰:聲場和事件檢測與分類(DCASE)挑戰賽。 這個挑戰集中在具體但相對通用的一般機器聽系統將執行的任務類型:識別一般環境類型(聲學“場景”),以及檢測和分類場景內發生的事件。
這些描述為“機器偵聽”的任務也可以被認為屬于計算機聽覺場景分析(CASA)[7]。 這個命名法回顧了Bregman在人類“聽覺場景分析”能力方面的有影響力的工作[8],因此CASA經常被認為是一種旨在平行于人類聽覺的處理階段的方法,和/或模擬人類聽覺觀察現象(可能包括如“失去本質”的幻想,)[7,第1章]。這些以人為中心的目標并不直接反映我們在這里的目標,即開發可以從音頻數據中提取其周圍環境的語義信息的系統。
本文的目的是對這一挑戰進行全面的描述,其目的有兩個:首先讓讀者熟悉機器聽覺中的最新技術,其次為以后進行研究挑戰的人員提供有益的指導和經驗。接下來,我們首先給出一些研究背景,以及在相近領域組織的以往挑戰。然后我們詳細介紹我們設計的任務的實驗設計,評估方法以及我們為任務收集的數據。我們也考慮在挑戰中采取一些實際行動。在第五節中,我們給出了每個任務在挑戰中的結果,這些結果首先在IEEE WASPAA 2013會議上提出[9]。我們討論從結果中出現的問題,如任務難度級別,特別是我們比較我們的事件檢測挑戰的“現場”和“合成”變體。最后,我們考慮到挑戰的機器傾聽前景:技術狀況,未來發展方向以及這一挑戰的貢獻。我們還會考慮到與可再生性和可持續性等問題相關的這一挑戰和其他挑戰的組織結構。
- 背景
在本節中,我們將簡要介紹場景中聲場分類和聲音事件檢測的任務,兩者都在最近的文獻中進行了研究。我們討論與其他機器偵聽任務的關系,并概述所采取的標準方法。然后,我們將討論機器聽力方面的最新評估競賽,這為我們自己的競賽設定了背景。
聲場分類旨在通過為其選擇語義標簽來表征音頻流的聲學環境[10]。它可以被認為是廣泛的單標簽分類范例內的機器學習任務,其中提供了一組類標簽,并且系統必須為任何給定的輸入準確地選擇一個[11,第1章]。因此,它與音樂類型識別[12]或說話人識別[13]等音頻分類任務相似,并且與其他基于時間的媒體(如視頻)進行分類的任務相似。當對基于時間的媒體進行分類時,一個關鍵問題是如何分析時間結構化的數據( temporally-structured data),以便產生一個表示媒體對象的標簽。文獻中有兩個主要的策略。一種是使用一組“BOF(bag-of-frames)”方式的低級特征,將這種場景視為單一對象,目的是將其表示為某些局部頻譜特征的長期統計分布。該方法的不同特征之中的主要特征是已經發現表現相當好的梅爾頻率倒譜系數(MFCC)[10]。 Foote [14]是一個早期的例子,通過矢量量化(VQ)比較MFCC分布。從那時起,比較分布的標準方法是通過為每個實例或每個類構造一個高斯混合模型(GMM)[10]。另一個策略是在分類之前使用中間表示,使用一組通常由“聲原子”(acoustic atoms)的詞匯或詞典捕獲的較高級別的特征來建模場景。這些原子通常表示非先驗的場景中的聲學事件或流,因此以無監督的方式從數據中學習。可以采用稀疏性或其他約束來得到更有識別性表征,從而簡化分類過程。一個例子是使用非負矩陣因子分解(NMF)提取的主要成分,隨后轉換為MFCC以獲得緊湊性,并用于對火車站場景的數據集進行分類[15]。基于這種方法,在[16]中的作者通過帶有時間約束的移位不變概率潛在分量分析(SIPLCA)和隱馬爾可夫模型(HMM)來提高性能。在文獻[17]中,提出一種使用匹配追蹤算法(MP)獲得有效的時頻特征選擇的系統,其隨后用作MFCC的附加以執行環境聲音分類。
聲學事件檢測的目標是標記音頻記錄中的時間區域,從而產生符號描述,使得每個注釋給出特定事件類型的單個實例的開始時間,結束時間和標簽。它在精神上與自動音樂翻譯有關[3],而且還與說話人分類(speaker diarization)相似,它恢復了時間段的結構化注釋,但集中于語音“轉”而不是個別事件[18]。事件檢測中的大多數工作將聲音信號視為單聲道,一次只能檢測到一個事件[19],[20]。在一般的音頻場景中,事件很可能共同發生,因此可以進行復音事件檢測(允許重疊的事件區域)。然而,突出事件可能相對較少地發生,即使在單聲道檢測中也有價值。已經有一些將系統擴展到復調檢測的工作[21]。事件檢測可能是比場景分類要求更高的任務,但與此同時又是相互交織的。例如,來自場景分類的信息可以為事件檢測提供補充的上下文信息[22]。許多提出的方法可以在文獻中找到,其中頻譜分解技術(spectrogram factorization techniques)傾向于作為常規選擇。在[23]中,提出了概率潛在語義分析(PLSA)系統,與NMF密切相關的方法來檢測重疊的聲音事件。在[20]中,在檢測非重疊聲音事件測試中,將卷積NMF算法應用于Mel頻譜。最后,一些提出的系統著重于從諸如語音[24],鳥鳴[25],樂器和其他諧波聲音[26],色情聲音[27]等環境音頻場景的特定聲音事件的檢測和分類事件[28]。
復音的問題與上述任務相關,因為音頻場景通常是多音(多源)。與音樂一樣,可以對整個音頻信號進行一些分析,而不考慮復音,盡管考慮組成信號的組件源可能會獲得一些好處。這種分量分析類似于Bregman人類聽覺模型中發生的聽覺流。在語音識別應用中,通常可以假設有一個主要來源應該成為分析的焦點[24],但一般的音頻場景不是這樣。處理復音信號的一個策略是執行音頻源分離,然后分別分析結果信號[29],[21]。然而,請注意,聽覺流的計算等效性并不一定要求單個音頻信號的重建–Bregman并不聲稱人類聽眾這樣做 - 而是可以使用一些中級表示,如多源概率模型[30] 。通用音頻的源分離距離解決問題還有很長的路要走[31]。例如,用于“多源環境中的語音識別”的最近挑戰中的評估不需要提交的算法來執行音頻源分離:對語音轉錄輸出進行評估。提交的算法通常不涉及源分離步驟,許多使用空間或頻譜噪聲抑制來集中于一個源,而不是分離所有源[32]。
在機器聽覺中,系統的公共評估和基準測試具有寶貴的作用。它可以在各種提出的系統之間進行客觀比較,也可以用于研究多年來的性能改進。許多這樣的挑戰集中于語音。例如,DARPA EARS Rich Transcription評估(2002-2009)側重于演講者的講解任務,適用于廣播新聞和會議記錄[18]。 MIREX挑戰(2005年至今)評估了MIR系統在特定音樂任務中的表現,如旋律轉錄或節奏跟蹤[33]。 SiSEC挑戰(2007年至今)著重于語音混合和音樂的音頻源分離算法[31]。CHiME挑戰(2011年,2013年)側重于嘈雜的多源聲音環境中的語音識別[2]。上述挑戰都不直接涉及我們在這里考慮的通用機器偵聽任務。他們中的一些使用大致相似的任務輪廓(例如,分類,diarization),但是經常使用特定領域的評估措施(例如語音轉錄準確度,音頻分離質量)。他們也吸引了專門針對特定音頻領域的貢獻。為了目前的目的,2006年和2007年期間發生了最密切的挑戰,作為CHIL項目期間進行的CLEAR評估的一部分[34]。提出了僅音頻,僅視頻或多模態跟蹤和事件檢測的幾個任務,其中包括“聲音事件檢測和分類”的評估。這些數據集在幾次互動研討會中被記錄,并包含與研討會(演講,掌聲,椅子移動等)相關的活動。從為評估創建的數據集中,隔離會議室聲學事件的“FBK-Irst數據庫”已廣泛應用于事件檢測文獻;然而,上述數據集僅包含非重疊事件。 CLEAR評估雖然在當時很有前途和創新,但隨著CHIL項目的結束而停止。
在未來的視聽研究的另一個相關挑戰是TRECVID多媒體事件檢測,其重點是錄像中的視聽,多模式事件檢測[35]。 一些研究人員使用從視聽TRECVID數據中提取的音頻來評估其系統; 然而,為音頻挑戰而明確開發的數據集將提供更好的評估框架,因為它將在音頻方面變化多得多。
挑戰賽介紹
在本節中,我們將描述評估設計我們面臨的挑戰任務。在此之前,我們將描述需求收集我們進行的過程,以及考慮到進入我們的最終設計。
這部分內容見“DCASE挑戰賽原始提案文件(詳細信息)”
- 需求獲取
如上所述,在這個挑戰中考慮的任務涉及以前的實驗研究中探索的任務,在某種程度上與之前的評估運動中探討的那些有關。因此,有一系列文獻從中吸取潛在的任務設計。然而,重要的是,任務設計是通過一段社區討論開發的,主要通過公共電子郵件列表。這對于確保設計與當前研究具有廣泛的相關性,并且不會不公平地懲罰潛在參與者。后者的一個例子是選擇事件檢測的評估措施:有關哪些評估措施最合適的問題以及框架評估中適當的粒度級別等問題。正是這個討論導致決定報告三個不同的事件檢測評估措施(見第III-C3節)。討論的其他問題包括注釋數據格式,合成序列的性質和其他現有數據集的使用。
我們的目的是設計挑戰性的任務,以反映與日常音頻環境相關的有用的通用推論,與廣泛的機器聽覺應用程序相關。 我們的重點是除了語音和音樂的日常聲音,因為后者已經被深入研究。 我們也希望設計可以提高性能的任務,而不必過分依賴其他處理組件,如高質量源分離或ASR。我們決定使用與城市和辦公環境相關的數據,單獨設計挑戰任務,用于場景分類和事件檢測和分類。
機器聽覺的許多應用涉及在諸如移動電話或機器人的固定硬件設置中體具體的處理。 這與諸如音頻歸檔分析的應用不同,其中系統必須魯棒,以便通過麥克風的變化和整個數據集的預處理引起的信號修改[36]。 對于具體的機器聽力,麥克風頻率響應等方面將是常數因素,而不是隨機因素。 我們選擇使用固定配置的錄音設備來設計我們的任務。
一個相關的問題是現有數據是否可以用于我們的評估,還是創建新的數據集是至關重要的。以前的研究使用了相對較小的數據集;此外,其中一些不公開。另外,諸如Freesound這樣的在線檔案也能保存大量的聲音數據。然而,錄音條件,錄音質量和文件格式差異很大[6],[37],因此不適用于我們用一致的音頻前端運行評估系統的實驗目標。因此,制作新的錄音是重要的。這給了我們各種各樣的優勢:以及允許我們控制聲音類型平衡的條件,這也意味著我們能夠創建所有參與者看不到的私人測試數據,以確保沒有意外的過度使用細節的任務數據。相反,這意味著我們可以在自由的開放內容許可證下發布公共數據,作為研究界的資源,甚至超出了我們的直接關注點。
考慮到日常的聲音環境是復音 - 多個聲音事件可以同時發生 - 具有不同程度的密度,并且考慮到通用音頻源分離仍然是一個困難的問題,重要的是設計事件檢測任務,使得我們可以探索復調對事件檢測系統的影響。這樣的系統可能被設計成具有簡化的單聲道假設;源分離用于進行多重單聲道分析;或用全和弦推理。幾乎沒有數據可用來表明這些不同的策略如何隨著事件密度的變化而發揮作用。為了對事件密度進行實驗控制,我們選擇了兩種并行方法來創建事件檢測音頻數據。一方面,我們在受控環境中錄制了腳本化單聲道事件序列。另一方面,我們對各種事件進行了現場錄音,并將這些(以及環境背景記錄)合成為具有參數控制復音的合成混合。我們在第III-C節進一步描述這些方法。
2012年12月,我們對潛在參與者進行了一項調查,以表征他們首選的軟件平臺。這表明大多數參與者希望使用Matlab,Python,R或C/C++來創建他們的提交。但是,所有這些框架在多個操作系統中都有多個版本,可能難以確保在一個系統上運行的代碼在另一個系統上正常運行。為了最小化這些問題的風險,我們創建并發布了一個參與者可以在開發過程中使用的Linux虛擬機,并且它也是用于運行提交評估的環境。為此,我們使用了所有常見操作系統上運行的VirtualBox軟件,以及基于Xubuntu 12.10 Linux(或者這個鏈接)的磁盤映像。通過將公共數據集添加到主文件夾中,還可以通過安裝Python,R和C/C++,以及每個環境的一些常見的音頻處理工具箱。所得到的磁盤映像可從我們的研究庫在線獲取.3由于軟件許可限制,我們無法將Matlab包括在磁盤映像中,因此我們分別處理了基于Matlab的虛擬機提交的內容。
我們接下來描述場景分類任務的最終設計和數據收集以及事件檢測任務。
- 場景分類任務(SC)
音頻場景分類可視為單標簽分類任務(見第二部分)。 替代設計是可能的,例如分級標簽[38],無監督的音頻場景聚類,或多標簽“自動標記”[39]。 然而,單標簽分類是現有文獻中在聲場識別中最常見的設計[14] - [17],[10],也適用于明確的評估措施。 因此,我們將SC任務設計為訓練/測試分類任務,與以前的音頻分類評估類似設計[33]。
我們在預先選定的場景類型列表中創建了數據集,代表了倫敦地區室內/室外場景的平衡:巴士,公交,辦公室,露天市場,公園,安靜街,餐廳,超市,管道和管道。 對倫敦地區的限制是參與者所熟知的務實選擇。 我們確保在倫敦各地的中心和外部地點進行抽樣,以便在實際限制的情況下最大限度地提高廣泛性。 為使參與者進一步探索機器識別是否可以從人類聽眾可用的立體聲信息中獲益[7,第5章],我們使用Soundman OKM II入耳式麥克風錄制雙聲道立體聲格式。
對于每個場景類型,三個不同的錄音師(DG,DS,EB)在幾個月(2012年夏季和秋季)中訪問了大倫敦的各種場所,并且在每個場景中錄制了幾分鐘的音頻。 我們確保錄音中沒有系統的變化與場景類型相關:所有錄音都是在中等天氣條件下進行的,每天,每周和每年的時間不同,每個錄音師記錄每個場景類型。
然后,我們審查了錄像,選擇了30秒的片段,這些片段沒有移動電話干擾或麥克風處理噪聲等問題(總共約占記錄持續時間的50%),并將這些片段整理成兩個單獨的數據集:一個用于公開發布, 和一個私人集合來評估提交。30秒的持續時間與本主題的其他數據集相當,被認為足夠長,原則上包含足夠的信息來區分類。段被存儲為30秒WAV文件(16位,立體聲,44.1 kHz),文件名中給出了場景標簽。 每個數據集包含10個場景類型的10個示例,每個數據集共有50分鐘的音頻。 公共數據集在知識共享CC-BY許可下在線發布。
對于場景分類(SC)任務,系統用5層分層交叉驗證進行評估。我們的數據集被構造為包含類標簽的平衡,因此分類準確性是一個適當的評估指標[40]。計算每種算法的原始分類(識別)精度和標準差,以及混淆矩陣,以便更詳細地檢查算法性能。
1)場景分類基準系統:對音頻分類的“bag-offrames”MFCC+GMM方法(參見第二部分)相對簡單,并且由于它所引起的假設被詬病[41]。 然而,它廣泛適用于各種音頻分類任務。 Aucouturier和Pachet [10]特別聲稱,該方法足以識別城市音樂,但不能用于和弦音樂(由于音樂中的時間結構的重要性)。已廣泛應用于其他識別任務中的場景分類,作為進一步修改的基礎[17]。 因此,該模型是“場景分類”任務的理想基準。
以前已經為Matlab提供了框架模型的代碼。然而,為了最大的重現性,我們希望以廣泛使用的編程語言提供簡單易讀的代碼。 Python語言被廣泛使用,可在所有常見平臺上免費使用,并且著重于強調生成可被其他人讀取的代碼。 因此,我們創建了一個體現分類工作流的Python腳本,可以在開放源代碼許可下公開提供,并且旨在簡化易用性[42]。
事件檢測任務 (OL, OS)
- 記錄數據集(OL)
- 合成數據集(OS)
- 度量標準
上面的相關信息,可以在《DCASE挑戰賽原始提案文件(詳細信息)》中看到
挑戰組織
挑戰組織的全部時間表見表一。時間表中包括的一些項目對于外部觀察員來說將是顯而易見的。 然而,我們認為值得強調的時間表和工作量有一些方面,如下所列。
DCASE挑戰組織的時間軸。時間軸被劃分為主要階段,重要事件被突出顯示,下表是時間安排表(Table1):
提交系統
總體而言,11個系統提交到場景分類(SC)任務,7個系統提交到辦公室(OL)事件檢測任務,3個系統提交到辦公室合成(OS)事件檢測任務。 允許每個系統的變體增加了一些系統的總數。
場景分類任務的提交系統列于表2,以及每個系統的簡短說明。引用的是擴展摘要,提供關于每個提交的進一步的技術細節。場景分類的方法在教程文章[64]中進一步討論,而在第V-A節中,我們將在考慮哪些方法導致強大的性能時擴展場景分類方法的某些方面。
事件檢測提交任務的系統列于表3,以及每個系統的簡短說明。引用的是擴展的摘要,提供關于每個提交的進一步的技術細節。圖1顯示了提交算法采用的處理鏈。 主要處理節點是考慮各種實現的特征計算和分類。 可選地,可以預先處理音頻數據以減少可以平滑背景噪聲的影響以及分類器給出的決策,以減少事件之間的不真實的過渡。
場景識別提交系統(Table2):
事件檢測提交系統(Table3):
下面描述了每個事件檢測提交的系統設計:
1)CPS:CPS提交遵循一種結合分割,特征提取和分類的方案。 首先,提取各種基于頻率和時間的特征。 音頻流隨后使用基于能量的特征的語音分割器進行分段。 然后使用廣義似然比檢驗分類器將每個段分配給一個類。
2)DHV:DHV提交是為OL和OS任務創建的。 它遵循使用具有多維特比通道的HMM的生成分類方案。 首先,將MFCC作為特征提取,并用作連續密度HMM的輸入(每個狀態對應于事件類,包括背景噪聲)。 通過執行維特比算法的連續通過來實現復音檢測。
3)GVV:GVV提交使用基于字典的模型使用NMF。 首先,使用來自訓練集(稱為樣本)的樣本,使用梅爾幅度譜圖作為時間 - 頻率表示來創建詞典。 輸入光譜圖使用Kullback-Leibler分歧使用NMF投影到詞典上。 使用包含每個事件的單個狀態的HMM對所得到的事件概率估計進行后處理。
4)NVM:NVM提交遵循兩步分類方案。在第一步,將捕獲信號的時間,頻譜或自相關屬性的各種各樣的音頻特征饋送到兩個分類器:兩層HMM和隨機森林分類器。然后使用另一個HMM來組合預測。
5)NR2:NR2提交遵循用支持向量機(SVM)實現的區分性分類方案。饋送分類器使用原始信號或噪聲減少的MFCC計算的MFCC。然后將來自分類版本的決策合并并平滑以減少短暫的轉換。
6)SCS:SCS提交遵循具有2層HMM解碼的生成分類方案。分類器采用二維Gabor特征(時間/頻率),允許敲擊事件被良好地建模。在特征計算之前,使用估計噪聲功率譜密度并在頻域中去除它的噪聲抑制方案來增強音頻信號。
7)VVK:VVK提交遵循具有GMM解碼的生成分類方案。首先對每類事件和背景的GMM模型進行了MFCC訓練。接下來重新估計事件模型,以減少背景框架對模型可能性的影響。在解碼時,使用移動平均濾波器對似然值進行平滑,并被閾值以產生預測。
基線:第III-C節給出了基線系統的詳細描述。
比賽結果
- 場景分類的結果
圖2顯示了場景分類任務提交的系統的整體性能。基準系統達到55%的準確度。大多數系統都能夠改進,盡管我們的重要性測試能夠顯示出比基線最大的四個系統的顯著改進。結果表明,該任務的難度級別是適當的:領先的系統能夠在基準線上顯著改善,但對于任何提交的系統來說,任務并不是微不足道的。此外,錯誤欄的大小表明五個折疊中的性能大致一致,表明數據集不是過分異質的。然而,統計測試沒有顯示各種系統之間的顯著差異(由圖2中的盒子的大重疊所描繪),這意味著較大的數據集可能使系統的細粒度排序更加細化。這篇SC任務的結果在教程文章[64]中進一步分析。因此,我們在這里簡要討論SC任務成果中反映的技術狀態,從而使我們能夠在下一節中進一步擴展OL/OS任務的結果。
大多數提交的系統使用有識別性的訓練,許多強大的執行者使用SVM作為最終的分類器。此外,大多數領先的結果是由那些在分類特征中捕獲中期時間信息的人獲得的。五個最高評分系統中有四個做到了這一點:羅馬等人 [56]捕獲時間重復和使用“復發定量分析”相似性(captured temporal repetition and similarity using “recurrence quantification analysis”); Rakotomamonjy和Gasso [55]使用圖像處理的梯度特征(HOG); 蓋革等人[48]隨著時間的推移,線性回歸提取特征; Chum等[46]訓練了一個HMM。這些都是時間演化的通用統計模型,其擬合參數然后可以用作分類的特征。
從CASA的角度來看,值得注意的是,沒有一個提交的系統使用任何類型的每個音頻場景分解成聽覺流。我們建議這不是由于分解音頻場景的固有困難,因為自動分類不需要這種預處理的“聽力質量”輸出。相反,似乎很可能設計一種利用結構化場景分析輸出的分類工作流程,其分析工作可以是例如標記間隔集,而不是時間序列統計。兩個提交使用事件檢測作為預處理的一部分,這確實產生了音頻場景的結構解析[51],[52]。那些作者然后使用事件檢測的密度/強度的摘要統計作為特征。我們建議,進一步完善和發展這一戰略可能是未來工作的一個富有成效的領域,也許可以通過更復雜的時間性總結統計數據,如上文所述。
另外值得注意的是,有更具感知動機的特征——聽覺頻譜圖[54]和耳蝸圖[49]的提交系統沒有得到最好的結果。[51]的無監督功能學習也沒有。音頻功能設計的各種方式 - 感知,聲學,統計學 - 各有其優點。基于目前的評估,我們只注意到更復雜的音頻特征并沒有比簡單特征產生決定性的優勢。
也就是說,聽覺感知特征和復雜的特征對于音頻場景分類的性能并沒有很明顯的提升。我們從SC提交的池中測試了一個簡單的多數投票分類器,通過將音頻記錄分配給其他方法最常返回的標簽來構建。這得到了強勁的效果,在圖中顯示為“MV”:77%的準確性,略好于領先的個人提交。鑒于其簡單性,該元分類器的強大性能是特別顯著的,所有系統都以相等的權重組合。它表明,對于大約77%的聲音,一些算法做出了正確的決策,使得不正確分類的算法并不都符合一個特定的錯誤標簽。這允許將決策組合成相對魯棒的元分類器。 (注意,我們沒有測試MV和其他結果之間的比較的重要性,因為MV輸出不是獨立于單個提交的輸出。)更復雜的元分類可能會進一步擴展這種性能。
綜合混亂矩陣用于場景分類所有提交。行是真理,列是推斷出標簽。值以百分比表示四舍五入到最接近整數(tableIV):
表IV顯示了場景標簽的混淆矩陣(confusion matrix),作為所有提交的所有混淆矩陣之和的圓百分比。混亂主要集中在分享諸如公園/安靜的街道和地鐵/地鐵站一些聲學特性的類別。我們的標簽包含五個室內和五個戶外位置,兩種類型的算法難度相似。
- 時間檢測(OL/OS)結果:略
思考與建議
在總結之前,我們希望從上述結果和我們管理DCASE挑戰的經驗中得出一些反思,并就未來的評估挑戰提出一些建議。 我們的挑戰來自IEEE AASP協調的一系列挑戰,例如與遙遠和有回聲的語音相關的挑戰。
我們的挑戰賽設計涉及參賽者提交代碼,組織者對私有數據集執行(此處應該是組織組使用參賽者提交的代碼,使用私有數據集對系統進行性能測試)。這種設計與MIREX音樂音頻挑戰[33]相同,因為主持人必須花時間來運行提交資源,才會產生資源成本。它還需要保留一些私有數據,這些私有數據無法立即在社區中開放。然而,它具有如下優點:確保參與者不會超過測試數據,并確保結果在經驗驗證所提交的軟件可由第三方運行的意義上可重現。
通過Kaggle網站運行如2013年SABIOD機器偵聽挑戰類似挑戰賽提供一個相對有趣的觀點。這些挑戰以動物聲音的自動分類為中心。在這種情況下,交互模式不是提交代碼,而是提交系統輸出。此外,參賽者可以迭代地修改其代碼并提交更新的輸出,以驗證數據集的結果形式獲得反饋。這確實存在過度適應挑戰細節的風險,并且具有較少的直接再現性,盡管獲獎作品需要由開源人士和主持人確認。相對于DCASE,SABIOD挑戰似乎鼓勵更多來自獨立機器學習專業人員的特別參與,這可能是由于在線系統可能產生的即時反饋循環。DCASE和SABIOD挑戰代表的工作流程各有其自身的優點和缺點,我們期待著進一步完善公共評估方法。
我們列舉了運行DCASE挑戰所涉及的步驟,特別是強調了承擔這些挑戰的資源影響。數據集收集和注釋是員工時間的主要要求。這個挑戰沒有任何項目明確提供資金,如果沒有大型研究組提供的資源(參見致謝)就不可能。 這包括工作人員和博士生作為核心組織者,數據注釋者,幫助代碼和虛擬機等問題的程序員以及代碼和數據托管設施等基礎設施。
在第三節D中,我們描述了我們采取的各種步驟,以確保挑戰能夠順利運行,例如發布形式任務規范,基準代碼和虛擬機。 這樣做減少了,但并不意味著消除了所接收的代碼提交運行和排除故障所需的時間。 從這種經驗出發的一個明確的建議是,對提交的代碼進行正式測試將在提交時運行將有很大的幫助。 這可以以自動化單元測試的形式應用,或者更簡單地由挑戰組織者使用公共數據運行提交,并確認獲得的結果與提交者在其自己的系統上獲得的結果相匹配。
社區參與對于成功應對這一挑戰至關重要,特別是討論任務規范,也是談判后勤提交和討論最終結果。 IEEE AASP技術委員會和IEEE WASPAA 2013大會委員會的支持幫助我們組建了這個社區。
結論
隨著DCASE挑戰,我們旨在為日常音頻制定一套通用機器聆聽任務,以便對基礎技術進行基準測試,激勵進一步的工作,并在語音和音樂領域的機器聆聽中發展研究團體。挑戰結果說明我們為此設計的任務具有適當的困難程度:對于任何提交的系統,任何任務都不是微不足道的,并且通過一系列的分數可以比較系統的優缺點。來自不同研究組的強大參與程度表明,這些任務與目前的研究相關。
對于場景分類(SC)任務,領先系統的結果顯著高于基準線,與人類聽眾的平均結果相當。許多最強系統使用的策略是使用捕獲關于聲場的中等規模時間信息(capture medium-scale temporal information)的特征表征。然而,除了最高評分系統之外,還有改進的余地; 我們展示了這樣一個簡單的多數表決會話分類器可以聚合提交的系統,說明音頻中還存在可以在將來推動更強的性能的信息。 在未來幾輪中改進SC任務的最佳方式是通過更大的數據集大小來得出關于系統性能差異意義的更為明確的結論。
對于事件檢測(OL/OS)任務,領先的系統實現了相對較強的性能,盡管有很大的改進。這在復調OS任務中尤其明顯,表明音頻場景中的復音仍然是機器聆聽系統的關鍵難題,并且在該領域需要更多的開發。然而,對結果的分類分析也表明,即使在單聲道OL任務中,一些事件類型也比其他事件類型更難以檢測,表明一個系統檢測到廣泛的聲音類型的能力也是一個關鍵的挑戰。進一步的社區對評估指標及其與實際需求的關系的關注可以改進未來的事件檢測挑戰。評估系統的性能與場景中的復音水平之間的相關性也可能是有價值的。
關于圍繞這個研究課題形成的社區,我們受到很強的參與程度的鼓舞,以及各組織決定將提交的系統作為開放源代碼發布。這些與我們發布的資源(開源基準系統;開放數據集;虛擬機磁盤映像)為希望在這一領域工作的其他人提供了豐富的資源(開發的數據集下載地址)。社區已經設定了一個基準,建立了領先的技術 能夠從日常的聲音場景中提取大量的語義細節,但在未來有明顯的改善空間。
致謝
作者要感謝IEEE AASP技術委員會認可和支持這項工作,以及所有挑戰參與者 - 不僅是為了提交意見,而且他們的社區參與塑造挑戰,以及他們在IEEE WASPAA 2013上的演講。他們也將 感謝IEEE WASPAA 2013大會委員會組織特別會議的支持。
文獻來源:D. Stowell, D. Giannoulis, E. Benetos, M. Lagrange and M. D. Plumbley, Detection and Classification of Audio Scenes and Events. IEEE Transactions on Multimedia 17(10), 1733-1746, 2015.
總結
以上是生活随笔為你收集整理的Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 气温最低零下53℃ 大兴安岭女子回家发现
- 下一篇: 春节看哪部电影?雷军没选《流浪地球2》