正视长尾挑战!颜水成、冯佳时团队发布首篇《深度长尾学习》综述
?作者?|?機器之心編輯部
來源?|?機器之心
長尾學習是推動神經網絡模型落地的重要范式。在這篇綜述中,來自新加坡國立大學和 SEA AI Lab 的學者們首次系統地闡述了深度長尾學習及其方法和應用,并提出了一個新的評價指標以驗證現存長尾學習方法對類別不平衡問題的解決能力。
深度長尾學習是視覺識別任務中最具挑戰性的問題之一,旨在從大量遵循長尾類別分布的圖像中訓練出性能良好的深度神經網絡模型。近年來,學者們對該問題開展了大量研究,并取得了可喜進展。鑒于該領域的飛速發展,在這篇綜述中,來自新加坡國立大學和 SEA AI Lab 的顏水成、馮佳時團隊對深度長尾學習的最新進展進行了系統性的梳理和分類討論,并設計了一個新的評價指標對現存方法進行實驗分析,同時也對未來的重要研究方向進行了展望。
論文鏈接:
https://arxiv.org/pdf/2110.04596.pdf
為什么要重視深度長尾學習?
近年來,深度學習已經成為人工智能領域中最重要的技術之一。因強大的數據特征表達能力,深度神經網絡已經被成功應用到眾多視覺識別任務中并取得了顯著的突破,如圖像分類,物體檢測和語義分割等。深度神經網絡的成功源于其大量的模型參數對任務模式的學習,而這一過程需要大量的標注數據進行模型訓練。在傳統視覺識別任務中,標注數據的類別分布往往受到人為調整而變得均衡,即不同類別的樣本數量無明顯差別。
而在實際應用中,自然采集的數據類別通常表現為長尾分布(如下圖),即一小部分類別擁有大量的樣本,而其余大部分類別只有較少的樣本量。然而,這一類別不平衡問題往往使得深度神經網絡的訓練變得非常困難。如下圖所示,在長尾數據下訓練的模型容易偏向訓練數據中的多數類,即多數類的特征空間往往大于少數類的特征空間,且分類決策邊界會向少數類方向偏移以確保更好地分類多數類,這一現象往往導致深度模型在數據量有限的少數類上表現不佳。因此,直接使用經驗風險最小化方法來訓練深度模型無法處理具有長尾類別不平衡問題的實際應用,如人臉識別,物種分類,醫學圖像診斷,無人機檢測等等。
為了解決這一長尾類別不平衡問題,深度長尾學習旨在從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。鑒于類別不平衡問題在現實任務中十分廣泛,并且訓練數據和測試數據的類別分布差異會極大限制神經網絡的實際應用,這一研究課題具有重要的現實意義,是推動深度神經網絡實現模型落地的重要范式。
盡管深度長尾學習領域發展迅速,應運而生的大量論文卻容易導致學者和算法工程師們迷失在知識的海洋中。為了解決這一問題,該論文首次對深度長尾學習進行了系統性的綜述,梳理出了一條深度長尾學習的清晰脈絡,從而幫助業界學者和專家更好地理解深度長尾學習,并推動該領域的蓬勃發展。
該綜述首先詳細地介紹了深度長尾學習的任務設定、數據集、衡量指標、主流網絡結構、知名競賽、以及與其他任務間的關系。隨后,該文將現存方法進行分類梳理。如下圖所示,現存方法被分為三個主要的類別(即類別重平衡、信息增強和網絡模塊改進),同時能夠被進一步細分為九個子類別。基于該分類法,該論文對現存方法進行了詳細的綜述和討論。
其中經典的方法如下表所示。同時作者還整理了一個深度長尾學習論文列表:https://github.com/Vanint/Awesome-LongTailed-Learning
此外,該綜述還提出了一個新的經驗衡量指標(相對精度),并以此對現存最優的長尾學習算法進行了實驗,旨在更好地對比現存方法對類別不平衡問題的處理能力。最后,該文探討了深度長尾學習的主要應用場景和重要的未來研究方向。
深度長尾學習的主要方法類別
類別重平衡:類別重平衡是長尾學習的主流方法之一,旨在對不同類別的數據量差異進行再平衡。該類方法可細分為類別重采樣,類別代價敏感學習和對數幾率調整。相較于其他的長尾學習范式,類別重平衡方法相對簡單,卻能獲得相似甚至更好的性能。同時,部分的類別重平衡方法(尤其是代價敏感學習)對于解決長尾類別不平衡問題具有理論分析保證。這些優點使得該類方法成為解決實際長尾問題的重要工具。然而,該類方法的缺點在于,少數類的性能提升往往是以多數類的性能犧牲作為代價。盡管總體性能得到了提升,但該類方法無法本質地解決長尾問題中缺少數據信息的問題,尤其是在少數類上。
信息增強:基于信息增強的方法旨在引入額外信息來增強模型訓練,從而提升模型在長尾數據上的學習性能。該類方法可細分為遷移學習和數據增強。因為引入了額外的信息,基于信息增強的方法能夠在不損失多數類性能的情況下提升少數類性能。考慮到缺乏足夠的少數類樣本是長尾學習的一個關鍵問題,該類方法值得進一步探索。例如,數據增強是一項相對基礎的技術,可以同時被應用到多種長尾學習任務中,這使得它非常具有實用性。但是,簡單地應用現存經典的、不考慮類別差異的數據增強技術到長尾學習任務中是有局限的:即使長尾學習的整體性能獲得提升,但因為多數類的數據量更多,導致多數類的數據增強也更多,從而進一步加劇了類別不平衡問題。因此,如何設計更好的針對深度長尾學習的數據增強方法是一個值得探索的問題。
網絡模塊提升:除了類別重平衡和信息增強方法以外,學者們也探索了如何在長尾學習中有針對性地提升網絡模塊,包括:(1)表示學習提升特征特征提取器,(2)分類器設計改進模型分類器,(3)解耦訓練促進特征提取器和分類器的訓練,(4)集成學習提升整體的網絡結構。其中,表征學習和分類器設計是深度長尾學習的基本問題,值得進一步探索。解耦訓練在最近的研究中越發受到關注;在該方案中,第二階段的類平衡分類器微調能帶來顯著的性能提升,并不會引入太多額外的計算成本。對該類方法的一種批評是,累積的訓練階段會使解耦訓練不太實用,難以直接與其他長尾問題中(如目標檢測和實例分割)的經典方法相結合。盡管如此,解耦訓練的想法在概念上很簡單,因此可以很容易地在這些問題中用來設計新方法。最后,與其他類型的長尾學習方法相比,基于集成學習的方法通常在頭類和尾類上都能獲得更好的性能。這類方法的一個問題是,多個專家的使用會導致模型的計算成本增加。但是,該問題可以通過使用共享特征提取器來緩解,并且以效率為導向的專家分配策略和知識蒸餾策略也可以有效降低計算代價。
深度長尾學習的新評價指標
深度長尾學習旨在處理長尾類別不平衡問題以獲得更好的模型性能,通常以測試集精度為衡量指標來評價長尾學習方法的性能及其處理類別不平衡問題的能力。然而,因為模型精度同時也受除類別不平衡問題之外的其他因素影響,所以測試集精度指標并不能準確反映不同方法在處理類別不平衡問題時的相對優勢。例如,基于數據增強的長尾學習方法也會提升在類別平衡數據集上所訓得到模型的測試精度;在這種情況下很難判斷測試精度的提升是來自于類別不平衡問題的緩解還是來自更多數據信息的引入。這也啟發大家重新思考:到底怎樣才算真正解決長尾學習?為此,該綜述提出了一個新的相對精度指標,用于消除非類別不平衡因素的影響,從而更好地衡量長尾學習算法對于類別不平衡問題的實際解決能力。基于這一指標,該綜述開展實驗對現存長尾學習算法進行了深入分析。
深度長尾學習的未來方向
盡管深度長尾學習已經取得長足的進展,但依然存在許多開放性的問題以待進一步研究。
新方法探索:不依賴于標簽統計頻率的類別重平衡;基于無標簽數據的遷移學習和半監督學習;適用于多個長尾學習任務的數據增強;提升全部類別性能的集成學習。
新任務設定探索:測試集類別分布未知的長尾學習;存在開放類別的長尾學習;聯邦長尾學習;類增量長尾學習;多域長尾學習;魯棒長尾學習;長尾回歸;長尾視頻學習。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的正视长尾挑战!颜水成、冯佳时团队发布首篇《深度长尾学习》综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大会剧透 | IDEA大会精彩议题全释放
- 下一篇: CIKM 2021 | 自监督学习在社会