干货!基于元消歧的偏多标记学习
點擊藍字
關注我們
AI TIME歡迎每一位AI愛好者的加入!
在偏多標記學習中,每一個示例與一個候選標記集相關,該候選集既包含多個真實標記,也包含其它噪聲標記。為了解決偏多標記學習問題,現有方法往往基于對數據結構的額外假設來對候選標記集合進行消歧。然而,在實際任務中,這些假設通常難以成立,導致學得模型難以泛化到不同偏多標記分類任務中。本文提出了一種基于元消歧的偏多標記學習方法。與以往工作基于額外假設不同,我們首次引入元學習的方法來對候選標記進行消歧。一方面,通過最小化基于置信度加權的排序損失來學習個多標記分類器;另一方面,根據候選標記在少量驗證集樣本上的性能來自適應地估計其置信度。為了提高優化速率,我們提出使用在線優化策略來迭代地更新這兩個步驟。在不同數據集上大量的實驗證明了提出方法的有效性。
本期AI TIME PhD直播間我們邀請到南京航天航空大學計算機系博士生——謝明昆,為我們帶來報告《基于元消歧的偏多標記學習》。
謝明昆:
南京航空航天大學計算機專業一年級在讀博士生,導師為黃圣君教授。主要研究方向為機器學習和數據挖掘,包括弱監督學習,多標記學習等。以第一作者在包括TPAMI, NeurIPS, KDD, AAAI等國際期刊和會議上發表多篇論文。
01
?背? 景?
(1)?什么是多標記學習?
常規的監督學習,每個示例只有一個真實標記,而在多標記學習中,每個示例同時與多個標記相關。
(2)?多標記學習的難點
對于單標記學習,比如下面左圖,我們可以很容易給出“Dog”標簽;但對于多標記學習,我們很難給出一張圖的所有標記,比如下面右圖給出的標記有藍天,白云,樹,但還有海灘,島嶼等一些沒能給出的。因此多標記學習中,獲取每張圖片所有可能標記是比較困難的。所以多標記學習中一個關鍵的問題是如何顯著降低圖片標注難度,從而降低圖片標注代價。
一種有效的解決方案是偏標注,即從眾包平臺上收集許多標注者對一張圖片的標注,這些標注的并集構成候選標記集合。如下圖左邊的例子,候選標記集合既包含像窗戶,自行車等相關標記,也包含人,花等無關標記。
基于候選標記集合的樣本進行學習稱為偏多標記學習,具體任務是要學習一個分類器。每個樣本都對應一個候選標記集合,采用偏多標記學習算法(PML)對這些樣本學習,從而得到多標記模型(MLL),多標記模型在遇到新樣本時可以預測出樣本的所有可能的相關標記。
為了更好地辨別理解偏多標記學習算法,我們介紹幾個與偏多標記相關的學習框架。多標記學習(MLL)是給定樣本所有相關標記進行學習;偏標記學習是給定每一個示例一個候選標記集,該集合中有且僅有一個真實標記;弱標記學習(MLML)是給定的樣本只有部分相關標記;偏多標記學習(PML)是給定每一個示例一個候選標記集,該集合中既包含多個真實標記,也包含其它無關標記。
目前主流的偏多標記學習方法是基于消歧,每個候選標記都有置信度,根據額外的假設估計置信度。但在實際問題中,這些假設很多都不成立。因此,本文提出一種元消歧的方法,通過元學習的方式估計置信度。
02
?方? 法?
本文提出基于元消歧的偏多標記算法(PML-MD)來解決偏多標記分類問題。PML-MD在偏多標記候選集上采用帶置信度的排序損失,在給候選集排序時,不僅考慮候選集是否與樣本相關,還考慮候選集中標記的置信度。比如下圖例子中,“people”、“flower”等候選集中的無關標記雖然排在了非候選集中“dog”標記之前,但也是以一個較低的置信度排在“dog”之前的。
下面介紹PML-MD方法是如何估計標記置信度的。我們根據元消歧的方式估計置信度ρ,核心思想是根據ρ在驗證集上到表現為指導更新置信度,損失函數如下圖所示。更新策略采用迭代優化的方式,首先固定置信度ρ,然后最小化訓練損失,得到最優的模型參數θ;然后固定模型參數θ,最小化驗證集上的元消歧損失,得到最優置信度ρ。
由于θ往往是神經網絡的參數,因此更新復雜度較高,故本文提出一種在線近似優化機制,核心思想是采用一步梯度下降逼近上述優化過程。具體實現如下:
03
?實? 驗?
提出的方法:
PML-MD:驗證集僅用于消歧。
PML-MD+:驗證集用于消歧和訓練。
數據集:采用8個多標記數據集,以一個概率將無關標記翻轉為候選標記的方式來構建偏多標記數據集。包括兩種翻轉噪聲水平,high-level label noise的反轉概率有[0.5,0.6,0.7,0.8], low-level label noise的反轉概率有[0.2,0.3,0.4,0.5]。
Baseline:
①?PML-NI[Xie & Huang, TPAMI’21],
②?PML-LRS [Sun et al., AAAI’19],
③?fPML [Yu et al., ICDM’18],
④?PARMAP
⑤?PARVLS[Zhang et al., TPAMI’20
評價指標:
? Hamming Loss, Ranking Loss, One Error, Coverage ↓
? Average Precision ↑
實驗結果:
下面給出對比不同方法在不同數據集上的實驗結果,加黑點表示我們的方法能顯著優于該對比方法。本文提出的PML-MD在多個實驗樣例上都有很優秀的性能表現。
(1)low-level?label?noise數據集的實驗結果
(2)high-level?label?noise的實驗結果
(3)真實數據集的實驗結果
提
醒
點擊閱讀原文
即可觀看分享回放哦!
整理:愛 國
審核:謝明昆
AI TIME歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術。針對熱門話題,我們將邀請專家一起論道。同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你!
請將簡歷等信息發至min.gao@aminer.cn!
微信聯系:AITIME_HY
AI TIME是清華大學計算機系一群關注人工智能發展,并有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地。
更多資訊請掃碼關注
我知道你在看喲
點擊“閱讀原文”查看精彩回放
總結
以上是生活随笔為你收集整理的干货!基于元消歧的偏多标记学习的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 2020大厂面试集合,GitHub,百度
- 下一篇: 爱莫完成A+轮融资,打造基于实体零售数据
