直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类
「AI Drive」是由 PaperWeekly 和 biendata 共同發(fā)起的學(xué)術(shù)直播間,旨在幫助更多的青年學(xué)者宣傳其最新科研成果。我們一直認(rèn)為,單向地輸出知識并不是一個最好的方式,而有效地反饋和交流可能會讓知識的傳播更加有意義,從而產(chǎn)生更大的價(jià)值。
本期 AI Drive,我們邀請到復(fù)旦大學(xué)博士生許燚,為大家在線解讀其發(fā)表在 NeurIPS 2021 的最新研究成果:DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples。對本期主題感興趣的小伙伴,11 月 30?日(本周二)晚 7 點(diǎn),我們準(zhǔn)時(shí)相約 PaperWeekly 直播間。
直播信息
標(biāo)注數(shù)據(jù)的稀缺性是深度學(xué)習(xí)的一個關(guān)鍵障礙。半監(jiān)督學(xué)習(xí)則是以給未標(biāo)注數(shù)據(jù)生成偽標(biāo)簽的方式為這一問題提供了一種有效的解法。然而,當(dāng)標(biāo)注數(shù)據(jù)的量較小時(shí),比如每個類只有幾個樣本時(shí),由于生成的偽標(biāo)簽的質(zhì)量不可靠,半監(jiān)督學(xué)習(xí)的表現(xiàn)不佳并且效果不穩(wěn)定。
在本文中,我們提出了一種基于數(shù)據(jù)編程 (Data Programming) 框架來為未標(biāo)注數(shù)據(jù)生成概率標(biāo)簽的半監(jiān)督分類方法。與現(xiàn)有的數(shù)據(jù)編程方法需要人為設(shè)計(jì)標(biāo)記函數(shù) (Labeling Function)不同的是,我們采用了一套基于多選擇學(xué)習(xí) (Multiple-choice Learning) 的半監(jiān)督策略來自動生成標(biāo)記函數(shù)。考慮到標(biāo)記函數(shù)中產(chǎn)生的噪聲標(biāo)簽,我們設(shè)計(jì)了一個標(biāo)記模型 (Label Model) 來解決其中的沖突與重疊,從而為未標(biāo)注的樣本提供概率標(biāo)簽用于后續(xù)的訓(xùn)練。
在四個基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明,我們的方法可以為未標(biāo)注的數(shù)據(jù)提供可靠的概率標(biāo)簽,而以此為基礎(chǔ)訓(xùn)練的模型在測試集上也具備了比現(xiàn)有半監(jiān)督分類方法更好的性能。尤其是在少量標(biāo)注樣本可用時(shí),例如在 CIFAR-10 上只有 40 個標(biāo)注樣本時(shí)(每個類別 4 個),我們的方法在未標(biāo)注的數(shù)據(jù)上達(dá)到了 93.82% 的標(biāo)注準(zhǔn)確率,在測試集上達(dá)到了 93.46% 的分類準(zhǔn)確率,高于現(xiàn)有 SOTA 結(jié)果。
論文標(biāo)題:
DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples
論文鏈接:
https://arxiv.org/abs/2110.13740
本次分享的具體內(nèi)容有:?
半監(jiān)督分類在樣本較少時(shí)面臨的問題
半監(jiān)督分類以及數(shù)據(jù)編程的相關(guān)工作
基于數(shù)據(jù)編程的半監(jiān)督分類的基本框架和方法
多個數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果及偽標(biāo)簽質(zhì)量分析方法
總結(jié)與展望
嘉賓介紹
?許燚?/ 復(fù)旦大學(xué)博士生?
許燚,復(fù)旦大學(xué)博士生在讀,導(dǎo)師為周水庚教授。主要研究方向?yàn)橐曨l理解,半監(jiān)督以及弱監(jiān)督學(xué)習(xí),在 NeurIPS, CVPR, ICCV, AAAI, MM, EMNLP 上發(fā)表過相關(guān)論文。
直播地址?& 交流群
本次直播將在 PaperWeekly 視頻號和 B 站直播間進(jìn)行,掃描下方海報(bào)二維碼或點(diǎn)擊閱讀原文即可免費(fèi)觀看。線上分享結(jié)束后,嘉賓還將在直播交流群內(nèi)實(shí)時(shí) QA,在 PaperWeekly 微信公眾號后臺回復(fù)「AI Drive」,即可獲取入群通道。
視頻號直播間:
掃描下方二維碼關(guān)注 PaperWeekly 視頻號,第一時(shí)間獲取開播提醒。
B 站直播間:
https://live.bilibili.com/14884511
合作伙伴
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的直播 | 复旦大学许燚:少量标注样本场景下基于数据编程的半监督分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软、UIUC韩家炜组联合出品:少样本N
- 下一篇: 小兵张嘎这篇文章节选第五题小嘎子得到手枪