挑战弱监督学习的三大热门问题,AutoWSL2019挑战赛正式开赛
AutoWSL2019 作為 11 月 17-19 日亞洲機器學習大會(ACML)主會議競賽單元之一,由第四范式、ChaLearn、RIKEN 和微軟聯合舉辦,其中競賽分享和頒獎將與大會 WSL-Workshop 共同舉辦。據悉,AutoWSL 是繼 AutoCV、AutoCV2、AutoNLP、AutoSpeech 之后的第 5 屆自動深度學習(AutoDL)挑戰賽,比賽已于 9 月 24 日正式開始。本次挑戰賽聚焦于弱監督學習相關任務的自動化解決方案,參賽者需要設計自動機器學習程序完成半監督學習、正例及未標記學習和噪聲標記學習三個熱門方向任務,解決不同應用領域的二分類問題。
?
現代機器學習正在向復雜模型(如深度神經網絡)的時代遷移,而復雜模型需要大量的優質標注數據。大公司有足夠的資源來收集優質的標注數據,然而對于初創公司或非營利組織來說,標記數據的高昂成本只能讓他們望而卻步。此外,在特定領域的數據存在自然稀缺性(如阿爾茨海默病或地震預測等),優質的標注數據可能根本不存在。弱監督學習(WSL)方法試圖通過訪問比監督學習更少的標注信息,來達到監督學習相近的效果目標。正因為 WSL 不需要大量的標注數據,促使大家對弱監督學習進行研究和關注,以期望讓更多的用戶和企業享受低門檻的機器學習紅利。但傳統的弱監督學習方法有太多的超參數需要根據問題進行調整,需要付出眾多人力才能成功部署弱監督學習方法,而我們希望召集來自全球各地的優秀參賽者一起通過自動化解決方法破解這一難題,降低弱監督學習方法的使用門檻。
本次賽事主要負責人、第四范式主任科學家涂威威表示:第四范式接觸到的現實業務中有非常多的弱監督學習場景,有效的自動弱監督學習方法對于規模化解決這些場景中的機器學習問題至關重要。第四范式聯合南京大學提出了自動半監督學習(AutoSSL)以及自動正例及未標記學習(AutoPU)等方法。但是相關的研究才剛剛起步,舉辦本次比賽也是希望吸引更多優秀的研究人員和從業人員關注到自動化弱監督學習的問題,一起推動這個領域的技術進步,從而幫助更多的行業利用機器學習技術提升效益。?
關于比賽
本次比賽是國際首屆自動弱監督學習競賽,旨在為與弱監督學習相關的任務提供自動化的解決方案,挑戰任務僅限于來自不同應用領域的二分類問題。大會為參賽者提供 3 個練習數據集,用于開發自動弱監督學習程序。隨后,該程序將在無人工干預的情況下在 18 個私有驗證數據集上進行反饋測試,選手可以通過驗證數據集上的反饋結果調整程序;最后在 18 個私有測試數據集上進行測試評估,測試結果將決定最終的競賽排名。
?
在 AutoWSL 競賽中,我們將重點關注弱監督學習中的三個熱門任務,即半監督學習(有些樣本是未標記的)、正例及未標記學習(樣本只有正例或未標記,沒有負例)和從噪聲標記中學習(所有樣本都有標記,但有些標記可能是錯誤的)。這三個任務互不關聯,不會同時出現在同一個數據集中。另外,組委會提供輔助信息幫助參賽者確定他們需要在每個數據集上執行的任務。
?
賽事挑戰AutoWSL 將對參賽者提出新的挑戰,如下所列:
如何自動處理各種弱監督學習任務?
如何為不同的任務自動提取有用的特征?
如何自動處理不同數量的監督信息?
如何自動設計有效的學習模型來處理各種結構化數據?
?
此外,參賽者還應考慮:
如何自動和有效地選擇適當的超參數?
如何提高解決方案通用性?即如何保證解決其在未知任務中的適用性?
如何控制計算和內存成本?
?
平臺介紹參賽者須登入我們的競賽平臺開始挑戰,請依照平臺「開始挑戰」中的指示,以獲得數據、了解數據格式及提交界面,并下載 Starting Kit。
競賽平臺:https://autodl.lri.fr/competitions/64開始挑戰:https://autodl.lri.fr/competitions/64#learn_the_details
?
本次比賽準備了總共 39 個分類數據集,參賽者首先下載三個可以下載的練習數據集,以便他們可以離線開發他們的自動弱監督解決方案。此外,另外 18 個驗證數據集也提供給參與者,以評估其解決方案的公共排行榜分數。之后,他們的解決方案將在沒有人工干預的情況下用 18 個私有測試數據集盲測評估。
數據集這一挑戰僅限于來自不同應用領域的二分類問題,競賽將重點關注 WSL 中的三個熱門任務,即半監督學習(部分樣本未標記)、正例及未標記學習(樣本只有正例或未標記樣本,沒有負例)和從噪聲標簽中學習(所有樣本都有標記,但部分標簽可能是錯誤的),這三個不相交的任務不會同時出現在單個數據集中。
?
競賽規則這項挑戰分為三個階段。首先,參賽者將獲得可以下載的練習數據集,以便可以離線開發他們的 AutoWSL 程序;然后進入反饋階段,參賽者將 AutoWSL 代碼上傳到競賽平臺上,程序將在 18 個驗證數據集中測試,并得到其方法性能的即時反饋。反饋階段結束后,競賽進入檢查階段,參與者只允許在私有數據集上提交一次代碼以進行調試,該階段參賽者無法讀取閱讀詳細的日志,但可以查看代碼是否報告錯誤。最后進入最終階段,參賽者提交的程序將在 18 個私有測試數據集上進行評估。最終階段的排名將決定獲勝者。
?
提交的程序代碼是自動訓練和測試的,無需任何人工干預。在反饋階段提交的代碼在所有 18 個反饋數據集上并行地運行在單獨的計算機上,每個數據集都有測試時間限制。
平臺上用于測試的數據集的所有信息將被隱藏,數據將以原始形式提供(沒有特征提取),以鼓勵研究人員進行自動特征學習,所有問題都是二分類問題,任務完成受時間限制。
?
有關提交和評估的更多詳細信息,請訪問平臺。
?
點擊了解更詳細比賽規則:
https://autodl.lri.fr/competitions/64#learn_the_details-terms_and_conditions
賽事時間
北京時間(UTC+8)
2019年9月24日23:59:反饋階段開始,練習數據集的發布。參賽者可以開始提交代碼并在排行榜中獲得即時反饋。
2019年10月22日23:59:參賽者真實身份驗證。
2019年10月29日23:59:反饋階段結束。
2019年10月30日00:00:檢查階段開始。
2019年11月2日19:59:檢查階段結束。
2019年11月2日20:00:最終階段開始。
2019年11月4日20:00:重新提交截止日期。
2019年11月6日20:00:最終階段結束。
請注意,CODALAB 平臺使用 UTC 時間格式,請注意比賽官網其他地方的時間說明,以免錯過比賽各階段的時間點。?
?
賽事獎勵第一名:$2000
第二名:$1500
第三名:$500
?
關于AutoMLFirst AutoML Challengehttps://competitions.codalab.org/competitions/2321AutoML@PAKDD2018https://www.4paradigm.com/competition/pakdd2018
AutoML@NeurIPS2018https://www.4paradigm.com/competition/nips2018
AutoML@PAKDD2019https://www.4paradigm.com/competition/pakdd2019
AutoML@KDDCUP2019https://www.4paradigm.com/competition/kddcup2019
AutoCV@IJCNN2019https://autodl.lri.fr/competitions/38
AutoCV2@ECML PKDD2019
https://autodl.lri.fr/competitions/36AutoNLP@WAIC2019https://autodl.lri.fr/competitions/35
AutoSpeech@ACML?2019
https://www.4paradigm.com/competition/autospeech2019
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 訪問官網
總結
以上是生活随笔為你收集整理的挑战弱监督学习的三大热门问题,AutoWSL2019挑战赛正式开赛的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么将u盘制作成uefi系统盘 制作UE
- 下一篇: 哩怎么读?