第二届Byte Cup来袭,赢得2万美元奖金,登上字节跳动面试直通车
?
2018 Byte Cup 國際機器學習競賽(以下簡稱 ByteCup)是一項面向全球的機器學習競賽,由中國人工智能學會和字節跳動聯合主辦,數據競賽平臺 biendata.com 承辦,旨在促進機器學習的學術研究和具體應用。2016 年,首屆 Byte Cup 舉辦,共吸引全球 1000 多支隊伍參賽,共同完成“為頭條問答的問題在今日頭條專家用戶中尋找潛在的答案貢獻者”這一競賽任務。2018 年 ByteCup 發布的新任務是“自動為文章生成標題”。
?
我們正處于一個信息爆炸的時代。據 IDC 統計,互聯網數據量已躍至 ZB 級別(1ZB=240GB),預計 2020 年達到 35ZB。我們每天也能看到大量的信息,包括新聞快訊、社交網絡更新、事件評論,以及專業教程等等。此外,搜索引擎并不能徹底信息過載問題,而移動設備的普及和碎片化的閱讀方式讓這個問題更加嚴重。因此,如果可以開發出自動提取文本摘要的機器學習模型,就可以幫助消化海量的信息。
?
文本摘要一直都是機器學習領域一個重要的熱點,但是卻有很大的難度。例如,給單篇文章起標題/摘要的時候,很難有詞頻作保證,而是需要模型可以理解內容,甚至做一些推理。在很多地方,摘要生成和機器翻譯有類似之處。然而,和機器翻譯不同的是,自動文本摘要的輸入和輸出很不平衡,此外機器翻譯任務的輸入輸出序的列通常有一些詞義層面上的直接對應,這種對應在摘要任務中卻沒那么明顯。
?
字節跳動于 2012 年成立,旗下有大量產品可以讓用戶閱讀、消費和創作內容,包括大家熟悉的今日頭條和抖音短視頻,以及很多海外產品,如 TopBuzz 和 Tik tok。此外,字節跳動還在 2016 年成立了 AI 實驗室,實驗室覆蓋了很多不同的領域,包括機器學習、自然語言處理、計算機視覺、語音識別、數據挖掘、人機交互等,而自然語言處理領域又有機器寫作、機器翻譯、NLP 基礎、問答、對話以及推薦/搜索等方向。
?
?競賽任務?
Topbuzz?是字節跳動為北美和巴西的用戶創造的一站式內容消費平臺,它利用機器學習算法為用戶提供個性化視頻、GIF?圖、本地新聞及重大新聞。目前,Topbuzz?每天都會發布大量的文章,利用人工智能為創作者提供更好的標題選擇,是?Topbuzz?優化用戶體驗的探索方向之一。此次競賽任務便是為?Topbuzz?提供的英文文章自動生成標題。
▲?本次比賽邀請了數十位學界和業界的頂尖學者作為顧問
?
?比賽獎勵?
前?10?名的隊伍將獲得證書和字節跳動招聘面試直通車的機會。周冠軍將獲得周冠軍證書。
1.?總獎金?2?萬美元
一等獎?1?名:10,000?美金
二等獎?2?名:每名?3,000?美金
三等獎?4?名:每名?1,000?美金
2.?周冠軍自?2018?年?8?月?27?日起,評測系統將選出周冠軍。周冠軍由過去?7?天內的提交成績決定。
?
?比賽時間?
8?月?15?日 :比賽開放提交答案入口
8?月?15?日- 11?月?15?日:比賽期(比賽期間可隨時報名)
11 月?16?日:發布最終測試集
11 月 17 日:公布測試集排名,排名前 10 的隊伍一周內提交一篇不超過 4 頁的參賽方法說明(ACM 雙列標準模板,中英文皆可)。
11 月 30 日:公布最終排名。
?
?數據集?
?
本次競賽使用的訓練集包括了約?130?萬篇文本的信息,每篇文本都是一個類似json?格式的行,如以下內容:
{"content": "Being the daughter of Hollywood superstar TomCruise and America's sweetheart Katie Holmes...",?
"id": 1198440,?
"title": "Suri Cruise 2018: Katie Holmes Bonds With DaughterDuring Dinner Date While Tom Cruise Still MIA"}
?
文檔一共包含三類信息:
1. 文章id(id):每篇文本對應一個?unique id;
2. 文章內容(content):即文章的內容字符串;
3. 文章標題(title):文章的標題,參賽選手需要自己生成驗證集和測試集的標題。
?
驗證集和測試集格式和訓練集相似,但是沒有?title,需要參賽選手預測。
?
說明:訓練集用于模型的學習,驗證集用于在線實時評估算法效果,測試集用于最終的效果評測。
?
?相關研究?
目前,自動文檔摘要技術主要分為抽取式(extractive)和摘要式(又叫生成式)(abstractive)兩種。
?
抽取式摘要相對較為成熟。這種方法利用如 text rank 這樣的排序算法,對處理后的文章語句進行排序。不過抽取式摘要在語義理解方面考慮較少,無法建立文本段落中的完整的語義信息。
?
相較而言,生成式技術需要讓模型理解文章語義后總結出摘要,更類似人類的做法。不過這種技術需要使用機器學習技術,長期以來并不成熟。轉折點出現在?2014?年。這一年,Bengio?等人發表論文?Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,正式引入了?sequence-to-sequence?模型。這一模型通過兩個循環神經網絡,分別把輸入文本轉化成向量,再把向量轉成輸出序列。這種模型在論文中主要用來完成機器翻譯任務,并且后來被應用在谷歌翻譯中,但后續在文摘生成任務中也產生了廣泛的應用。此后,這種利用深度學習的 sequence-to-sequence 方法不斷被改進,在一些標準的評測數據集(如 DUC-2004)上,已經超過了傳統的抽取式方法。
?
例如,2016 年,Facebook AI 實驗室(FAIR)的學者發表論文?A Convolutional Encoder Model for Neural Machine Translation,在編碼的時候用 CNN 取代 RNN,獲得不錯的效果。Salesforce 的研究人員 2017 年發表的論文?A Deep Reinforced Model for Abstractive Summarization?中,使用了增強學習,在 CNN/Daily Mail 數據集上的 ROUGE-1 分數達到 41.16 分。同年,又是 FAIR 發表了論文?Convolutional Sequence to Sequence Learning,引入 attention 機制,不僅提高了評測分數,還極大地提升了速度。
?
2016 年,來自 IBM 沃森的研究人員發表論文?Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,和之前的論文不同,這篇論文把機器翻譯和文本摘要任務完全分開,專門針對文本摘要提出了更合適的模型,除此之外,文章還發布了兩個新的數據集。
?
中國也有許多學者在從事相關工作,例如北大的萬小軍老師。他和姚金戈的綜述《自動文摘研究進展與趨勢》把摘要技術框架總結成 4 個步驟:內容表示 → 權重計算 → 內容選擇 → 內容組織,并對每個步驟都作了介紹。
自動文摘研究進展與趨勢:
http://qngw2014.bj.bcebos.com/zhuankan/12/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98%E7%A0%94%E7%A9%B6%E8%BF%9B%E5%B1%95%E4%B8%8E%E8%B6%8B%E5%8A%BF.pdf
?
?比賽組委會?
?
主辦:中國人工智能學會
聯合主辦:字節跳動
聯合組織:IEEE 中國代表處、Biendata.com
?
?參賽方式?
??
點閱讀原文鏈接或掃描參賽二維碼可直達賽事頁面,注冊網站?-下載數據,即可參賽。
友情提示,因涉及到數據下載,強烈建議大家登錄?PC?頁面報名參加~~
大賽頁面地址:
https://biendata.com/competition/bytecup2018/
總結
以上是生活随笔為你收集整理的第二届Byte Cup来袭,赢得2万美元奖金,登上字节跳动面试直通车的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACM MM 2018论文概述:基于多粒
- 下一篇: 从傅里叶分析角度解读深度学习的泛化能力