字节跳动 2019 ICME 双赛道冠军团队方案分享
ICME 2019 短視頻內容理解與推薦競賽的頒獎儀式上個月在 ICME 大會上舉辦。此次競賽由字節跳動與 ICME 聯合舉辦,分為兩個賽道,共有 2397 名參賽者組成 1025 支隊伍參賽。?
本文將首先回顧賽題,并邀請了兩個賽道的冠軍介紹模型與方法。
賽題背景
近年來,機器學習在圖像識別、語音識別等領域取得了重大進步,但在視頻內容理解領域仍有許多問題需要探索。一圖勝千言,僅一張圖片就包含大量信息,難以用幾個詞來描述,更何況是短視頻這種富媒體形態。?
與此同時,視頻已經逐漸成為互聯網上的火爆應用。目前,視頻流量已經占到網絡總流量的 80%。其中,TikTok 和抖音等短視頻應用的崛起也對視頻數據的豐富貢獻了重要的力量。?
將深度學習應用于視頻理解的方向上已經有很多積極的成果。早在 2014 年,Andrej Karpathy 等人就利用卷積神經網絡對大規模的視頻數據進行分類(Large-scale Video Classification with Convolutional Neural Networks)。他們提取出了每幀的特征,并將特征在不同時間上融合在一起,完成視頻分類的工作。?
對視頻進行自然語言處理也是一個很重要的方向,因為在視頻索引、自動影評生成,以及為視障人士生成視頻描述等領域都有重要應用。注意力機制可以被用來識別視頻中關鍵的 segment,也可以讓深度學習網絡關注圖片和視頻序列的某個部分。也就是說,在用卷積神經網絡提取每幀特征后,再用 LSTM 挖掘它們之間的時序關系。J. Donahue 等人在 CVPR 2015 上的論文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description 就描述了相關的技術,并為視頻生成了自然語言描述。
賽題描述
本次競賽提供多模態的短視頻內容特征,包括視覺特征、文本特征和音頻特征,同時提供了脫敏后的用戶點擊、喜愛、關注等交互行為數據。參賽者需要通過一個視頻及用戶交互行為數據集對用戶興趣進行建模,然后預測該用戶在另一視頻數據集上的點擊行為。?
競賽最終根據參賽者提交的模型和預測結果,通過構建深度學習模型,預測測試數據中每個用戶 id 在對應作品 id 上是否瀏覽完作品和是否對作品點贊的概率加權結果。本次比賽使用 AUC(ROC 曲線下面積)作為評估指標。AUC 越高,代表結果越優,排名越靠前。
賽道1:大規模數據集,億級別的數據信息。?
賽道2:小規模數據集,千萬級別的數據信息。
Sent-Track冠軍團隊自述
團隊介紹?
“我叫樓馬晶,明略科技算法研究員,隊伍的另外兩名隊友包括吳亞熙和練質彬。吳亞熙是京東的算法工程師,他和我是長期一起做數據挖掘比賽,我們一起獲得過 2016 年的 CCF-BDCI 二等獎、第三屆阿里云安全算法挑戰賽亞軍等比賽成績。練質彬來自華南師范大學,是研究生二年級的學生,是這次比賽認識的新朋友,在比賽后期加入我們隊伍。”?
參賽經歷與模型介紹?
我們一直比較關注各大數據挖掘比賽的平臺,在 biendata 上發現了這個比賽。?
這個比賽吸引我們的有三個點:
1. 該比賽提供包含面部特征,視頻內容特征,標題特征和 BGM 特征在內的多模態數據。我們想通過這個比賽學習如何將這些數據與用戶的交互數據結合在一起;
2. 該比賽的任務是預測用戶瀏覽完某作品的概率和點贊某作品的概率,屬于一個多任務的問題,這樣的目標在其他數據挖掘比賽中并不常見;
3. 這個比賽提供了巨量的真實場景實際業務的數據。?
我們主要用了 lightGBM 和 DNN:?
lightGBM特征工程?
1. 原始特征?
我們使用的原始特征包括 channel,duration,face,title,video 和 audio 特征。其中對 title 特征先做 TF-IDF,再通過 SVD 降維到 16 維,對 video 和 audio 特征,用 k-means 進行聚類,生成該 item 對應的 video 和 audio 類型,以及將原始 128 維特征通過 PCA 降維到 16 維。?
2. 歷史表現特征?
這部分的特征包括 user、item、author、music、device 各自歷史出現的次數、finish 次數及頻率、like 次數及頻率、交叉統計特征、用戶 finish 的 item 平均 duration,以及最大 duration 等特征。?
3. 當前特征?
當前特征包括 user、item、author、music 在當前時間段內中出現的次數,交叉統計,在用戶觀看的 item 列表中 item 熱度排序、author 熱度排序,用戶觀看的 item 列表的平均時長等等。?
4. 時間特征?
在 track1 中,time 是非常重要的信息,我們對此設計了部分特征,例如 user 同一個 time 中,item 的個數、item 的 duration 之和、與下一個 time 的時間間隔等等,取得了較大的提升。?
在這一部分,我們的經驗是:1. 通過數據探索去發現最有效的特征,由于這次比賽的數據量實在太大,盲目堆特征的話,會得不償失;2. 并不一定需要拿所有數據來訓練,我們采用的是選擇最接近測試集的三部分訓練集,分別訓練模型,然后對結果進行融合的方法。?
DNN模型?
我們的網絡結構如上圖所示,設計該網絡結構的核心思路就是將阿里巴巴的? DeepInterestNetwork 和 xdeepfm 結合起來,圖中左邊部分就是 DIN 部分,中間部分是 xdeepfm,右邊部分展示了我們如何處理 audio 和 video 特征。?
在這一部分中,我們所用的 trick:?
1. 我們用 deepwalk 的方法去訓練得到 item_id 的 embeddingvector,且在 DNN 的訓練中,我們就把 deepwalk 得到的 embeddingvector 給固定住,不在繼續訓練,這樣一來減少了訓練時間,二來我們也發現如果不固定住,模型效果會變差;?
2. 在 DIN 部分,我們將只要與用戶有過交互的 item 就作為該用戶的 interestingitem,并沒有要求必須是 finish 或 like,原因是:如果將用戶 finish 或 like 的 item 作為 interestingitem,這樣的 item 本身就很少,模型沒辦法從中提取出用戶的興趣信息;?
3. 我們將 audio 和 video 的特征也作為 filed 加入到 xdeepfm 中,具體的做法是,先把原始的 128 維特征降到和其他 id 的 embeddingvector 相同的維度,然后拼在一起,加入到 xdeepfm 部分的 embeddinglayer 中。?
頒獎與總結?
非常榮幸可以到現場參加答辯和頒獎,在現場認識了其他幾個獲獎隊伍的朋友,還有字節跳動的各位技術大牛評委,在相互交流中學到了很多東西。?
參與比賽也給我們帶來了提升。在科研方面,在比賽初期的準備工作中,我們比較廣泛地學習了最近在 CTR 預估以及推薦系統方面比較火的論文,有的在這次比賽中用上的,有的沒有用上,無論有沒有用上,都是非常好的知識儲備。在工作方面,現實業務中其實也有多模態的數據,但是很多情況下被忽視了,通過這次比賽,我們學到了如何處理多模態數據的經驗。
Bag-Track冠軍自述
“團隊只有我一個人。我叫朱麟,博士畢業于中國科學技術大學模式識別專業,現于攜程擔任算法專家職務,主要負責酒店排序推薦算法的研發創新。”?
參賽經歷與模型介紹?
我主要從微信公眾號推送知道此比賽。選擇此比賽主要是因為相比于同期比賽,該比賽參與人數較多,具備較好競爭性,同時主辦方也準備了包含多種模態數據的大型數據集供建模使用,有比較大的發揮空間。?
比賽中成功的嘗試主要有三方面:首先,通過矩陣分解等協同過濾方法,提取了用戶和短視頻的連續向量表示,可以更好有效地學習用戶 id 和短視頻 id 所蘊含的信息;其次,通過獨立神經網絡將多種高維多媒體信息壓縮為低維特征,方便后續模型學習;最后,通過樣本重采樣方法,解決了學習過程中的正負樣本不平衡問題,提高了模型精度。?
失敗的嘗試主要為神經網絡的端對端訓練方面,雖然理論上通過合適的架構,神經網絡可以直接端對端地學習所有原始輸入信息和預測目標之間的關系,但在這次比賽中,端對端神經網絡預測精度始終無法超越基于整合手工特征和前面提到的神經網絡抽取到的局部特征的 GBDT 模型,原因值得進一步探索。?
頒獎與總結?
本次比賽主要在數據分析、快速模型迭代、多模態數據整合等方面,能力有了較大提高。
點擊以下標題查看更多往期內容:?
Grid R-CNN Plus:基于網格的目標檢測演化
CVPR 2019 | 針對未知目標領域的通用領域適配方法
小米拍照黑科技:基于NAS的圖像超分辨率算法
CVPR 2019 | BASNet:關注邊界的顯著性檢測
CVPR 2019 | INIT:針對實例級的圖像翻譯
NAS-FPN:基于自動架構搜索的特征金字塔網絡
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的字节跳动 2019 ICME 双赛道冠军团队方案分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何用最简单的方式理解傅立叶变换?
- 下一篇: 万字长文详解文本抽取:从算法理论到实践