AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记
目錄
- 簡(jiǎn)介
- 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
簡(jiǎn)介
本文出自北大孫栩老師課題組,是第一篇提出ALVC(Automatic Live Video Commenting)任務(wù)的文章。更確切的說(shuō),此task的目標(biāo)是,生成video barrage(視頻彈幕)。
下載鏈接
- task challenge:彈幕和視頻存在復(fù)雜的依賴關(guān)系。
動(dòng)機(jī)
彈幕可以讓視頻變得更加有趣、吸引人。同時(shí),彈幕可以在觀眾之間建立聯(lián)系,使他們的意見(jiàn)和評(píng)論更加明顯(彈幕 vs 評(píng)論)。這些特性會(huì)對(duì)用戶數(shù)量、視頻點(diǎn)擊量、視頻觀看時(shí)長(zhǎng)帶來(lái)顯著影響。
這個(gè)新的task也是一個(gè)很好的用于測(cè)試AI能力的平臺(tái),模型需要同時(shí)處理動(dòng)態(tài)的視覺(jué)信息(視頻)和動(dòng)態(tài)的語(yǔ)言信息(彈幕)。
貢獻(xiàn)
- 提出ALVC task。
- 基于Bilibili構(gòu)造數(shù)據(jù)集,共包含2361個(gè)和895929條彈幕。
- 提出兩個(gè)用于處理此task的baseline模型——Fusional RNN、Unified Transformer。
- 提出了基于檢索的評(píng)估策略,對(duì)候選answers進(jìn)行排序,再基于metrics進(jìn)行評(píng)估。
方法
本文提出了兩個(gè)處理此task的baseline模型,分別是:層級(jí)結(jié)構(gòu)的Fusional RNN、線性結(jié)構(gòu)的Unified Transformer。模型的結(jié)構(gòu)如下二圖所示,不具體介紹了,這兩個(gè)baseline還是挺簡(jiǎn)單的,都是encoder+decoder的傳統(tǒng)結(jié)構(gòu)。
- Fusional RNN
- Unified Transformer
介紹一下ALVC任務(wù)的輸入、輸出形式。
- 輸入:在視頻VVV中截取的mmm幀I={I1,...,Im}I=\{ I_1,...,I_m \}I={I1?,...,Im?}、時(shí)間戳ttt、時(shí)間戳周?chē)膹椖?#xff08;共計(jì)nnn條)C={C1,...,Cn}C=\{ C_1,...,C_n \}C={C1?,...,Cn?}
- 輸出:一條由kkk個(gè)單詞組成的彈幕y={y1,...,yk}y=\{ y_1,...,y_k \}y={y1?,...,yk?}
數(shù)據(jù)集中的example:
下面介紹數(shù)據(jù)集的Evaluation Metrics:
首先,模型要根據(jù)log-likelihood score對(duì)一組candidate comments進(jìn)行排序,candidate comments由四部分組成,分別是:ground truth、50 most similar comments、20 most popular comments、29 randomly selected comments。
- Recall@k(越大越好):topK中存在gt的比例
- Mean Rank(越小越好):顧名思義,gt的平均rank
- Mean Reciprocal Rank(越大越好):顧名思義,gt的平均reciprocal rank
實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果如下圖所示,#I和#C分別代表使用的surrounding frame、surrounding comments的個(gè)數(shù)。
human evaluation metrics的結(jié)果:
總結(jié)
以上是生活随笔為你收集整理的AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2020-07-16 CVPR2020
- 下一篇: arXiv 2019 《DCA: Div