短视频内容理解与生成技术在美团的创新实践
點擊上方“LiveVideoStack”關注我們
美團圍繞豐富的本地生活服務電商場景,積累了海量視頻數據。如何通過計算機視覺技術用相關數據,為用戶和商家提供更好的服務,是一項重要的研發課題。本次LiveVideoStackCon 2021音視頻技術大會 北京站,我們邀請到了美團高級算法專家馬彬老師來分享短視頻內容理解與生成技術,在美團業務場景的落地實踐。
文?|?馬彬
整理 | LiveVideoStack
大家好,我是馬彬,在美團主要負責短視頻相關的算法研發,很榮幸能夠來到LVS跟各位分享我們在美團業務場景下的短視頻理解與生成技術實踐。
本次分享分為三個部分:背景介紹,技術與應用場景,總結展望。
01
背? 景? 介? 紹
1.1
美團場景下的短視頻示例
這里展示了美團業務場景下的一個菜品評論示例。可以看到,視頻相較于文本和圖像可以提供更加豐富的信息,創意菜“冰與火之歌”中火焰與巧克力和冰淇淋的動態交互,通過短視頻形式進行了生動的呈現,進而給商家和用戶提供多元化的內容展示和消費指引。?
1.2
視頻行業發展
眾所周知,多個方面的技術進步,成就了我們當前所處的視頻爆炸時代,包括:拍攝采集設備,視頻編解碼技術的進步,網絡通信技術的提升等。本次分享主要圍繞AI算法,這一部分通過視頻AI技術,提高視頻內容創作生產和分發的效率。
1.3
美團AI——“場景驅動技術”
說到美團,大家用其點外賣的場景會較多,美團的業務場景非常豐富,有200多條業務線,涵蓋“吃”、“住”、“行”、“玩”等生活服務,以及“美團優選”“團好貨”等零售電商。豐富的業務場景帶來了多樣化的數據以及豐富的落地場景,驅動底層創新技術迭代。同時,底層技術的沉淀,又可以賦能各業務的數智化升級,形成互相促進的正向循環。
1.4
美團業務場景短視頻
1.4.1
豐富的內容和展示形式(C端)
本次分享的一些技術實踐案例,主要圍繞著“吃”來展開。美團在每個場景站位都有內容布局和展示形式,列舉了一些大家日常從大眾點評APP可以看到的短視頻在C端的應用場景,例如:點評首頁Feed流的視頻卡片,沉浸態視頻,視頻筆記,用戶評論,搜索結果頁等。這些視頻內容在呈現給用戶之前,經過了很多算法模型的理解和處理。
1.4.2
豐富的內容和展示形式(B端)
這里展示了一些商家端的視頻內容展示形式,包括:景點介紹,給消費者做更加立體的展示;酒店相冊速覽,將相冊中的靜態圖像合成視頻,更好地展示酒店信息,它自動生成的技術會在下文中介紹;商家品牌廣告;商家視頻相冊,商家可以自行上傳豐富的視頻內容;商品視頻/動圖,剛提到美團的業務范圍也包括零售電商,這部分對于商品信息展示非常有優勢。舉個例子,生鮮類商品,例如螃蟹、蝦的運動信息很難通過靜態圖像呈現,通過動圖的形式為用戶提供更多參考信息。
1.5
短視頻技術應用場景
從應用場景來看,短視頻在線上的應用場景主要包括:內容運營管理、內容搜索推薦、廣告營銷、創意生產。底層的支撐技術,主要可以分為兩類:內容理解和內容生產。內容理解主要回答,視頻中什么時間點,出現什么樣的內容的問題。內容生產通常建立在內容理解基礎上,對視頻素材進行加工處理。典型的技術包括,視頻智能封面、智能剪輯。下面我將分別介紹這兩類技術在美團場景下的創新實踐。
02
短視頻內容理解與生成技術實踐
2.1
短視頻內容理解
視頻標簽
視頻內容理解的主要目標是,概括視頻中出現的重要概念,打開視頻內容的“黑盒”,讓機器知道盒子里有什么,為下游應用提供語義信息,以便更好地對視頻做管理和分發。根據結果的形式,內容理解可以分為顯式和隱式兩種。其中,顯式是指通過視頻分類相關技術,給視頻打上人可以理解的文本標簽。隱式主要指以向量形式表示的嵌入特征,在推薦、搜索等場景下與模型結合直接面向最終任務建模。可以粗略地理解為,前者主要面向人,后者主要面向機器學習算法。
顯式的視頻內容標簽在很多場景下是必要的,例如:內容運營場景,運營人員需要根據標簽,開展供需分析,高價值內容圈選等工作。上圖中展示的是內容理解為視頻打標簽的概要流程,這里的每個標簽都是可供人理解的一個關鍵詞。通常情況下,為了更好地維護和使用,大量標簽會根據彼此之間的邏輯關系,組織成標簽體系。
視頻標簽的不同維度與粒度
接下來分享視頻標簽的應用場景和背后的技術難點。這里展示了一個美團場景下比較有代表性的例子,視頻講述的是博主圍繞美食場景的探店,內容非常豐富。
標簽體系的設定是關鍵點,打什么樣的標簽描述視頻內容。這里的標簽定義需要產品、運營、算法多方面的視角共同確定。在這個例子中,共有三層標簽,越上層越抽象。主題標簽對整體視頻內容概括能力越強;中間層會進一步拆分,描述拍攝場景相關內容;最底層拆分成細粒度實體,理解到宮保雞丁還是番茄炒雞蛋的粒度。不同層的標簽有不同應用,對于最上層視頻主題標簽有一些高價值內容的篩選、運營手段。它的主要難點是抽象程度高,“美食探店”這個詞概括程度很高,人在看過視頻后可以理解,但從視覺特征建模的角度,需要具備什么特點才能算美食探店,對模型的學習能力提出了比較大的挑戰。
基礎表征學習
解決方案主要關注兩方面:一方面是與標簽無關的通用基礎表征提升,另一方面是面向特定標簽的分類性能提升。初始模型需要有比較好基礎表征能力,這部分不涉及下游最終任務(例如:識別是否是美食探店視頻),而是模型權重的預訓練。學習好的基礎表征對于分業務的改進事半功倍。標簽數據的標注代價非常昂貴,需要考慮的是盡量少用業務全監督標注數據的情況下學習更好的基礎特征。從左上角開始,有很多多源含標簽數據可以利用。這里值得一提的是美團業務場景下弱標注數據,例如:用戶在餐廳中做點評,圖片和視頻上層抽象標簽是美食,它的評論會具體提到店里吃的菜,這是可挖掘的數據,通過使用這部分數據做預訓練,可以得到一個初始的Teacher Model,給業務場景無標注數據打上偽標簽。比較關鍵的是由于預測結果不完全準確,需要基于分類置信度等信息做偽標簽清洗,隨后拿到增量數據與Teacher Model一起做業務場景下更好的特征表達,迭代清洗得到Student Model,作為下游任務的基礎表征模型。在實踐中,我們發現數據迭代相較于模型結構的改進收益更大。
模型迭代
面向具體標簽的性能提升主要應對的問題是,如何在基礎表征模型的基礎上,高效迭代目標類別的樣本數據,提升標簽分類模型的性能。樣本的迭代分為離線和在線兩部分,以美食探店標簽為例,首先需要離線標注少量正樣本,微調基礎表征模型得到初始分類模型。這時模型的識別準確率通常較低,但即便如此,對樣本的清洗、迭代也很有幫助。設想如果標注員從存量樣本池里漫無目的地篩選,可能看了成百上千個視頻都很難發現一個目標類別的樣本,而通過初始模型做預篩選,可以每看幾個視頻就能篩出一個目標樣本,對標注效率有顯著的提升。
第二步如何持續迭代更多線上樣本,提升標簽分類模型準確率至關重要。我們對于模型線上預測的結果分兩條回流路徑。線上模型預測結果非常置信,或是若干個模型認知一致,可以自動回流模型預測標簽加入模型訓練,對于高置信但錯誤的噪聲標簽,可以通過模型訓練過程中的一些抵抗噪聲的技術,如:置信學習進行自動剔除。更有價值的是在實踐中發現對于模型性能提升ROI更高的是人工修正模型非置信數據,例如三個模型預測結果差異較大的樣本,篩出后交給人工確認。這種主動學習的方式,可以避免在大量簡單樣本上浪費標注人力,針對性地擴充對模型性能提升更有價值的標注數據。
視頻主題標簽應用——高價值內容篩選聚合
分享一些上述標簽的應用場景。最代表性的是高價值內容的圈選,這是和點評推薦業務合作的應用案例。點評App首頁信息流有達人探店的Tab,運營同學通過標簽篩選出美食探店的視頻進行展示。可以讓用戶以更好地體驗方式更全面地了解到店內的信息,同時也為商家提供了一個很好的窗口,起到宣傳引流的作用。
視頻標簽的不同維度與粒度
繼續回到這張圖,不同維度標簽對于技術有不同要求,其中細粒度實體理解,需要識別具體是哪道菜,與上層粗粒度標簽非常不同,需要考慮如何應對技術挑戰。首先是細粒度識別任務,需要對視覺特征進行更精細的建模;其次,視頻中的菜品理解相較于單張圖像中的菜品識別更有挑戰,需要應對數據的跨域問題。?
菜品圖像識別能力向視頻領域的遷移
抽象出關鍵問題后,分別作出應對。首先在細粒度識別問題上,菜品的視覺相似性度量挑戰在于不同食材的特征、及位置關系沒有標準化的定義,同一道菜不同的師傅很可能做出兩種完全不同的樣子。這就需要模型既能夠聚焦局部細粒度特征,又能夠融合全局信息進行判別。為了解決這個問題,我們提出了一種堆疊式全局-局部注意力網絡,同時捕捉形狀紋理線索和局部的食材差異,對菜品識別效果有顯著提升,相關成果發表在ACM MM國際會議上。
右圖中展示的是第二部分挑戰。圖像和視頻幀中的相同物體常常有著不同的外觀表現,例如:圖片中的螃蟹常常是煮熟了擺在盤中,而視頻幀中經常出現烹飪過程中鮮活的螃蟹,它們在視覺層面差別很大。我們主要從數據分布的角度去應對這部分跨域差異。業務場景積累了大量有標注的美食圖像,這些樣本預測結果的判別性通常較好,但由于數據分布差異,視頻幀中的螃蟹則不能被很確信地預測。對此我們希望提升視頻幀場景中預測結果的判別性。一方面,利用核范數最大化的方法,獲取更好的預測分布。另一方面,利用知識蒸餾的方式,不斷通過強大的模型來指導輕量化網絡的預測。再結合視頻幀數據的半自動標注,即可獲得在視頻場景下較好的性能。
細粒度菜品圖像識別能力
基于以上在美食場景內容理解的積累,我們在ICCV2021上舉辦了Large-Scale Fine-Grained Food Analysis比賽。菜品圖像來自美團的實際業務場景,包含1500類中餐菜品,競賽數據集持續開放:https://foodai-workshop.meituan.com/foodai2021.html#index,歡迎大家下載使用,共同提升挑戰性場景下的識別性能。
菜品細粒度標簽應用——按搜出封面
在視頻中識別出細粒度的菜品名稱有什么應用呢?這里跟大家分享一個,點評搜索業務場景的應用——按搜出封面,實現的效果是根據用戶輸入的搜索關鍵詞,為同一套視頻內容展示不同的封面。圖中的離線部分展示了視頻片段的切分和優選過程,首先通過關鍵幀提取,基礎質量過濾篩選出適合展示的畫面,通過菜品細粒度標簽識別理解到在什么時間點出現什么菜品。作為候選封面素材,存儲在數據庫中。
線上用戶對感興趣內容進行搜索時,根據視頻的多個封面候選與用戶查詢詞的相關性,為用戶展現最契合的封面,提升搜索體驗。
這是線上效果的例子,同樣是搜索“火鍋”,左圖是默認封面,右圖是“按搜出封面”的結果。可以看到,左邊的結果有一些以人物為主體的封面,與用戶搜索火鍋視頻預期看到的內容不符,直觀感覺像是不相關的bad case。而按搜出封面的展示結果,搜索到的內容都是火鍋體驗會很好。這也是對視頻片段理解到細粒度標簽,在美團場景下的創新應用。
挖掘更為豐富的視頻片段標簽
說到這里,講的都是美食方面,美團還有很多其他的業務場景。如何自動挖掘更為豐富的視頻標簽,讓標簽體系本身能夠自動擴展,而不是全部依賴人工整理定義,是一個重要的課題。我們基于點評豐富的用戶評論數據開展相關工作。上圖中的例子是用戶的筆記,可以看到內容中既包含視頻又包含若干張圖片,還有一大段描述,這幾個模態具有關聯性,存在共性的概念。通過一些統計學習的方式,在視覺和文本兩個模態之間做交叉驗證,可以挖掘出視頻片段和標簽的對應關系。
視頻片段語義標簽挖掘結果示例
這里展示了通過提到算法自動挖掘出的視頻片段和標簽的例子。左圖展示標簽出現的頻率,呈現了明顯的長尾分布。比較值得注意的是,通過這種方式,算法能夠發掘到粒度較細的有意義標簽,例如右圖中的“絲巾畫”。
我們通過這種方式可以在盡量減少人工參與的前提下,發現美團場景的更多重要標簽。
2.2
短視頻內容生成
另外一部分是如何在內容理解基礎上做內容生產。內容生產是在短視頻AI應用場景非常重要的部分。本次分享更多涉及到視頻素材的解構與理解。
上圖展示了視頻內容生產的流程鏈路,內容生成部分主要是視頻上傳到云端后,作為素材進行二次加工,更好發揮內容的潛在價值。根據應用形式分為三類:圖片生成視頻,常見的形式有相冊速覽視頻自動生成;視頻生成視頻片段,典型案例是長視頻精彩片段剪輯,變成更精簡的短視頻做二次分發;視頻像素級編輯,主要涉及精細化的畫面特效編輯。
2.2.1
圖像生成視頻——餐飲場景 美食動圖生成
第一種圖像生成視頻,該部分要做的更多是針對圖像素材的理解和加工,使用戶對技術細節無感的前提下,一鍵端到端生成理想素材。如上圖所示,商家只需要輸入生產素材的圖像相冊,一切交給AI算法:首先自動去除拍攝質量較差的,不適合展示的圖片。進一步做內容識別,質量分析。內容識別包括內容標簽,質量分析包括清晰度、美學分;由于原始圖像素材的尺寸難以直接適配目標展位,需要根據美學評價模型,對圖像進行智能裁切;最終,疊加Ken-Burns、轉場等特效,得到渲染結果。
2.2.2
圖像生成視頻——酒店場景 相冊速覽視頻生成
這是酒店場景下相冊速覽視頻生成的例子,相比動圖,需要結合音頻與轉場特效的配合。同時,視頻對優先展示什么樣的內容有更高要求,需要結合業務場景的特點,根據設計師制定的腳本模板,通過算法自動篩選特定類型的圖像填充到模板相應位置。
2.2.3
視頻生成視頻片段
視頻生成視頻片段應用,主要是將長視頻切分并優選出若干片更精彩、符合用戶預期的內容作展示。從算法上階段劃分主要是片段生成和片段篩選排序。片段生成部分,通過時序切分算法,獲取鏡頭片段、關鍵幀。片段排序是比較關鍵的技術,決定了視頻優先順序。這是比較困難的一部分,有幾個維度:通用質量維度,包含清晰度,美學分等;語義維度,例如:在美食視頻中,菜品成品展示,制作過程等通常是比較精彩的片段。語義維度的理解主要是采用前面介紹的內容理解模型來支持。
智能封面與精彩片段
這種情況下我們做了兩種應用場景。一是智能動態封面,主要基于通用基礎質量優選:清晰度更高,有動態信息量,無閃爍卡頓的視頻片段,相比默認片段的效果會更好。
2.2.4
視頻像素級編輯處理——菜品視頻特效
視頻像素級編輯處理方面,這里展示了一個基于視頻物體分割(VOS,Video Object Segmentation)技術的菜品創意特效。背后的關鍵技術,是美團自研的高效語義分割方法。
像素級編輯處理最重要技術之一是語義分割,在應用場景面臨的主要技術挑戰是既要保證分割模型時效性,也要保證分辨率,保持高頻細節信息。我們對于經典的BiSeNet方法做出了進一步改進,提出了基于細節引導的高效語義分割方法。
具體的做法如網絡結構所示,左邊淺藍色部分是網絡的推理框架,沿用了BiSeNet Context分支的設計,Context分支的主干選用了我們自研的主干STDCNet。與BiSeNet不同的是,我們對Stage3進行一個細節引導的訓練, 如右邊的淺綠色部分所示,引導Stage3學習細節特征;淺綠色部分只參與訓練,不參與模型推理,因此不會造成額外的時間消耗。首先對于分割的Ground Truth,我們通過不同步長的Laplacian卷積,獲取一個富集圖像邊緣和角點信息的細節真值;之后通過細節真值和設計的細節Loss來引導Stage3的淺層特征學習細節特征;
由于圖像的細節真值前后背景分布嚴重不均衡,因此我們采用的是DICE loss和BCE loss聯合訓練的方式;為了驗證細節引導的有效性,我們做了這個實驗,從特征可視化的結果中可以看出我們多尺度獲取的的細節真值對網絡進行細節引導能獲得最好的結果,細節信息引導對模型的性能也有提升。
效果方面,通過對比可以看出我們的方法,對于分割細節的高頻信息保持具有優勢。
03
總? 結? 展? 望
最后簡單總結展望。
本次主要分享了美團在視頻標簽、視頻方面與剪輯、視頻細粒度像素級編,通過與業務場景的結合期望為商家和用戶提供更加智能的信息展示和獲取方式。
展望未來,短視頻在美團豐富的業務場景,包括本地生活服務、零售電商,都會發揮更大的潛在價值。
在視頻理解技術方面,多模態自監督訓練,對于緩解標注數據依賴,提升模型在復雜業務場景的泛化性能方面非常有價值,我們也在做一些嘗試。
以上就是我本次分享的全部內容,謝謝!
掃描圖中二維碼或點擊閱讀原文
了解大會更多信息
喜歡我們的內容就點個“在看”吧!
總結
以上是生活随笔為你收集整理的短视频内容理解与生成技术在美团的创新实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mimir:通过AI向所有人提供视频服务
- 下一篇: 什么是HLS(HTTP Live Str