當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 | 通过多标签相关性研究提升神经网络视频分类能力

發布時間：2024/10/8 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2019 | 通过多标签相关性研究提升神经网络视频分类能力小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨王磊

單位丨汽車之家視頻理解工程師

研究方向丨深度學習、計算機視覺

本文介紹了汽車之家團隊 ICCV 2019 一篇關于視頻理解論文相關的工作。針對視頻多標簽分類的問題，論文提出了將視頻多標簽之間相關性特征加入到網絡之中，結果證明該方法可以顯著的提高視頻多標簽分類效果。本文作者為該論文原作者。

背景介紹

隨著短視頻應用的不斷普及，基于視頻內容的理解與分析也成為計算機視覺領域一個熱門的方向。2017 年，Google 開源了其大規模視頻內容數據集 Youtube-8M，鼓勵研究者利用深度學習技術對視頻內容進行理解分析。

最新的 Youtube-8M 數據集包括兩部分，第一部分為 video-level（視頻層級）的標注，該部分總計包含 610 萬個已標注的視頻，3862 個分類，平均每個視頻標注了 3 個標簽；第二部分為 segment-level（視頻片段標注），該部分挑選了 1000 個分類，對視頻中隨機抽取的 5 秒片段進行標注，該部分總共有 23.7 萬個標注數據；值得注意的是，segment-level 的數據標注僅標注了抽取的 5 秒視頻片段是否屬于某一特定標簽，并沒有標識該視頻片段的所有標簽。

標簽相關性

近年來，視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內容，視頻內容更為復雜多樣，因此對于視頻內容而言，單個標簽很難完整的表征視頻的內容，對于視頻內容理解分析大多為多標簽的分類問題。

在視頻的多標簽中，標簽之間會有一定的相關性并成對出現；如圖一所示（標簽從 Youtube8M 數據集中選取），當寶馬（BMW）、發動機（Engine）的標簽出現時，汽車（Car）的標簽大概率也會出現；但是當汽車的標簽出現時，寶馬標簽出現的可能性則非常低。

▲?圖1. 標簽有向圖示例

通過對 Youtube8M 數據集的部分標簽數據進行分析，可以得到一個圖來表征各個標簽之間的關系，如圖二所示。

▲?圖2.?標簽相關性Weighted-Graph表示

圖二中每個不同顏色的節點代表一個獨立的標簽類別，不同節點之間的連線代表著兩個節點之間是否有相關性，節點之間連線上的數值則代表了不同的標簽之間聯系的緊密程度，數值越大，則聯系越高；沒有聯系的節點之間則不會有線連接。通過對視頻的多標簽之間的相關性進行建模分析，并通過圖神經網絡將標簽類別映射為對應類別分類器加入到最終的視頻多標簽分類網絡之中，可以提升整體模型的學習分類能力。

圖卷積神經網絡

如何有效獲取目標標簽之間的相關性？如何利用這些標簽相關性提升網絡的特征學習以及分類表現？這是視頻多標簽分類的兩個重要問題。由于圖的特點可以很好的表征各個標簽之間的相互依賴性，因此我們選擇基于圖神經網絡進行建模學習，并用于最終視頻分類網絡中。一個圖神經網絡的基本結構如圖三所示：

▲?圖3.?圖卷積網絡示例

Input輸入有兩個，一個為特征描述矩陣 H(n*d)，另一個為相關系數矩陣 A(n*n)，其中 n 為節點個數，即數據集標簽的個數，d 為特征的維度，特征維度由根據采用的 CNN 結構決定。?

相關系數矩陣是 GCN 網絡中表征標簽關系的一個矩陣，因此如何構建相關系數矩陣 A 就成了 GCN 模型中一個非常重要的問題。由于 Youtube8M 數據集有超過 600 萬的 video-level 的視頻標注數據，因此我們可以通過挖掘標簽在數據集中的共現情況來初始化相關系數矩陣 A。?

如下公式所示，為標簽 i 在數據中出現的次數，為標簽 i 和標簽 j 兩個標簽一起出現的概率，兩者相除便可以得到不同標簽之間的條件概率。

考慮到標注數據中可能存在不準確的情況以及標簽在訓練和測試集中共現的次數可能會相差比較大，因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對于上面得到的矩陣 P，只有其值大于某特定值（論文中為 0.5）的時候才會考慮，否則矩陣中這兩個標簽的相關度會設置為 0：

Hidden Layer 用來學習節點之間的相關信息并更新節點表示，每一個 Hidden Layer 都可以用一個非線性函數表示：

Hidden Layer 可以有多層，堆疊多個 GCN 層來對節點之間交織的復雜關系進行建模。在本論文中 Hidden Layer 為兩層，通過訓練學習便可以得到優化后的表征標簽相關性的矩陣 Output，并用于幫助視頻標簽分類。

整體網絡

最終的完整網絡結構如圖四所示，我們使用 InceptionV3 來提取輸入視頻的特征；NeXtVLAD 網絡是第二屆 Youtube8M 比賽單模型冠軍網絡，該網絡可以很好的視頻的多維度特征進行聚合，并且在降低特征維度的同時還能很好的保證模型性能；在網絡的下半部分，我們用一個雙層的 GCN 網絡來幫助進行最后的視頻標簽分類。

▲?圖4.?視頻多標簽分類網絡

最終的對比實驗中，加入 GCN 后的視頻多標簽分類網絡 MAP (Mean-Average-Precision) 提高了接近一個百分點，GCN 網絡的加入顯著性顯著的提高了視頻多標簽的分類能力；也證明了對于多標簽分類任務，通過研究多標簽之間的相關依賴關系提升網絡分類能力是一個很好的方向。

結論

視頻理解與分析是計算機視覺領域的一個熱門問題，針對視頻的特征提取以及特征聚合全世界的研究已經做了大量的工作。本文提出了從多標簽相關性的視角來提升視頻的多標簽分類能力，并進行了有效的實驗驗證。通過對視頻的圖像特征、時序特征、標簽相關性特征進行融合的分類網絡可以很好的增強神經網絡的視頻理解能力。

點擊以下標題查看更多往期內容：?

ICCV 2019 | 沉迷AI換臉？不如來試試“AI換衣”
ICCV 2019?| 單幅圖像下實現任意尺度自然變換
ICCV 2019?| 打造炫酷動態的藝術字
ICCV 2019 | 基于關聯語義注意力模型的圖像修復
ICCV 2019 | 基于元學習和AutoML的模型壓縮
ICCV 2019?| 適用于視頻分割的全新Attention機制

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

???? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的ICCV 2019 | 通过多标签相关性研究提升神经网络视频分类能力的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：夏天用保鲜柜卖肉怎么样
下一篇： Russell大师课+大厂专家倾授+5小