CVPR 2019 | 旷视研究院提出TACNet,刷新时空动作检测技术新高度
全球計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議之一 CVPR 2019 將于當(dāng)?shù)貢r(shí)間 6 月 16-20 日在美國(guó)洛杉磯舉辦。屆時(shí),曠視研究院將帶領(lǐng)團(tuán)隊(duì)遠(yuǎn)赴盛會(huì),助力計(jì)算機(jī)視覺(jué)技術(shù)的交流與落地。在此之前,曠視每周會(huì)介紹一篇被 CVPR 2019 接收的論文,本文是第 11 篇,曠視研究院(R4D組)出一個(gè)過(guò)渡感知的上下文網(wǎng)絡(luò)——TACNet,可以顯著提升時(shí)空動(dòng)作檢測(cè)的性能。
論文名稱:TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection
論文鏈接:https://arxiv.org/abs/1905.13417
導(dǎo)語(yǔ)
簡(jiǎn)介
模型
框架
時(shí)序上下文檢測(cè)器
過(guò)渡感知分類器
實(shí)驗(yàn)
與當(dāng)前最佳的對(duì)比
結(jié)論
參考文獻(xiàn)
往期解讀
?
導(dǎo)語(yǔ)
?
在時(shí)空動(dòng)作檢測(cè)(spatio-temporal action detection)領(lǐng)域,當(dāng)前最佳方法效果優(yōu)秀,但是在一些方面,比如時(shí)序事件檢測(cè),依然無(wú)法令人滿意。原因在于,一些模糊不清的、和真實(shí)動(dòng)作很相似的動(dòng)作被當(dāng)作目標(biāo)動(dòng)作來(lái)處理,即使訓(xùn)練良好的網(wǎng)絡(luò)也概莫能外。
?
曠視研究員把這些模糊不清的樣本稱之為“過(guò)渡性狀態(tài)”,并提出一個(gè)過(guò)渡感知的上下文網(wǎng)絡(luò)——TACNet,來(lái)辨識(shí)這些過(guò)渡狀態(tài)。TACNet 包含兩個(gè)關(guān)鍵組件:時(shí)序上下文檢測(cè)器和過(guò)渡感知分類器。前者通過(guò)構(gòu)建一個(gè)循環(huán)檢測(cè)器,可以從連續(xù)的時(shí)間復(fù)雜度中提取長(zhǎng)期的上下文信息;后者則通過(guò)同時(shí)分類動(dòng)作和過(guò)渡性狀態(tài)以進(jìn)一步區(qū)分過(guò)渡性狀態(tài)。
?
因此,TACNet 可以顯著提升時(shí)空動(dòng)作檢測(cè)的性能。大量實(shí)驗(yàn)也在 UCF101-24 和 J-HMDB 數(shù)據(jù)集上證明 TACNet 有效,它不僅在剪輯的 J-HMDB 數(shù)據(jù)集上取得有競(jìng)爭(zhēng)力的結(jié)果,還在未剪輯的 UCF101-24 數(shù)據(jù)集上 frame-mAP 和 video-mAP 兩個(gè)指標(biāo)方面大幅超越當(dāng)前最佳方法。
簡(jiǎn)介
動(dòng)作檢測(cè)任務(wù)旨在同時(shí)分類視頻中當(dāng)前的動(dòng)作并對(duì)其進(jìn)行時(shí)空定位,近期由于其廣泛的應(yīng)用場(chǎng)景,受到了越來(lái)越多研究者的重視,并成長(zhǎng)為異常檢測(cè)、人機(jī)交互、城市管理等領(lǐng)域的關(guān)鍵技術(shù)。
?
當(dāng)前,絕大多數(shù)動(dòng)作檢測(cè)方法把時(shí)空檢測(cè)分為兩個(gè)階段,即空間檢測(cè)和時(shí)序檢測(cè)。這些方法首先借助深度檢測(cè)器從幀中做空間動(dòng)作檢測(cè);接著,通過(guò)連接幀層面的檢測(cè)以及運(yùn)用一些目標(biāo)函數(shù),執(zhí)行時(shí)序檢測(cè)以創(chuàng)造時(shí)空行為塊。
?
這些方法把視頻幀看作是一個(gè)個(gè)獨(dú)立圖像,從而無(wú)法利用視頻的時(shí)間連續(xù)性,因此其檢測(cè)結(jié)果實(shí)際上無(wú)法令人滿意。
?
為此,一種稱之為 ACT 的方法則通過(guò)堆棧策略撿起短期的時(shí)間連續(xù)性,顯著提升時(shí)空動(dòng)作檢測(cè)的性能。但是,ACT 依然無(wú)法提取對(duì)于動(dòng)作檢測(cè)而言異常關(guān)鍵的長(zhǎng)期的時(shí)序上下文信息。進(jìn)而,由于動(dòng)作檢測(cè)的兩個(gè)階段相互分離,ACT 無(wú)法徹底糾正由含糊的樣本所造成的時(shí)間誤差,如圖 1 紅框所示。
▲?圖1:過(guò)渡性狀態(tài)圖示
本文把含糊的樣本定義為“過(guò)渡性狀態(tài)”,它與動(dòng)作持續(xù)時(shí)間很接近,但并不屬于動(dòng)作的范疇。根據(jù) ACT 檢測(cè)器的誤差分析,35%-40% 的誤差是時(shí)間誤差,它主要由過(guò)渡性狀態(tài)造成。因此,如果要進(jìn)一步提升時(shí)空動(dòng)作檢測(cè)的性能,提取長(zhǎng)期的語(yǔ)境信息并區(qū)分過(guò)渡性狀態(tài)就變得十分關(guān)鍵。
?
上述發(fā)現(xiàn)開(kāi)啟了本文工作。具體而言,曠視研究員提出一個(gè)過(guò)渡感知上下文網(wǎng)絡(luò)——TACNet,它包含兩個(gè)核心組件,即時(shí)序語(yǔ)境檢測(cè)器和過(guò)渡感知分類器,前者的設(shè)計(jì)是基于標(biāo)準(zhǔn)的 SSD 框架,但是通過(guò)嵌入若干個(gè)多尺度的雙向 Conv-LSTM 單元可以編碼長(zhǎng)期的語(yǔ)境信息(據(jù)知,把 Conv-LSTM 和 SSD 相結(jié)合,以打造一個(gè)用于動(dòng)作檢測(cè)的訓(xùn)練檢測(cè)器,這是第一次);后者則通過(guò)同時(shí)分類動(dòng)作和動(dòng)作狀態(tài),以區(qū)分過(guò)渡性狀態(tài)。
?
更為重要的是,曠視研究院進(jìn)一步提出一個(gè)共模和差模網(wǎng)絡(luò)加速 TACNet 的收斂,從而使 TACNet 不僅可以提取長(zhǎng)期的時(shí)序上下文信息,還能區(qū)分過(guò)渡性狀態(tài)。在UCF101-24 和 J-HMDB 兩個(gè)數(shù)據(jù)集上,TACNet在幀和視頻兩項(xiàng)指標(biāo)上均取得了引人注目的提升。
TACNet 框架
▲?圖2:TACNet整體架構(gòu)
?
如圖 2 所示,TACNet 包含兩個(gè)模塊,雙流的時(shí)序上下文檢測(cè)和過(guò)渡感知的分類和回歸。在時(shí)序語(yǔ)境檢測(cè)器方面,曠視研究員使用雙流 SSD 做動(dòng)作檢測(cè),正如 ACT 檢測(cè)器那樣。盡管如此,為提取長(zhǎng)期的時(shí)序語(yǔ)境信息,曠視研究員還嵌入若干個(gè)雙向 Conv-LSTM 單元到不同的特征圖(不同尺寸)。
?
在過(guò)渡感知分類器方面,為區(qū)分過(guò)渡性狀態(tài),曠視研究員設(shè)計(jì)兩個(gè)分類器以同時(shí)分類動(dòng)作和動(dòng)作狀態(tài),并進(jìn)一步提出一個(gè)共模和差模的網(wǎng)絡(luò)方案,加速 TACNet 整體的收斂。
?
通過(guò)與回歸相結(jié)合,過(guò)渡感知分類器可從空間上檢測(cè)動(dòng)作,同時(shí)從時(shí)間上預(yù)測(cè)時(shí)序邊界。需要注意的是,本文基于的則是標(biāo)準(zhǔn)的 SSD,但實(shí)際可在不同的檢測(cè)器基礎(chǔ)上進(jìn)行設(shè)計(jì)。
時(shí)序上下文檢測(cè)器
長(zhǎng)期的時(shí)序上下文信息對(duì)時(shí)空動(dòng)作檢測(cè)來(lái)說(shuō)至關(guān)重要。然而,標(biāo)準(zhǔn) SSD 是從不同大小的多個(gè)特征圖中執(zhí)行動(dòng)作檢測(cè)的,它并不考慮時(shí)序語(yǔ)境信息。為提取時(shí)序語(yǔ)境,曠視研究員在 SSD 中嵌入 Bi-ConvLSTM 單元,以設(shè)計(jì)一個(gè)檢測(cè)動(dòng)作的循環(huán)檢測(cè)器。
?
作為 LSTM 的一種,ConvLSTM 可以編碼長(zhǎng)期的信息,并更適宜處理視頻這樣的數(shù)據(jù),因?yàn)?ConvLSTM 單元可以用卷積操作替代 LSTM 單元中全連接的相乘操作,從而能隨著時(shí)間保持幀的空間結(jié)構(gòu)。因此,在本文框架中使用 ConvLSTM 單元提取長(zhǎng)期時(shí)序信息是可行的。
?
具體而言,曠視研究員在 SSD 每?jī)蓚€(gè)相鄰層之間嵌入一個(gè) Bi-ConvLSTM 單元,形成一個(gè)時(shí)序語(yǔ)境檢測(cè)器,如圖 2 所示。本文考慮了前向與反向兩個(gè)輸入序列,并為此采用一對(duì)時(shí)序?qū)ΨQ ConvLSTM;接著,曠視研究員借助這一 Bi-ConvLSTM 從每一個(gè)視頻幀獲取兩類特征,這些特征被 1 × 1 卷積層連接和轉(zhuǎn)換,以消除多余的通道。
?
通過(guò)這種方法,時(shí)序上下文檢測(cè)器可以利用 SSD 的優(yōu)勢(shì),并提取長(zhǎng)期時(shí)序語(yǔ)境信息。
過(guò)渡感知分類器
過(guò)渡性狀態(tài)中的實(shí)例與目標(biāo)動(dòng)作具有相似性,因此檢測(cè)較容易發(fā)生混淆。大多數(shù)現(xiàn)有方法將其作為背景,并依賴后處理算法剪裁它們。然而,由于這些狀態(tài)與背景非常不同(比如場(chǎng)景和其他目標(biāo)),將其看作背景會(huì)加大類內(nèi)差異,降低檢測(cè)性能。在本文中,曠視研究院提出一個(gè)過(guò)渡感知的分類器,以同時(shí)進(jìn)行動(dòng)作分類和過(guò)渡狀態(tài)分類,具體細(xì)節(jié)如圖 3 所示:
▲?圖3:過(guò)渡感知分類器圖示
實(shí)驗(yàn)
與當(dāng)前最佳的對(duì)比?
在 frame-mAP 和 video-mAP 兩個(gè)指標(biāo)上,本文把 TACNet 與當(dāng)前最優(yōu)方法在數(shù)據(jù)集 J-HMDB 和 UCF101-24 上做了對(duì)比,結(jié)果如表 3 所示。由表可知,在時(shí)序未經(jīng)修剪的 UCF101-24 數(shù)據(jù)集上,TACNet 在兩個(gè)指標(biāo)上均超越了先前同類方法。
▲?表3:在J-HMDB和UCF101上,TACNet與當(dāng)前最佳方法的結(jié)果對(duì)比
?
結(jié)論
?
本文旨在推進(jìn)動(dòng)作檢測(cè)的性能。具體而言,曠視研究員發(fā)現(xiàn),提取長(zhǎng)期的時(shí)序上下文分析并區(qū)分過(guò)渡性狀態(tài)十分關(guān)鍵。由此,曠視研究院提出 TACNet,它包含一個(gè)時(shí)序上下文檢測(cè)器和一個(gè)過(guò)渡感知分類器。?
由大量的實(shí)驗(yàn)結(jié)果可知,TACNet 異常奏效,并在有挑戰(zhàn)性的、未剪輯的數(shù)據(jù)集上刷新了當(dāng)前最佳結(jié)果,這主要得益于 TACNet 使用的時(shí)序檢測(cè)和過(guò)渡感知方法。?
未來(lái),曠視研究院將從行為者與其周遭的人物(或物體)的關(guān)系著手,持續(xù)探索,進(jìn)一步提升時(shí)序檢測(cè)的能力。
?
傳送門
?
歡迎各位同學(xué)關(guān)注曠視研究院 Detection 組及知乎專欄:
http://zhuanlan.zhihu.com/c_1065911842173468672
簡(jiǎn)歷可以投遞給 Detection 組負(fù)責(zé)人俞剛:
yugang@megvii.com
?
參考文獻(xiàn)?
[1]?V. Kalogeiton, P. Weinzaepfel, V. Ferrari, and C. Schmid. Action tubelet detector for spatio-temporal action localization. In ICCV, 2017.?
[2] Z. Li, K. Gavrilyuk, E. Gavves, M. Jain, and C. G. Snoek. Videolstm convolves, attends and flows for action recognition. Computer Vision and Image Understanding, 166:41– 50, 2018.
[3] X. Peng and C. Schmid. Multi-region two-stream r-cnn for action detection. In ECCV, pages 744–759, 2016.
[4] G. Singh, S. Saha, M. Sapienza, P. Torr, and F. Cuzzolin. Online real-time multiple spatiotemporal action localisation and prediction. In CVPR, pages 3637–3646, 2017.?
[5] G. Yu and J. Yuan. Fast action proposals for human action detection and search. In CVPR, pages 1302–1311, 2015.?
[6] K. Soomro, A. R. Zamir, and M. Shah. Ucf101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402, 2012.?
[7] H. Jhuang, J. Gall, S. Zuffi, C. Schmid, and M. J. Black. Towards understanding action recognition. In ICCV, pages 3192–3199, 2013.
往期解讀:
CVPR 2019 | 曠視提出GIF2Video:首個(gè)深度學(xué)習(xí)GIF質(zhì)量提升方法
CVPR 2019 | 曠視Oral論文提出GeoNet:基于測(cè)地距離的點(diǎn)云分析深度網(wǎng)絡(luò)
CVPR 2019 | 曠視提出超分辨率新方法Meta-SR:單一模型實(shí)現(xiàn)任意縮放因子
CVPR 2019 | 曠視實(shí)時(shí)語(yǔ)義分割技術(shù)DFANet:高清虛化無(wú)需雙攝
CVPR 2019 | 曠視研究院提出ML-GCN:基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽圖像識(shí)別模型
CVPR 2019 | 曠視研究院提出新型損失函數(shù):改善邊界框模糊問(wèn)題
CVPR 2019 | 曠視研究院提出Geo-CNN:建模3D點(diǎn)云的局部幾何結(jié)構(gòu)
CVPR 2019 | 曠視研究院提出DeepLiDAR:通過(guò)曲面法線實(shí)現(xiàn)稠密深度預(yù)測(cè)
CVPR 2019 | 曠視研究院提出極輕量級(jí)年齡估計(jì)模型C3AE
CVPR 2019 | 曠視研究院提出用于全景分割的端到端閉環(huán)網(wǎng)絡(luò)OANet
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 | 無(wú)監(jiān)督領(lǐng)域特定單圖像去模糊
論文盤點(diǎn):CVPR 2019 - 文本檢測(cè)專題
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)(Few-shot Learning)綜述
萬(wàn)字綜述之生成對(duì)抗網(wǎng)絡(luò)(GAN)
可逆ResNet:極致的暴力美學(xué)
CVPR 2019 | 基于池化技術(shù)的顯著性目標(biāo)檢測(cè)
CVPR 2019 | 天秤座R-CNN:全面平衡目標(biāo)檢測(cè)器
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出TACNet,刷新时空动作检测技术新高度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: NAACL 2019最佳论文:量子概率驱
- 下一篇: 线性Frequency Principl