树状图栏目切换_AAAI 2020 | 中山大学HCP实验室:基于树状结构策略的渐进强化学习,代码已开源...
作者 | 吳捷
編輯 | Camel
本文對中山大學、北京航空航天大學、DMAI合作完成,被AAAI2020錄用的一篇關于多模態視頻理解的論文《Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video》進行了解讀。
論文鏈接:http://colalab.org/media/paper/AAAI2020-Tree-Structured.pdf
代碼鏈接: https://github.com/WuJie1010/TSP-PRL
論文動機
Temporally Language Grounding in Video (自然語言描述的視頻片段定位)是視頻理解中一項新的具有挑戰性的任務,其目標是確定視頻中與給定句子描述相對應視頻片段的時間邊界。該任務需要對語言和視頻等模態進行融合理解,并且建模語言和視覺模態之間的聯合語義關系。現有的方法大多效率低下且靈活性不高,依賴于稠密的滑動窗口,需要對許多交叉的滑動窗口進行匹配或者窮舉搜索;另一方面,現有方法缺乏可解釋性,偏離了人的推理機制。
當人們在視頻中定位描述時,通常假設一個初始的視頻片段邊界,比較和分析句子描述和邊界內視頻片段之間的語義差異。然后逐步執行一系列連續動作,如縮放或移動來調節邊界。深入研究人類的思維范式,人們通常會進行出一個從粗到細的思考過程,從而做出一個更為合理和可解釋的決定。這種自上而下的由粗到細的推理模式已經在機器翻譯、文本摘要等任務中得到了探索。
圖1:TSP-PRL將該任務制定成一個由粗到細的迭代優化過程。
基于此,我們提出了一種新的基于樹結構策略的漸進強化學習(TSP-PRL)框架,采用迭代優化過程來對邊界進行順序調節。該框架可以有效地分解復雜的行動策略,在增加搜索空間的同時減少搜索步驟的數量,以更合理的方式獲得更佳的結果。
論文方法
樹結構策略
在本論文中,我們將該任務制定為一個馬爾可夫決策過程,它被表示為狀態s∈S, 動作元組 和轉移函數 。TSP-PRL中的樹結構策略由根策略和葉策略組成, 和 分別表示根策略和葉策略的動作選擇。TSP-PRL根據智能體移動距離和方向將所有原始動作分為與語義概念相關的五類:尺度變化、顯著左移、顯著右移、輕微左調整和輕微右調整。
這些語義概念被明確地表示為樹形結構根策略的分支,根策略首先粗略地估計了能夠最大程度減少語義差距的分支,接著葉策略基于所選分支推理一個更加細化的動作,從而調整邊界。模型代理反復調用樹結構策略,以獲得一系列連續的原子動作,從而消除語義間隙,逐步獲得準確的時間邊界。
圖2:TSP-PRL框架的流程圖。
根策略旨在學習在以下不同情況下從調用正確的葉策略:
1)當預測邊界的尺度與正確邊界的尺度不匹配時,應選擇尺度變換策略;
2)當預測邊界遠離正確邊界時,智能體應執行顯著左移或顯著右移策略;
3)當預測邊界于正確邊界有一定的交集但有些偏差時,智能體應執行輕微左調整和輕微右調整策略。
在每個時間步驟中,樹結構策略首先從根策略 中采樣 ,接著從與所選語義分支相關的葉策略πlπl中采樣送入環境的動作: 。
漸進強化學習策略
樹結構策略通過漸進強化學習進行優化。漸進強化學習任務導向的獎勵設置需要能夠提供正確的信用分配,并逐步地優化根策略和葉策略,鼓勵智能體采取較少的步驟以獲得準確的定位結果。我們定義了兩個面向任務的獎勵函數,第一個獎勵為是葉獎勵 ,它反映了動作 對當前環境的影響。它可以通過時間IoU,即 的變化情況直接在環境中獲得:
第二個獎勵是根獎勵 ,由于根策略執行的操作不直接與環境交互,為了提供全面和正確的信貸分配, 被定義為包括兩個獎賞項:1)內在獎勵項反映了 對語義分支選擇的選擇好壞;2)外部獎勵項反映了所選分支執行的后續動作對環境的影響。為了估計根策略選擇高級語義分支的能力,該模型遍歷所有可能的分支,從而產生五種不同的IoU。這五個IoU中的最大IoU被定義為 。接著根獎勵 設計如下:
圖3:樹結構策略的迭代優化流程。
同時優化根,葉策略會導致訓練過程的不穩定。為了避免這種情況,我們設計了一個漸進強化學習優化過程:對于每一組 迭代,保持一個策略固定,只訓練另一個策略。當達到 迭代時,它會切換訓練的策略。基于樹形結構策略的漸進強化學習可概括為:
其中, 是指示選擇訓練策略的二元變量。 表示整個培訓過程中的迭代次數。 是除法運算的下界整數, 是模函數。 和 分別代表根葉策略的損失函數。這兩種策略在訓練過程中相互促進,葉策略為根策略提供準確的內在獎勵,而根策略選擇合適的高層語義分支來進一步細化葉策略。這種漸進式優化確保了智能體在強化學習的設置中獲得穩定和卓越的性能。
實驗結果
樹結構策略的有效性
為了驗證樹結構策略的重要性,我們設計了一個扁平策略,表示為``Ours w/o TSP-10'‘,它是在TSP-PRL上刪除了樹結構策略,將狀態特征直接映射到一個原始動作中。實驗結果表明隨著探索步數的減少,它的性能會顯著下降,這表明扁平策略在很大程度上依賴于步數以獲得更好的結果。
然而,我們的方法能夠以較少的步驟獲得優異的性能。為了進一步探討樹型策略是否能更好地感知環境狀態和分解復雜的策略,我們總結了在每個時間步和IoU間隔選擇高層語義分支的比例。
我們可以觀察到,扁平策略總是傾向于選擇基于精細調整的分支,對時間步長和IoU不敏感。然而TSP-PRL在最初的幾個步驟中設法選擇基于顯著移動的分支,以更快地減少語義鴻溝。
當IoU增大或時間步長增大時,精細調整型分支逐漸占主導地位,對邊界進行精細調節。這個發現表明樹結構策略有助于有效地分解復雜的行動策略,以提高發現扁平策略無法學習的復雜策略的能力。
與最先進方法的對比
在Charades-STA, ActivityNet數據集的實驗結果證明,TSP-PRL在這兩個數據集上能達到了最先進的性能。
TSP-PRL與基于監督學習(SL)的方法相比,能夠獲得更靈活的邊界,避免搜索和窮舉滑動窗口。SL方法很容易受到過度擬合的困擾,并且像一個缺乏可解釋性的黑盒子一樣處理這個任務。
而TSP-PRL有助于實現更有效和更具啟發性的定位結果。消融實驗結果還表明,TSP-PRL可以(1)有效地提高發現扁平策略(非樹狀策略)無法學習的復雜政策的能力;(2)提供更合適的信貸分配,逐步優化樹形結構政策;(3)確定更準確的停止信號。
更多AAAI 2020信息,將在「AAAI 2020 交流群」中進行,加群方式:添加AI研習社頂會小助手(AIyanxishe2),備注「AAAI」,邀請入群。
AAAI 2020 論文集:AAAI 2020 論文解讀會 @ 望京(附PPT下載)
AAAI 2020 論文解讀系列:
01. [中科院自動化所] 通過識別和翻譯交互打造更優的語音翻譯模型
02. [中科院自動化所] 全新視角,探究「目標檢測」與「實例分割」的互惠關系
03. [北理工] 新角度看雙線性池化,冗余、突發性問題本質源于哪里?
04. [復旦大學] 利用場景圖針對圖像序列進行故事生成
05. [騰訊 AI Lab] 2100場王者榮耀,1v1勝率99.8%,騰訊絕悟 AI 技術解讀
06. [復旦大學] 多任務學習,如何設計一個更好的參數共享機制?
07. [清華大學] 話到嘴邊卻忘了?這個模型能幫你 | 多通道反向詞典模型
08. [北航等] DualVD:一種視覺對話新框架
09. [清華大學] 借助BabelNet構建多語言義原知識庫
10. [微軟亞研] 溝壑易填:端到端語音翻譯中預訓練和微調的銜接方法
11. [微軟亞研] 時間可以是二維的嗎?基于二維時間圖的視頻內容片段檢測
12. [清華大學] 用于少次關系學習的神經網絡雪球機制
13. [中科院自動化所] 通過解糾纏模型探測語義和語法的大腦表征機制
14. [中科院自動化所] 多模態基準指導的生成式多模態自動文摘
15. [南京大學] 利用多頭注意力機制生成多樣性翻譯
16. [UCSB 王威廉組] 零樣本學習,來擴充知識圖譜(視頻解讀)
17. [上海交大] 基于圖像查詢的視頻檢索,代碼已開源!
18. [奧盧大學] 基于 NAS 的 GCN 網絡設計(視頻解讀)
28. [中科院&云從科技]:雙視圖分類,利用多個弱標簽提高分類性能
總結
以上是生活随笔為你收集整理的树状图栏目切换_AAAI 2020 | 中山大学HCP实验室:基于树状结构策略的渐进强化学习,代码已开源...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dw上按钮事件 pb_「React TS
- 下一篇: vue读取终端硬件信息_[提示]在mac