【深度学习】2021 最新视频防抖论文+开源代码汇总
大家好,今天給大家分享,今年三篇關(guān)于視頻防抖的文章,這三篇文章分布采用了不同的方法來解決視頻抖動的問題。
1、基于深度的三維視頻穩(wěn)定學(xué)習(xí)方法Deep3D穩(wěn)定器
2、融合運(yùn)動傳感器數(shù)據(jù)和光流,實(shí)現(xiàn)在線視頻穩(wěn)定
3、融合視頻中多個相鄰幀的信息,來呈現(xiàn)無需裁剪的完整穩(wěn)定視頻
3D Video Stabilization with Depth Estimation by CNN-based Optimization (CVPR 2021)
論文:https://drive.google.com/file/d/1vTalKtMz2VEowUg0Cb7nW3pzQhUWDCLA/view?usp=sharing
項目:https://yaochih.github.io/deep3d-stabilizer.io/
視頻效果
摘要:
基于CNN優(yōu)化的深度估計三維視頻穩(wěn)定我們提出了一種新的基于深度的三維視頻穩(wěn)定學(xué)習(xí)方法Deep3D穩(wěn)定器。我們的方法不需要預(yù)訓(xùn)練數(shù)據(jù),而是直接通過三維重建來穩(wěn)定輸入視頻。校正階段結(jié)合三維場景深度和攝像機(jī)運(yùn)動,平滑攝像機(jī)軌跡,合成穩(wěn)定的視頻。與大多數(shù)基于學(xué)習(xí)的方法不同,我們的平滑算法允許用戶有效地操縱視頻的穩(wěn)定性。
主要貢獻(xiàn)包括:
我們介紹了第一種基于3D的深層CNN視頻穩(wěn)定方法,無需訓(xùn)練數(shù)據(jù)。
我們的方法可以利用3D運(yùn)動模型更恰當(dāng)?shù)靥幚硪暡钚?yīng)。
我們的穩(wěn)定解決方案允許用戶實(shí)時操縱視頻的穩(wěn)定性(34.5 fps)。
框架圖:
推薦方法的pipeline:pipeline由兩個階段組成。首先,三維幾何優(yōu)化階段通過測試時訓(xùn)練,分別用PoseNet和DepthNet估計輸入RGB序列的三維攝像機(jī)軌跡和稠密場景深度。優(yōu)化階段以輸入序列和相應(yīng)的光流作為學(xué)習(xí)3D場景的引導(dǎo)信號。其次,視頻幀校正階段以估計的攝像機(jī)軌跡和場景深度作為輸入,在平滑后的軌跡上進(jìn)行視點(diǎn)合成。平滑過程使用戶可以通過操縱平滑濾波器的參數(shù)來獲得不同程度的穩(wěn)定度,然后對得到的視頻進(jìn)行包裝和裁剪,得到穩(wěn)定的視頻。
Deep Online Fused Video Stabilization
論文:https://arxiv.org/pdf/2102.01279.pdf
項目:https://zhmeishi.github.io/dvs/
摘要:
提出了一種利用傳感器數(shù)據(jù)(陀螺儀)和圖像內(nèi)容(光流)通過無監(jiān)督學(xué)習(xí)來穩(wěn)定視頻的深度神經(jīng)網(wǎng)絡(luò)(DNN)。該網(wǎng)絡(luò)將光流與真實(shí)/虛擬攝像機(jī)姿態(tài)歷史融合成關(guān)節(jié)運(yùn)動表示。接下來,LSTM塊推斷出新的虛擬相機(jī)姿勢,并使用該虛擬姿勢生成一個扭曲網(wǎng)格,以穩(wěn)定幀。提出了一種新的相對運(yùn)動表示方法和多階段的訓(xùn)練過程來優(yōu)化模型。據(jù)我們所知,這是第一個DNN解決方案,采用傳感器數(shù)據(jù)和圖像穩(wěn)定。我們通過燒蝕研究驗證了所提出的框架,并通過定量評估和用戶研究證明了所提出的方法優(yōu)于現(xiàn)有的替代解決方案。
本文的貢獻(xiàn)如下:
第一個基于DNN的框架,融合運(yùn)動傳感器數(shù)據(jù)和光流,實(shí)現(xiàn)在線視頻穩(wěn)定。
具有多階段訓(xùn)練和相對運(yùn)動表示的無監(jiān)督學(xué)習(xí)過程。
基準(zhǔn)數(shù)據(jù)集,包含陀螺儀和OIS傳感器數(shù)據(jù)的視頻,涵蓋各種場景。數(shù)據(jù)集和代碼都將公開發(fā)布。
框架圖:
deep-FVS概述。在給定輸入視頻的情況下,我們首先去除了OIS轉(zhuǎn)換,提取原始光流。我們還從陀螺儀獲得真實(shí)的相機(jī)姿態(tài),并將其轉(zhuǎn)換為相對四元數(shù)。一個二維卷積編碼器將光流嵌入到一個潛在的表示,然后將其與真實(shí)和虛擬攝像機(jī)的姿態(tài)連接起來。該關(guān)節(jié)運(yùn)動表示被饋送到LSTM單元和FC層,以預(yù)測新的虛擬相機(jī)姿態(tài)為四元數(shù)。最后,基于OIS和虛擬攝像機(jī)姿態(tài)對輸入幀進(jìn)行扭曲,生成穩(wěn)定幀
Hybrid Neural Fusion for Full-frame Video Stabilization
論文:https://arxiv.org/pdf/2102.06205.pdf
項目:https://github.com/alex04072000/FuSta
之前分享過,感興趣的可以點(diǎn)擊下面的鏈接查看
AI防抖,穩(wěn)如老狗?臺灣大學(xué)和谷歌提出NeRViS:無需裁剪的全幀視頻穩(wěn)定算法
該方法的核心思想,是融合視頻中多個相鄰幀的信息,來呈現(xiàn)無需裁剪的完整穩(wěn)定視頻。
具體而言,對于輸入視頻,首先對每一幀圖像特征進(jìn)行編碼,并在目標(biāo)時間戳處將相鄰幀翹曲至虛擬相機(jī)空間。
這里面主要用到了目標(biāo)幀到關(guān)鍵幀的翹曲場,以及從關(guān)鍵幀到相鄰幀的估計光流兩個信息,這樣,就可以通過鏈接流向量,計算目標(biāo)幀到相鄰幀的翹曲場。
然后,融合這些特征。
傳統(tǒng)的全景圖像拼接算法通常是在圖像級別進(jìn)行融合。這樣做的缺點(diǎn)在于,如果估計光流不可靠,就會產(chǎn)生偽影。
而將圖像編碼為CNN特征,再在特征空間中進(jìn)行融合的方法更具魯棒性,但又往往會產(chǎn)生過于模糊的圖像(如下圖b)。
于是,研究人員提出結(jié)合兩種策略的優(yōu)點(diǎn):首先將圖像編碼為CNN特征,然后從多個幀中融合翹曲特征。
對于每個源幀,研究人員將融合特征圖和各個翹曲特征一起,解碼成輸出幀和相關(guān)的置信度圖。
最后,通過使用生成圖像的加權(quán)平均,來產(chǎn)生最終的輸出幀。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】2021 最新视频防抖论文+开源代码汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯视频APP如何提交反馈
- 下一篇: Win7系统电脑休眠后无法唤醒的解决方法