2张图片就能“算出”一段视频 惊到网友
只給AI兩張圖片,就能得到高幀率動態(tài)視頻?
輸入的兩張圖像,重疊后是這樣的:
而算出來的視頻,是醬嬸的:
不錯,這又是視頻插幀算法的功勞。
極限操作玩得6,讓老電影變絲滑的常規(guī)手法,這個名叫RIFE的AI算法同樣信手拈來。
右邊這支經(jīng)典探戈,看上去是不是比左邊絲滑多了?
不僅是老電影,飛行表演的精彩瞬間,也能一口氣從每秒24幀提升到每秒96幀。
這項新研究,來自曠視和北大。不僅能讓老影像資料追上人民群眾對高幀率的需求,支持2X/4X/8X高質(zhì)量插值,它還有一個最大的特點:快。
量子位在Colab上用T4跑了一遍Demo,一個時長53秒的720p 25fps視頻,插值到100fps僅用了2分19秒。
該項目現(xiàn)已開源,并且有官方Demo、第三方Windows應(yīng)用可以試玩。
看過了RIFE的表現(xiàn),網(wǎng)友們不由驚嘆,這是要超越那只經(jīng)常在各種修復(fù)視頻里出現(xiàn)的插幀AI DAIN,引領(lǐng)一波新潮流的節(jié)奏啊?
一時之間,RIFE在Reddit上的熱度飆升到了2.8k。
那么,這樣的效果究竟是怎么實現(xiàn)的呢?
視頻插幀,通常是用光流預(yù)測算法來預(yù)測中間幀,并插入兩幀之間。光流,就像光的流動一樣,是一種通過顏色來表示圖像中目標(biāo)移動方向的方式。
△稀疏光流與稠密光流
傳統(tǒng)光流預(yù)測算法,通常根據(jù)前后兩幀視頻來預(yù)測中間的某一幀長啥樣。
將預(yù)測完成的圖像插進去后,視頻看起來就會變得更絲滑。
以DAIN的算法為例,如果要預(yù)測t時刻的幀,就需要t時刻的前后兩幀視頻,通過光流預(yù)測算法來實現(xiàn)。
△DAIN的算法圖
但是這一類的算法會產(chǎn)生一個缺點:在預(yù)測過程中,如果用前后兩幀圖像產(chǎn)生雙向光流,用線性組合來估計中間流,預(yù)測出來的結(jié)果,在運動邊界區(qū)域就會出現(xiàn)偽影。
這樣的偽影,使得重建中間幀圖像的效果不盡人意。
那么,如果換一種思路,直接先預(yù)測中間流呢?
相比于利用前一幀和后一幀進行兩次估計,這里的IFNET (a Specialized and Efficient Intermediate Flow Network)算法,將直接采用線性運動假設(shè),對中間幀進行一次估計。
效果也顯而易見,相比于利用前后兩幀的雙向估計所產(chǎn)生的光流,利用IFNET估計出的光流效果非常清晰,而且?guī)缀鯖]有偽影。
利用這種方式重建圖像,不僅光流邊緣看得清楚,而且速度也更快。
論文提到,RIFE是首個基于光流的實時視頻插幀方案。
由于中間幀預(yù)測,直接假設(shè)了前后兩幀的變換是線性的,相當(dāng)于每幀預(yù)測中直接少了一次估計。
那么,這個模型,究竟將插幀算法提升到了怎么樣的水平?
前文已經(jīng)提到,RIFE最亮眼的一點是快。
研究人員在UCF101、Vimeo90K、Middlebury OTHER set和HD benchmarks等基準(zhǔn)上,將RIFE與英偉達(dá)的SoftSplat、上交大的DAIN等「前輩」進行了對比。
用來測試運行時間的是一個640 x 480的視頻,使用的GPU型號是NVIDIA TITAN X(Pascal)。
從結(jié)果可以看出,在性能相當(dāng)?shù)那闆r下,RIFE基礎(chǔ)模型的運行速度超過了所有對比方法。
而模型的大版本RIFE-Large,在性能超越SOTA方法SoftSplat的情況下,運行速度快出了30%。
另外,研究人員基于Vimeo90K測試集,提供了可視化的對比結(jié)果。
可以看到綠框部分,SepConv-L1和DAIN產(chǎn)生了偽影,而CAIN鏟子部分則出現(xiàn)了缺失,相對而言,RIFE生成的結(jié)果更為可靠。
效果這么美麗的模型,應(yīng)該怎么使用?
目前作者們已經(jīng)給出了預(yù)訓(xùn)練模型的幾種用法,從GitHub項目中可以直接下載網(wǎng)盤版的壓縮包。
無論是用作者提供的demo、還是用你自己想要進行插幀的樣本,都可以上手試玩。
當(dāng)然,模型也有colab版本,可以直接在云服務(wù)器上玩模型。
而且,已經(jīng)有玩家做出了Windows版的軟件,可以直接下載下來使用。界面看起來還挺簡潔:
模型RIFE的出現(xiàn),已經(jīng)讓一些游戲愛好者狂熱了起來:
你們能想象嗎,就算是已經(jīng)吃灰很久的PS2,也可以達(dá)到4k游戲的水平效果了!利用這種算法,3步就能搞定!
不過,也有網(wǎng)友表示了對這種算法的擔(dān)憂。
雖然這種算法速度快、性能高,但實際上存在一個問題:
這種算法,本質(zhì)上無法聯(lián)想到丟失的幀間信息,所以無法用在安防視頻上。
對于這些方面的應(yīng)用,未來還需要進一步考慮。
總結(jié)
以上是生活随笔為你收集整理的2张图片就能“算出”一段视频 惊到网友的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大疆直呼内行!小米有品上架爆风主义智能互
- 下一篇: 领势Linksys MR7350 Wi-