从CVPR 2014看计算机视觉领域的最新热点
編者按:2014年度計算機(jī)視覺方向的頂級會議CVPR上月落下帷幕。在這次大會中,微軟亞洲研究院共有15篇論文入選。今年的CVPR上有哪些讓人眼前一亮的研究,又反映出哪些趨勢?來聽赴美參加會議的微軟亞洲研究院實習(xí)生胡哲的所見所聞。
作者:胡哲
微軟亞洲研究院實習(xí)生
計算機(jī)視覺(Computer Vision)是近十幾年來計算機(jī)科學(xué)中最熱門的方向之一,而國際計算機(jī)視覺與模式識別大會(Conference on Computer Vision and Pattern Recognition,簡稱CVPR)絕對是計算機(jī)視覺會議中的翹楚。
今年的CVPR在美國俄亥俄州首府哥倫布市(Columbus)召開,地點有點前不著村后不著店的感覺,大多數(shù)人都只好老老實實開會。但即便在如此偏遠(yuǎn)的地方舉行會議,CVPR 的參會人數(shù)還是毫無縮減,這一點在中午領(lǐng)飯的時候可以深深體會到。當(dāng)然,開會的核心絕對不在于地點和提供的飲食,雖然這也很重要。所有人千里迢迢從全世界過來匯聚在一起的主要目的還是感受流行的研究趨勢以及與大家交流各自的研究突破和創(chuàng)新的想法。非常榮幸我這次能有三篇論文被大會錄取,這既是對我個人在計算機(jī)視覺領(lǐng)域研究的巨大肯定,也讓我得以有機(jī)會能夠去往CVPR大會的現(xiàn)場去感受這個領(lǐng)域最前沿的研究成果和前瞻的趨勢。接下來,我就與大家分享一下這次的參會感受。
一、繁榮的深度學(xué)習(xí)
深度學(xué)習(xí)(Deep Learning)是當(dāng)下最熱門的方向之一,今年的論文中標(biāo)題帶deep字眼的論文就有16篇(其中oral presentation 4篇——在CVPR等大型會議中,由于論文數(shù)量眾多,大部分的論文都是以海報的形式作講演。而大會的委員會在所有其中挑選少量出色的工作(占所有投稿的 5%)面對所有研究者演講)。深度學(xué)習(xí)熱潮爆發(fā)以來,諸多研究者都在不懈地努力著,希望能夠把它應(yīng)用于解決計算機(jī)視覺的各種任務(wù)上,從高層次(high- level)的識別(recognition),分類(classification)到低層次(low-level)的去噪(denoising)。讓人不禁聯(lián)想起當(dāng)年的稀疏表達(dá)(sparse representation)的熱潮,而深度學(xué)習(xí)如今的風(fēng)靡程度看上去是有過之而無不及。深度學(xué)習(xí)也有橫掃h(yuǎn)igh-level問題的趨勢,high- level的很多方向都在被其不斷刷新著數(shù)據(jù)。以往的改進(jìn)都是1,2個點的增長,如今使用深度學(xué)習(xí)輕松刷出5,6點,這給很多非深度學(xué)習(xí)方法研究者巨大的壓力。雖說深度學(xué)習(xí)是大熱方向,可計算機(jī)視覺界的研究者對深度學(xué)習(xí)的態(tài)度也是很鮮明的兩派——支持與觀望,也給其他研究趨勢帶來了一些影響(原因接下來說)。作為強大的特征(feature)學(xué)習(xí)工具,獲得大量的支持與推廣自然不必說,很多原本觀望的研究者們在目睹深度學(xué)習(xí)的優(yōu)秀表現(xiàn)后也都開始投身于此。持觀望態(tài)度的人們一部分可能仍并不了解深度學(xué)習(xí)的機(jī)理,另外一大部分相信是對深度學(xué)習(xí)將給計算機(jī)視覺帶來的貢獻(xiàn)持保守態(tài)度。雖然筆者贊嘆于深度學(xué)習(xí)的強大能力,可對此也是持保守態(tài)度。誠然深度學(xué)習(xí)作為一個工具異常強大。在給定足夠多的訓(xùn)練集的情況下,它可以幫助用戶學(xué)習(xí)到這個任務(wù)下的具有很強分辨能力的特征??墒沁@個訓(xùn)練過程近乎黑箱,學(xué)習(xí)出的系統(tǒng)也很難給解決的問題帶來更深刻的理解。
二、為基礎(chǔ)模型研究正名
也許因為如此,我認(rèn)為本次的評獎有些指引方向的感覺。本次大會的最佳論文頒給了研究camera motion和shape recovery關(guān)系的文章What Camera Motion Reveals About Shape with Unknown BRDF(single author!), Honorable mention給了利用structured light研究shape的論文3D Shape and Indirect Appearance by Structured Light Transport。這兩篇論文都可以算是研究3D幾何模型的。不僅評獎如此,計算機(jī)視覺領(lǐng)域的前輩也親自站出來力挺一下基礎(chǔ)模型的研究,其中Jean Ponce親自寫了一篇論文(oral)來繼續(xù)探討trinocular geometry的傳統(tǒng)假設(shè)不成立時如何保證三個相機(jī) visual rays相交的情況。這些論文無一不是對計算機(jī)視覺基礎(chǔ)問題和基礎(chǔ)模型的深入研究,考慮前人沒有研究過的問題的系統(tǒng)分析。這些文章的獲獎也是鼓勵我們年輕研究人員靜下心來做基礎(chǔ)問題的研究,不輕易追趕當(dāng)下熱潮。做追趕浪潮的弄潮兒容易,可是怎么樣保證研究工作不會輕易被遺忘在時間里,或者說怎么做對領(lǐng)域有貢獻(xiàn)的研究工作,絕對是我們研究者們需要思考的問題。另外,并不要認(rèn)為已經(jīng)寫入教科書的內(nèi)容就已經(jīng)板上釘釘沒有研究價值了。有一些理論也是建立在理想的假設(shè)滿足的前提下,所以它們?nèi)匀豢梢栽谫|(zhì)疑的眼光下去進(jìn)行深造。
三、尚未被深度學(xué)習(xí)滲透的Low-level Vision
計算機(jī)視覺的問題可以根據(jù)他們的研究對象和目標(biāo)分成三大類,low- level,mid-level, 和high-level。Low-level問題主要是針對圖像本身及其內(nèi)在屬性的分析及處理,比如判斷圖片拍攝時所接受的光照,反射影響以及光線方向,進(jìn)一步推斷拍攝物體的幾何結(jié)構(gòu);再如圖片修復(fù),如何去除圖片拍攝中所遇到的抖動和噪聲等不良影響。High-level問題主要是針對圖像內(nèi)容的理解和認(rèn)知層面的,比如說識別與跟蹤圖像中的特定物體與其行為;根據(jù)已識別物體的深入推斷,比如預(yù)測物體所處的場景和即將要進(jìn)行的行為。Mid-level是介于以上兩者之間的一個層面,個人理解是著重于特征表示,比如說如何描述high-level問題中的目標(biāo)物體,使得這種描述有別于其他的物體??梢源笾抡J(rèn)為,low-level的內(nèi)容可以服務(wù)于mid-level的問題,而mid-level的內(nèi)容可以服務(wù)于high-level的問題。由于這種分類不是很嚴(yán)格,所以也會出現(xiàn)交叉的情況。深度學(xué)習(xí)在計算機(jī)視覺界主要是作為一種特征學(xué)習(xí)的工具,可以姑且認(rèn)為是mid-level的。所以之前提到的high- level的問題受深度學(xué)習(xí)的影響很大就是這個原因。相比較而言low-level問題受到深度學(xué)習(xí)的沖擊會小很多,當(dāng)然也有深度學(xué)習(xí)用于去噪(denoise)和去模糊(deblur)等low-level問題的研究。對于受到深度學(xué)習(xí)良好表現(xiàn)困擾的年輕研究者們,也不妨來探尋low- level很多有意思的研究。這些年,MIT的Bill Freeman組就做了一些很有趣的low-level問題,比如放大視頻中出現(xiàn)的肉眼難以察覺的細(xì)小變化(Eulerian Video Magnification for Revealing Subtle Changes in the World),還有這次CVPR的文章Camouflaging an Object from Many Viewpoints就是講如何在自然環(huán)境中放置和涂染一個立方體,讓其產(chǎn)生變色龍般的隱藏效果。諸如此類的研究也讓研究這件事變得有趣和好玩。
筆者目前也正專注于low-level中去模糊(deblur)的研究。去模糊的意思是借助某種方法將拍照中出現(xiàn)的模糊圖像恢復(fù)成清晰圖像。這個問題是一個已經(jīng)被研究了很多年的問題——去卷積(deconvolution),自上世紀(jì)5,60年代起,就有很多知名研究工作出現(xiàn)。這方面研究到近十年取得了很多突破,在處理相機(jī)抖動引起的模糊中出現(xiàn)了不少有影響力的的工作。而 Adobe公司2013年將這方面的算法作為一個重要特征放進(jìn)了Photoshop中,更是成了鼓舞該領(lǐng)域的研究動力。美國FBI就有利用 Photoshop的去模糊功能修復(fù)圖片并幫助破案的例子,筆者去年在Adobe實習(xí)期間看到了FBI發(fā)來的感謝信。
這次筆者被CVPR 2014錄取的三篇文章都是關(guān)于去模糊的研究。一篇是針對模糊圖像的一個主要來源——暗光照情況下的圖像,設(shè)計的一個基于光斑(light streak)的去模糊算法(Deblurring Low-light Images with Light Streaks)。
這個算法自動檢測暗光情況下常見的光斑,并利用光斑作為模糊核(blur kernel)的約束。它對解決暗光下模糊圖片非常有效,而且光斑這一現(xiàn)象不僅出現(xiàn)在低光下,在普通的模糊圖像中也會出現(xiàn),只需要場景中有與周邊環(huán)境有顏色差別的小型物體出現(xiàn)。讀者可以在我的個人主頁上下載代碼進(jìn)行嘗試。還有一篇是說從一張模糊圖像中,我們不僅可以估計相機(jī)的抖動,還可以發(fā)掘出場景的深度(Joint Depth Estimation and Camera Shake Removal from Single)。這乍聽上去像是不可能完成的任務(wù),可實際上圖像的模糊是同時包含了相機(jī)抖動和場景深度信息的。讀者也可以這樣認(rèn)為,我們拍攝模糊圖像的過程也可以看作是拍攝一小段video的過程,這樣的話我們相當(dāng)于擁有了一個多角度立體(stereo)的輸入!第三篇是針對文字模糊圖片設(shè)計的一個簡單有效的算法,可以用于文字識別前的預(yù)處理(Deblurring Text Image via L0-Regularized Intensity and Gradient Prior)。
四、Depth Sensor(深度傳感器)及深度圖像相關(guān)
近幾年來從Depth Sensor得到的深度圖像的相關(guān)研究一直是學(xué)術(shù)界以及工業(yè)界重點關(guān)注的問題。特別是工業(yè)界,很多Depth Sensor相關(guān)的創(chuàng)業(yè)公司如雨后春筍般在業(yè)界涌現(xiàn),他們也獲得了廣泛的關(guān)注和不菲的投資,這次贊助CVPR的就有多家這樣的創(chuàng)業(yè)公司。不僅如此,很多大公司也都積極的投身于做自己的Depth Sensor,或者嵌入到自己的產(chǎn)品中。Depth Sensor為何有如此大的影響力,大家肯定早已有諸多見解。它作為一種新的輸入數(shù)據(jù),給了傳統(tǒng)輸入數(shù)據(jù)(2D)一個新的像素級別的維度——深度。這不僅給研究者們開拓了以RGBD輸入數(shù)據(jù)為核心的舊問題新方向,而且由于深度圖像的幫助下也讓很多算法更加實用。這也讓CV研究離工業(yè)界的產(chǎn)品更緊密了。 Depth Sensor的成熟以及CV領(lǐng)域相關(guān)研究的發(fā)展,也提供給增強現(xiàn)實(Augmented Reality)這個未來科技感十足的方向一個重要的接口。所有的這些都昭示著Depth Sensor是一個非常有價值而且在一段時間內(nèi)還將是非常熱門的方向。
微軟亞洲研究院在這個方向上也有一篇利用depth sensor做手部跟蹤的oral論文(Realtime and Robust Hand Tracking from Depth)。通過重新定義手的模型和能量方程,這個工作將手部跟蹤做到了實時并且算法也很魯棒。在PC上不用GPU也達(dá)到了25FPS(每秒顯示幀數(shù)),而平均誤差在測試數(shù)據(jù)上降低到10mm,相比其他方法提升50%左右。對手勢的準(zhǔn)確識別是現(xiàn)在很流行的一個問題。因為技術(shù)的進(jìn)步已經(jīng)讓傳統(tǒng)的輸入方式(比如鼠標(biāo))處于更新?lián)Q代的邊緣了,如今通過depth sensor與手勢來實現(xiàn)人機(jī)的實時交互將可能帶來下一個輸入方式的革命。所以這個工作是很有價值與深遠(yuǎn)影響的,也因此而獲得了oral演講的資格。
另外,微軟亞洲研究院在今年的CVPR發(fā)表的另外一篇oral論文也是應(yīng)用很廣的一個問題——人臉對準(zhǔn)(Face Alignment at 3000 FPS via Regressing Local Binary Features)。
通過采用局部學(xué)習(xí)的準(zhǔn)則降低隨機(jī)森林(random forest)的任務(wù)難度,以得到更好的局部特征(local feature)。同時,整體上的結(jié)構(gòu)學(xué)習(xí)幫助算法更加魯棒。這個項目實現(xiàn)了快速的人臉對準(zhǔn)以及人臉跟蹤。在相同精度下,它比以往的方法快了數(shù)十倍,在 PC上單核3000FPS,手機(jī)上單核300FPS。這個結(jié)果很令人振奮,因為手機(jī)及移動設(shè)備已經(jīng)很大程度的改變?nèi)藗兊纳罘绞?#xff0c;可是相比PC,手機(jī)的處理能力有限,那么就需要更加快速穩(wěn)定的算法。這個工作就為在手機(jī)及移動設(shè)備對人臉的實時處理提供了堅實的基礎(chǔ)。
總結(jié)
以上是生活随笔為你收集整理的从CVPR 2014看计算机视觉领域的最新热点的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 威尔士柯基犬,计算机视觉,以及深度学习的
- 下一篇: 微软亚洲研究院开源分布式机器学习工具包