Depth graph
深度相機(jī)
定義:可以直接獲取場(chǎng)景中物體距離攝像頭物理距離的相機(jī)。在計(jì)算機(jī)視覺系統(tǒng)中,三維場(chǎng)景信息為圖像分割、目標(biāo)檢測(cè)、物體跟蹤等各類計(jì)算機(jī)視覺應(yīng)用提供了更多的可能性,而深度圖像(Depth map)作為一種普遍的三維場(chǎng)景信息表達(dá)方式得到了廣泛的應(yīng)用。深度圖像的每個(gè)像素點(diǎn)的灰度值可用于表征場(chǎng)景中某一點(diǎn)距離攝像機(jī)的遠(yuǎn)近。?
獲取深度圖像的方法可以分為兩類:被動(dòng)測(cè)距傳感和主動(dòng)深度傳感。?
In short:深度圖像的像素值反映場(chǎng)景中物體到相機(jī)的距離,獲取深度圖像的方法=被動(dòng)測(cè)距傳感+主動(dòng)深度傳感
被動(dòng)測(cè)距傳感
被動(dòng)測(cè)距傳感中最常用的方法是雙目立體視覺,該方法通過兩個(gè)相隔一定距離的不同視角的攝像機(jī)獲取同一場(chǎng)景的兩幅圖像,通過立體匹配算法找到兩幅圖像中對(duì)應(yīng)的像素點(diǎn),隨后根據(jù)三角原理計(jì)算出視差信息,而視差信息通過轉(zhuǎn)換可用于表征場(chǎng)景中物體的深度信息。基于立體匹配算法,還可通過拍攝同一場(chǎng)景下不同角度的一組圖像來獲得該場(chǎng)景的深度圖像。此外,場(chǎng)景深度信息還可以通過對(duì)圖像的光度特征 、明暗特征 、幾何特征等特征進(jìn)行分析間接估算得到。?
上圖展示了Middlebury Stereo Dataset中Tsukuba場(chǎng)景的彩色圖像、視差實(shí)際值與用Graph cuts算法得到的立體匹配誤差估計(jì)結(jié)果,該視差圖像可以用于表征場(chǎng)景中物體的三維信息。?可以看到,通過立體匹配算法得到的視差圖雖然可以得到場(chǎng)景的大致三維信息,但是部分像素點(diǎn)的視差存在較大誤差。雙目立體視覺獲得視差圖像的方法受限于基線長度以及左右圖像間像素點(diǎn)的匹配精確度,其所獲得的視差圖像的范圍與精度存在一定的限制。
In short, 常用于深度圖像增強(qiáng)領(lǐng)域的測(cè)試數(shù)據(jù)集Middlebury Stereo Dataset屬于被動(dòng)測(cè)距傳感;
被動(dòng)測(cè)距傳感=兩個(gè)相隔一定距離的相機(jī)獲得兩幅圖像+立體匹配+三角原理計(jì)算視差(disparity)
雙目立體視覺測(cè)距的原理和人眼類似,通過計(jì)算空間中同一個(gè)物體在兩個(gè)相機(jī)成像的視差就可以根據(jù)如下三角關(guān)系計(jì)算得到物體離相機(jī)的距離:
但是算法實(shí)現(xiàn)比較困難,雙目立體視覺測(cè)距算法的核心就是尋找對(duì)應(yīng)關(guān)系??梢岳斫鉃榻o定一個(gè)相機(jī)拍攝的圖片中的任意一個(gè)像素點(diǎn),如何在另外一個(gè)相機(jī)拍攝的圖像中找到和它對(duì)應(yīng)的像素點(diǎn),這個(gè)過程需要特征提取、特征匹配等一系列復(fù)雜的算法。但是由于光照變化、光線明暗等外在因素的影響,拍攝的兩張圖片差別可能比較大,這會(huì)對(duì)特征匹配算法提出很大的挑戰(zhàn)。
另外,如果拍攝的物體缺乏紋理和細(xì)節(jié)(比如拍攝一張白紙)的話,也很難進(jìn)行特征匹配。這些都對(duì)算法的魯棒性提出了很大的挑戰(zhàn)。
雖然TOF相機(jī)和雙目立體視覺都能實(shí)現(xiàn)測(cè)距的功能,但是它們還是有很大不同表格如下
下表是雙目立體視覺、結(jié)構(gòu)光、TOF三種可以測(cè)量深度(距離)的技術(shù)方案綜合比較:雙目視覺 Vs 結(jié)構(gòu)光 Vs TOF
從上述的對(duì)比分析來看,TOF方案具有響應(yīng)速度快,深度信息精度高,識(shí)別距離范圍大,不易受環(huán)境光線干擾等優(yōu)勢(shì)。因此想要在移動(dòng)端直接實(shí)現(xiàn)深度的測(cè)量,最有競(jìng)爭(zhēng)力的就是TOF方案了。
深度相機(jī)應(yīng)用:范圍非常廣泛:手勢(shì)識(shí)別,以及活體人臉識(shí)別、空間測(cè)距、三維重建、AR(增強(qiáng)現(xiàn)實(shí))等領(lǐng)域。
1、手勢(shì)識(shí)別。
TOF深度相機(jī)可以將人臉、身體、手臂、手指從背景中分離,并且這種分割置信度較高,不受自然光變化的影響,同時(shí)能夠?qū)崟r(shí)性處理,所以這將在智能交互領(lǐng)域大有用武之地。預(yù)計(jì)最近幾年會(huì)迅速進(jìn)入消費(fèi)級(jí)電子產(chǎn)品中。
2、真實(shí)的AR游戲體驗(yàn)。
如下圖是Phab?2的AR游戲展示。由于在二維圖像中融合了實(shí)時(shí)的深度信息,所以AR游戲的體驗(yàn)比較真實(shí)。比如虛擬出來的一只貓,通過實(shí)時(shí)的空間深度感知,它可以“感受”到空間的相對(duì)位置關(guān)系,當(dāng)它走到桌子邊緣的時(shí)候,會(huì)很自然地跳到地面上,這在之前的AR游戲中是難以實(shí)現(xiàn)的。
3、三維空間測(cè)量。
由于能夠?qū)崟r(shí)獲得深度信息,所以實(shí)現(xiàn)三維空間測(cè)量也是順其自然的。比如在室內(nèi)裝修領(lǐng)域,可以方便的將各種虛擬的家具以真實(shí)的尺寸擺放到現(xiàn)實(shí)環(huán)境中,用戶拿著手機(jī)就可以體驗(yàn)家居放在室內(nèi)的360°真實(shí)效果,這無疑將是一個(gè)令人激動(dòng)的應(yīng)用場(chǎng)景。
4、三維掃描/重建。
可以用于三維物體和k建模和機(jī)器人視覺導(dǎo)航和定位。比如你看到一座非常喜歡的雕塑,就可以利用手機(jī)上的彩色相機(jī)+深度相機(jī)對(duì)它掃描一周,結(jié)合相應(yīng)的算法就可以生成該雕塑的三維模型數(shù)據(jù),利用三維打印機(jī)就可以方便的打印出一個(gè)三維的雕塑復(fù)制品出來。
5、更廣泛的其他應(yīng)用。
融入了深度信息的三維影像可以用于活體人臉識(shí)別,避免傳統(tǒng)二維人臉識(shí)別的安全隱患;可以更加方便進(jìn)行人體三維測(cè)量,從而推動(dòng)虛擬在線試衣行業(yè)的發(fā)展等。
隨著深度測(cè)量技術(shù)的發(fā)展,必然還有出現(xiàn)更多有趣的應(yīng)用場(chǎng)景。
深度信息融合
當(dāng)我們獲得了深度圖后,下一步就是要把深度信息融合到普通RGB相機(jī)拍攝的彩色圖片。這一步需要強(qiáng)大的算法來保障。深度信息融合難的原因:
1、深度相機(jī)的分辨率目前還比較低,一般都是VGA(640 x 480)以下。而現(xiàn)在普通的RGB相機(jī)分辨率都已經(jīng)到千萬像素級(jí)以上了,是深度相機(jī)分辨率的幾十倍甚至上百倍。因此需要將低分辨的深度圖變成和RGB相機(jī)一致的高分辨率,這種“從無到有”的分辨率提升需要利用彩色圖中物體的紋理、邊界等內(nèi)容信息,這個(gè)過程要想保持細(xì)節(jié)是比較困難的。
2、深度相機(jī)和彩色相機(jī)融合時(shí)還需要知道兩個(gè)相機(jī)的畸變系數(shù)、光學(xué)中心、相對(duì)旋轉(zhuǎn)/平移量等一系列參數(shù),這就需要對(duì)兩個(gè)相機(jī)進(jìn)行相機(jī)標(biāo)定工作。而深度相機(jī)的低分辨率對(duì)于相機(jī)標(biāo)定工作也是一個(gè)較大的挑戰(zhàn)。
主動(dòng)測(cè)距傳感
主動(dòng)測(cè)距傳感相比較于被動(dòng)測(cè)距傳感最明顯的特征是:設(shè)備本身需要發(fā)射能量來完成深度信息的采集。這也就保證了深度圖像的獲取獨(dú)立于彩色圖像的獲取。近年來,主動(dòng)深度傳感在市面上的應(yīng)用愈加豐富。主動(dòng)深度傳感的方法主要根據(jù)原理不同,主要有飛行時(shí)間(TOF)、結(jié)構(gòu)光、激光掃描幾種方式(注:有些地方將雙目立體視覺相機(jī)也列為深度相機(jī)的一種,它是單純依靠算法計(jì)算得到的深度信息)。?
TOF相機(jī)
TOF相機(jī)獲取深度圖像的原理是:通過對(duì)目標(biāo)場(chǎng)景發(fā)射連續(xù)的近紅外脈沖,然后用傳感器接收由物體反射回的光脈沖。通過比較發(fā)射光脈沖與經(jīng)過物體反射的光脈沖的相位差,可以推算得到光脈沖之間的傳輸延遲進(jìn)而得到物體相對(duì)于發(fā)射器的距離,最終得到一幅深度圖像。?
TOF相機(jī)內(nèi)部每個(gè)像素經(jīng)過上述過程都可以得到一個(gè)對(duì)應(yīng)的距離,所有的像素點(diǎn)測(cè)量的距離就構(gòu)成了一幅深度圖,如下圖所示。左邊是原圖,右邊是對(duì)應(yīng)的深度圖。
可以看到深度圖其實(shí)是一張灰度圖,它是一張三維的圖:水平垂直坐標(biāo)對(duì)應(yīng)像素位置,該位置的灰度值對(duì)應(yīng)的是該像素距離攝像頭的距離。所以深度圖中的每個(gè)像素可以表示空間中一個(gè)點(diǎn)的三維坐標(biāo),所以深度圖中的每個(gè)像素也稱為體像素(voxel)。
TOF相機(jī)所獲得的深度圖像有以下的缺陷:?
1. 深度圖像的分辨率遠(yuǎn)不及彩色圖像的分辨率?
2. 深度圖像的深度值受到顯著的噪聲干擾?
3. 深度圖像在物體的邊緣處的深度值易出現(xiàn)誤差,而這通常是由于一個(gè)像素點(diǎn)所對(duì)應(yīng)的場(chǎng)景涵蓋了不同的物體表面所引起的。?
除此之外,TOF相機(jī)的通常價(jià)格不菲。?
結(jié)構(gòu)光與Kinect
結(jié)構(gòu)光是具有特定模式的光,其具有例如點(diǎn)、線、面等模式圖案。
基于結(jié)構(gòu)光的深度圖像獲取原理是:將結(jié)構(gòu)光投射至場(chǎng)景,并由圖像傳感器捕獲相應(yīng)的帶有結(jié)構(gòu)光的圖案。由于結(jié)構(gòu)光的模式圖案會(huì)因?yàn)槲矬w的形狀發(fā)生變形,因此通過模式圖像在捕捉得到的圖像中的位置以及形變程度利用三角原理計(jì)算即可得到場(chǎng)景中各點(diǎn)的深度信息。結(jié)構(gòu)光測(cè)量技術(shù)提供了高精度并且快速的三維信息,其在汽車、游戲、醫(yī)療等領(lǐng)域均已經(jīng)得到了廣泛的應(yīng)用。
基于結(jié)構(gòu)光的思想,微軟公司推出了一款低價(jià)優(yōu)質(zhì)的結(jié)合彩色圖像與深度圖像的體感設(shè)備Kinect,該設(shè)備被應(yīng)用于如人機(jī)交互(Xbox系列游戲機(jī))、三維場(chǎng)景重建、機(jī)器視覺等諸多領(lǐng)域。?
?
微軟公司的Kinect有三個(gè)鏡頭,除了獲取RGB彩色圖像的攝像機(jī)之外,左右兩邊的鏡頭分別是紅外線發(fā)射器和紅外線CMOS攝像機(jī),這兩個(gè)鏡頭共同構(gòu)成了Kinect的深度傳感裝置,其投影和接收區(qū)域相互重疊,如下圖所示。?
Kinect采用了一種名為光編碼(Light Coding)的技術(shù),不同于傳統(tǒng)的結(jié)構(gòu)光方法投射一幅二維模式圖案的方法,Kinect的光編碼的紅外線發(fā)射機(jī)發(fā)射的是一個(gè)具有三維縱深的“立體編碼”。光編碼的光源被稱為激光散斑,其形成原理是激光照射到粗糙物體或穿透毛玻璃后得到了隨機(jī)的衍射斑點(diǎn)。激光散斑具有高度的三維空間隨機(jī)性。當(dāng)完成一次光源標(biāo)定后,整個(gè)空間的散斑圖案都被記錄,因此,當(dāng)物體放進(jìn)該空間后,只需得知物體表面的散斑圖案,就可以知道該物體所處的位置,進(jìn)而獲取該場(chǎng)景的深度圖像。紅外攝像機(jī)捕獲的紅外散斑圖像如下圖所示,其中左側(cè)的圖片展現(xiàn)了右側(cè)圖片中框中的細(xì)節(jié)。?
Kinect低廉的價(jià)格與實(shí)時(shí)高分辨率的深度圖像捕捉特性使得其在消費(fèi)電子領(lǐng)域得到了迅猛發(fā)展,然而Kinect的有效測(cè)距范圍僅為800毫米到4000毫米,對(duì)處在測(cè)距范圍之外的物體,Kinect并不能保證準(zhǔn)確深度值的獲取。Kinect捕獲的深度圖像存在深度缺失的區(qū)域,其體現(xiàn)為深度值為零,該區(qū)域意味著Kinect無法獲得該區(qū)域的深度值。而除此之外,其深度圖像還存在著深度圖像邊緣與彩色圖像邊緣不對(duì)應(yīng)、深度噪聲等問題。Kinect所捕獲的彩色圖像與深度圖像如下圖所示。?
Kinect所捕獲的深度圖像產(chǎn)生深度缺失區(qū)域的原因多種多樣。除了受限于測(cè)距范圍,一個(gè)重要的原因是目標(biāo)空間中的一個(gè)物體遮擋了其背后區(qū)域。這種情況導(dǎo)致了紅外發(fā)射器所投射的圖案無法照射到背后區(qū)域上,而背后區(qū)域卻有可能被處在另一個(gè)視角的紅外攝像機(jī)捕捉到,然而該區(qū)域并不存在散斑圖案,該區(qū)域的深度信息也就無法被獲得。物體表面的材質(zhì)同樣會(huì)影響Kinect深度圖像的獲取。當(dāng)材質(zhì)為光滑的平面時(shí),紅外投射散斑光束在物體表面產(chǎn)生鏡面反射,紅外攝像機(jī)無法捕捉該物體反射的紅外光,因此也就無法捕獲到該表面的深度;當(dāng)材質(zhì)為吸光材料時(shí),紅外投射散斑被該表面所吸收而不存在反射光,紅外攝像機(jī)同樣無法捕捉到該表面的深度信息?!?/span>材質(zhì)對(duì)深度缺失的影響,分析到位】除此之外,Kinect所捕獲的深度圖像存在的與彩色圖像邊緣不一致的問題主要是由彩色攝像機(jī)與紅外攝像機(jī)的光學(xué)畸變引起的。
激光雷達(dá)
激光雷達(dá)測(cè)距技術(shù)通過激光掃描的方式得到場(chǎng)景的三維信息。其基本原理是按照一定時(shí)間間隔向空間發(fā)射激光,并記錄各個(gè)掃描點(diǎn)的信號(hào)從激光雷達(dá)到被測(cè)場(chǎng)景中的物體,隨后又經(jīng)過物體反射回到激光雷達(dá)的相隔時(shí)間,據(jù)此推算出物體表面與激光雷達(dá)之間的距離。?
激光雷達(dá)由于其測(cè)距范圍廣、測(cè)量精度高的特性被廣泛地用于室外三維空間感知的人工智能系統(tǒng)中,例如自主車的避障導(dǎo)航、三維場(chǎng)景重建等應(yīng)用中。下圖展示的是激光雷達(dá)Velodyne HDL-64E在自主車中的應(yīng)用,該激光雷達(dá)能夠獲取360°水平方向上的全景三維信息,其每秒能夠輸出超過130萬個(gè)掃描點(diǎn)的數(shù)據(jù)。全向激光雷達(dá)曾在美國舉辦的DARPA挑戰(zhàn)賽中被許多隊(duì)伍所采用,其也成為了自主行駛車輛的標(biāo)準(zhǔn)配置。?
總結(jié)
以上是生活随笔為你收集整理的Depth graph的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。