【AI白身境】一文览尽计算机视觉研究方向
今天是新專欄《AI白身境》的第10篇,所謂白身,就是什么都不會,還沒有進入角色。
相信看了前面的幾篇文章后很多朋友已經等不及快速入行了,今天就來介紹一下計算機視覺的各大研究方向及其特點。
所謂計算機視覺,即compute vision,就是通過用計算機來模擬人的視覺工作原理,來獲取和完成一系列圖像信息處理的機器。計算機視覺屬于機器學習在視覺領域的應用,是一個多學科交叉的研究領域,涉及數學,物理,生物,計算機工程等多個學科,由此也可以想象到計算機視覺的研究范圍非常廣,也是圖像,語音,自然語言處理領域中從業人數最多的。
作者 | 言有三
編輯 | 言有三
01
圖像分類
1.1 基本概念
圖像分類是計算機視覺中最基礎的一個任務,也是幾乎所有的基準模型進行比較的任務,從最開始比較簡單的10分類的灰度圖像手寫數字識別mnist,到后來更大一點的10分類的cifar10和100分類的cifar100,到后來的imagenet,圖像分類任務伴隨著數據庫的增長,一步一步提升到了今天的水平。
現在在imagenet這樣的超過1000萬圖像,2萬類的數據集中,計算機的圖像分類水準已經超過了人類。
圖像分類,顧名思義,就是一個模式分類問題,它的目標是將不同的圖像,劃分到不同的類別,實現最小的分類誤差。
總體來說,對于二分類的問題,圖像分類可以分為跨物種語義級圖像分類,子類細粒度圖像分類,以及實例級圖像分類三大類別。
傳統機器學習方法:
通過各種經典的特征算子+經典分類器組合學習,比如HoG+SVM。
深度學習方法:
各種分類網絡,最為大家熟知的就是ImageNet競賽了。
2012年Alexnet誕生,意味著GPU訓練時代的來臨。
Alexnet是第一個真正意義上的深度網絡,與LeNet5的5層相比,它的層數增加了3 層,網絡的參數量也大大增加,輸入也從32變成了224。
2014年VGG誕生,它共包含參數約為550M。全部使用3*3*的卷積核*和2*2的最大池化核,簡化了卷積神經網絡的結構。VGG很好的展示了如何在先前網絡架構的基礎上通過增加網絡層數和深度來提高網絡的性能,網絡雖然簡單,但是卻異常的有效,在今天VGG仍然被很多的任務選為基準模型。
同一年GoogleNet誕生,也被成為Inception Model,它的核心是Inception Module。一個經典的inception 結構,包括有四個成分,1*1卷積,3*3 卷積, 5*5 卷積,3*3 最大池化,最后對運算結果進行通道上組合,可以得到圖像更好的表征。自此,深度學習模型的分類準確率已經達到了人類的水平(5%~10%)。?
2015年,ResNet被提出。ResNet以 3.57%的錯誤率表現超過了人類的識別水平,并以152層的網絡架構創造了新的模型記錄。由于resnet采用了跨層連接的方式,它成功的緩解了深層神經網絡中的梯度消散問題,為上千層的網絡訓練提供了可能。
2016年ResNeXt誕生,101層的ResNeXt可以達到ResNet152 的精確度,卻在復雜度上只有后者的一半,核心思想為分組卷積。即首先將輸入通道進行分組,經過若干并行分支的非線性變換,最后合并。
在resnet基礎上,密集連接的densenet將前饋過程中將每一層與其他的層都連接起來。對于每一層網絡來說,前面所有網絡的特征圖都被作為輸入,同時其特征圖也都被其他網絡層作為輸入所利用。?
2017年,也是imagenet圖像分類比賽的最后一年,senet獲得了冠軍。這個結構,僅僅使用了“特征重標定”的策略來對特征進行處理,也就是通過學習獲取每個特征通道的重要程度,根據重要性去抑制或者提升相應的特征。?
1.2 方向特點
圖像分類的比賽基本落幕,也接近算法的極限。但是在實際的應用中卻面臨著比比賽中更加復雜,比如樣本不均衡,分類界面模糊,未知類別等。如果想了解更多,請查看往期文章。
【技術綜述】你真的了解圖像分類嗎?
02
目標檢測
2.1 基本概念
分類任務給出的是整張圖片的內容描述,而目標檢測任務則關注圖片中特定的目標。
檢測任務包含兩個子任務,其一是這一目標的類別信息和概率,它是一個分類任務。其二是目標的具體位置信息,這是一個定位任務。?
與計算機視覺領域里大部分的算法一樣,目標檢測也經歷了從傳統的人工設計特征和淺層分類器的思路(以),到大數據時代使用深度神經網絡進行特征學習的思路。
在傳統方法時代,很多的任務不是一次性解決,而是需要多個步驟的。而深度學習時代,很多的任務都是采用End-To-End的方案,即輸入一張圖,輸出最終想要的結果,算法細節和學習過程全部丟給了神經網絡,這一點在物體檢測這個領域,體現得尤為明顯。
不管是清晰地分步驟處理,還是深度學習的end-to-end的方法,目標檢測算法一定會有3個模塊。第一個是檢測窗口的選擇,第二個是圖像特征的提取,第三個是分類器的設計。?
2.2 方法分類
傳統機器學習方法:
以保羅·維奧拉和邁克爾·瓊斯于2001年提出的維奧拉-瓊斯目標檢測框架為代表,這是第一篇基于Haar+Adaboost的檢測方法,也是首次把檢測做到實時的框架,此方法在opencv中被實現為cvHaarDetectObjects(),是opencv中最為人熟知的目標檢測方法。速度非常快,檢測召回率相對如今的算法較低。
深度學習方法:
仍然要解決區域選擇、提取特征、分類回歸三個問題。但是在演變過程中,卻發展出了multi-stage和one-stage的方法。其中multi-stage方法,是分步驟完成上面的任務,甚至可能需要單獨訓練各個網絡。而one-stage則是一步到位。
RCNN的框架是multi-stage方法的典型代表。它使用了Selective search先生成候選區域再檢測,候選窗口的數量被控制在了2000個左右。選擇了這些圖像框之后,就可以將對應的框進行resize操作,然后送入CNN中進行訓練。由于CNN非常強大的非線性表征能力,可以對每一個區域進行很好的特征表達,CNN最后的輸出,使用多個分類器進行分類判斷。該方法將PASCAL VOC上的檢測率從 35.1% 提升到了53.7%,其意義與Alexnet在2012年取得分類任務的大突破是相當的,對目標檢測領域影響深遠。??
? ?
隨后Fast R-CNN提出RoIPooling從整圖對應的卷積特征圖選取區域特征,解決了重復提取特征的問題。Faster R-CNN則提出Region Proposal, anchors把一張圖片劃分成n*n個區域,每個區域給出9個不同ratio和scale的proposal,解決了重復提取候選proposal的問題。 RCNN系列在工業屆應用非常廣泛,因此從事目標檢測的同學必須掌握。?
除了multi-stage方法,還有one-stage方法。以YOLO為代表的方法,沒有顯式的候選框提取過程。它首先將圖片resize到固定尺寸,將輸入圖片劃分成一個7x7的網格,每個網格預測2個邊框,對每一個網絡進行分類和定位。YOLO方法也經過了許多版本的發展,從YOLO v2到YOLO v3。YOLO的做法是速度快,但是會有許多漏檢,尤其是小的目標。所以SSD就在 YOLO的基礎上添加了Faster R-CNN的Anchor 概念,并融合不同卷積層的特征做出預測。雖然YOLO和SSD系列的方法沒有了region proposal的提取,速度更快,但是必定會損失信息和精度。
如果想了解更多,可以去閱讀我們的往期文章。
【技術綜述】一文道盡R-CNN系列目標檢測
【技術綜述】萬字長文詳解Faster RCNN源代碼
2.3 方向特點
目標檢測方向有一些固有的難題,比如小臉,遮擋,大姿態。
而在方法上,多尺度與級聯網絡的設計,難樣本的挖掘,多任務loss等都是比較大的研究小方向,咱們也寫過一些文章,感興趣的朋友可以去翻。
03
圖像分割
3.1 基礎概念
圖像分割屬于圖像處理領域最高層次的圖像理解范疇。所謂圖像分割就是把圖像分割成具有相似的顏色或紋理特性的若干子區域,并使它們對應不同的物體或物體的不同部分的技術。這些子區域,組成圖像的完備子集,又相互之間不重疊。
在圖像處理中,研究者往往只對圖像中的某些區域感興趣,在此基礎上才有可能對目標進行更深層次的處理與分析,包括對象的數學模型表示、幾何形狀參數提取、統計特征提取、目標識別等。
傳統方法:
圖像分割問題最早來自于一些文本的分割,醫學圖像分割。在文本圖像分割中,我們需要切割出字符,常見的問題包括指紋識別,車牌識別;由于這一類問題比較簡單,因為基于閾值和聚類的方法被經常使用。
基于閾值和聚類的方法雖然簡單,但因此也經常失效。以graphcut為代表的方法,是傳統圖像分割里面魯棒性最好的方法。Graphcut的基本思路,就是建立一張圖,其中以圖像像素或者超像素作為圖像頂點,然后移除一些邊,使得各個子圖不相連從而實現分割。圖割方法優化的目標是找到一個切割,使得移除邊的和權重最小。
深度學習方法:
全卷積神經網絡(Fully connected Network)是第一個將卷積神經網絡正式用于圖像分割問題的網絡。?
一個用于分類任務的深度神經網絡通過卷積來不斷抽象學習,實現分辨率的降低,最后從一個較小的featuremap或者最后的特征向量,這個featuremap通常為5*5或者7*7等大小。而圖像分割任務需要恢復與原尺度大小一樣的圖片,所以,需要從這個featuremap恢復原始圖片尺寸,這是一個上采樣的過程。由于這個過程與反卷積是正好對應的逆操作,所以我們通常稱其為反卷積。
實際上并沒有反卷積這樣的操作,在現在的深度學習框架中,反卷積通常有幾種實現方式,一個是雙線性插值為代表的插值法,一個是轉置卷積。?
3.2?方向特點
在基于深度學習的圖像分割中,有一些比較關鍵的技術,包括反卷積的使用,多尺度特征融合,crf等后處理方法。
多尺度與上下文信息:
多尺度的信息融合可以從特征圖,還可以直接采用多尺度的輸入圖像,不過這兩者本質上沒有太多的差異。使用金字塔的池化方案可實現不同尺度的感受野,它能夠起到將局部區域上下文信息與全局上下文信息結合的效果。對于圖像分割任務,全局上下文信息通常是與整體輪廓相關的信息,而局部上下文信息則是圖像的細節紋理,要想對多尺度的目標很好的完成分割,這兩部分信息都是必須的。??
CRF:
由于經典的cnn是局部的方法,即感受野是局部而不是整個圖像。另一方面,cnn具有空間變換不變性,這也降低了分割的邊緣定位精度。針對cnn的這兩個缺陷,crf可以進行很好的彌補。crf是一種非局部的方法,它可以融合context信息,Deeplab系列就使用了cnn加上全連接的crf的方式。
另一方面,前面我們說的圖像分割,是屬于硬分割,即每一個像素都以絕對的概率屬于某一類,最終概率最大的那一類,就是我們所要的類別。但是,這樣的分割會帶來一些問題,就是邊緣不夠細膩,當后期要進行融合時,邊緣過渡不自然。此時,就需要用到image matting技術。
更多請查看往期文章:
【技術綜述】閑聊圖像分割這件事兒
04
目標跟蹤
4.1 基本概念
目標跟蹤,指的其實就是視頻中運動目標的跟蹤,跟蹤的結果通常就是一個框。目標跟蹤是視頻監控系統中不可缺少的環節。?
根據目標跟蹤方法建模方式的不同,可以分為生成式模型方法與判別式模型方法。
生成式模型跟蹤算法以均值漂移目標跟蹤方法和粒子濾波目標跟蹤方法為代表,判別式模型跟蹤算法以相關濾波目標跟蹤方法和深度學習目標跟蹤方法為代表。
生成類方法:
在原始影像幀中對目標按指定的方法建立目標模型,然后在跟蹤處理幀中搜索對比與目標模型相似度最高的區域作為目標區域進行跟蹤。算法主要對目標本身特征進行描述,對目標特征刻畫較為細致,但忽略背景信息的影響。在目標發生變化或者遮擋等情況下易導致失跟現象。
判別類方法:
通過對原始影像幀,對目標及背景信息進行區分建立判別模型,通過對后續影像幀搜索目標進行判別是目標或背景信息進而完成目標跟蹤。?
判別類方法與生成類方法的根本不同在于判別類方法考慮背景信息與目標信息區分來進行判別模型的建立,由于判別類方法將背景與目標進行區分,因此該類方法在目標跟蹤時的表現通常更為魯棒,目前已經成為目標跟蹤的主流跟蹤方式。判別類方法包括相關濾波,深度學習方法。
4.2?方向特點
目標跟蹤有一些難點:
(1) 目標表征表達問題,雖然深度學習方法具有很強的目標表征能力,但是仍然容易受相似環境的干擾。
(2) 目標快速運動,由于很多跟蹤的物體都是高速運動,因此既要考慮較大的搜索空間,也要在保持實時性的前提下減小計算量。
(3)?變形,多尺度以及遮擋問題,當目標發生很大的形變或者臨時被遮擋如何保持跟蹤并且在目標重新出現時恢復跟蹤。
05
圖像濾波與降噪
5.1 基本概念
現實中的數字圖像在數字化和傳輸過程中常受到成像設備與外部環境噪聲干擾等影響,稱為含噪圖像或噪聲圖像。減少數字圖像中噪聲的過程稱為圖像降噪,有時候又稱為圖像去噪。?
降噪可以應用于圖像增強和美顏等領域。
傳統方法:
傳統降噪算法根據降噪的原理不同可分為基于鄰域像素特征的方法,基于頻域變換的方法,和基于特定模型的方法。
基于空域像素特征的方法,是通過分析在一定大小的窗口內,中心像素與其他相鄰像素之間在灰度空間的直接聯系,來獲取新的中心像素值的方法,因此往往都會存在一個典型的輸入參數,即濾波半徑r。此濾波半徑可能被用于在該局部窗口內計算像素的相似性,也可能是一些高斯或拉普拉斯算子的計算窗口。在鄰域濾波方法里面,最具有代表性的濾波方法有以下幾種:算術均值濾波與高斯濾波,統計中值濾波,雙邊濾波,非局部平均濾波方法,BM3D算法。
深度學習方法:
在2012年,隨著Alexnet的出現,深度學習做去噪的工作取得了一些進展,可以達到和BM3D差不多的水平。對于仿真的噪聲和固定的噪聲,深度學習已經可以很好的去除,達到或超過傳統領域里最好的算法。
利用卷積神經網絡去除噪聲的原理很簡單,輸入是一張有噪聲的圖,標簽是一張無噪聲的圖,輸出是一張降噪后的圖,損失函數是無噪聲groundtruth與網絡輸出的L2距離,網絡通常就是與圖像分割算法一樣的網絡,卷積+與之對稱的反卷積。
5.2?方向特點
降噪的研究聚焦在真實數據的去噪聲,因為真實世界的噪聲不符合高斯加性噪聲的假設,而且是依賴于信息本身的。不過,真實噪聲圖像和相應的無噪聲圖像獲取是非常困難,慢慢的也有了一些benchmark,大家以后關注我們就知道了。
06
圖像增強
6.1 基本概念
圖像增強,即增強圖像中的有用信息,改善圖像的視覺效果。
圖像增強實際上包含了很多的內容,上面的降噪也屬于其中,只是因為降噪多了美顏這一個應用單獨拿出來說一下。
對比度增強,用于擴大圖像中不同物體特征之間的差別,抑制不感興趣的特征,可用于改善圖像的識別效果,滿足某些特殊分析。
超分辨,使圖像變得更加清晰,可以用于視頻的傳輸先進行降采樣,再進行升采樣,即降低了傳輸成本,又增加了視覺效果。
圖像修復,重建圖像和視頻中丟失或損壞的部分,也被稱為圖像插值或視頻插值,主要是替換一些小區域和瑕疵,如photoshop中的印章工具。隨著發展,已經從原先針對劃痕、污點等的修復到現在對圖像、視頻中文字、物體等的移除,比如水印等。
傳統方法:
傳統的方法就是一個預定義好的非線性變換,主要有三大類方法,一類是點操作,一類是直方圖操作,一類是Retinex理論。
點操作也被稱為直接對比度增強,將每個像素獨立操作,包括對數變化,指數變化,負圖像,閾值化等。我們熟知的gamma變換如下,可以進行不同形狀的映射。
直方圖操作也被稱為間接對比度增強,包括直方圖均衡,直方圖匹配等。直方圖均衡化通常用來增加圖像的全局對比度,尤其是當圖像中主體和背景對比度相當接近的時候。直方圖均衡化的效果就是讓直方圖更均衡的分布,這種方法對于背景和前景都太亮或者太暗的圖像非常有用,通常是曝光過度或者曝光不足的圖片。
Retinex理論,即顏色恒常知覺的計算理論,Retinex是一個合成詞,它的構成是retina(視網膜)+cortex(皮層),它將圖像認為是reflectance和illumination的點乘,理論基礎是在不同的照明條件下,物體的色彩不受光照非均性的影響是恒定的,而物體的顏色是由物體對長波、中波和短波光線的反射能力決定的而不是由反射光強度的絕對值決定。
深度學習方法:
以增強對比度為例,深度學習方法使用了CNN來進行非線性變換的學習,而且通常不僅僅局限在對比度增強,經常會同時學習到降噪。深度學習的方法有兩種,一種是采用成對的圖片訓練,比如pix2pix,learning in the dark,缺點是沒有普適性,只能對所實驗的數據集有用。一種是不需要成對圖片訓練,只需要好圖,比如WESPE,常配合GAN使用。
6.2?方向特點
一個圖像增強任務,傳統方法需要分別進行降噪,顏色校正,對比度增強等各種操作,而深度學習算法的好處就是end-to-end輸出,將整個流程丟給了網絡。目前圖像增強相對于前面的一些方向還是一個藍海,覆蓋的方向和應用非常廣,有精力的朋友可以好好研究。
07
風格化
7.1 基本概念
圖像風格化之所以引起我們的注意,完全是因為2015年的一個研究,可以將任意的圖像轉換為梵高的畫作風格。?也是得益于深度學習技術的發展,傳統的方法做不到這么好的效果。而隨著美圖秀秀,天天P圖等app層出不窮的濾鏡,風格化已經成為了單獨的一個研究領域。?
圖像風格化是一個綜述性的技術應用,為了簡單起見,就理解為藝術類濾鏡把,它指通過算法,將數碼相機拍攝的照片,變成繪畫、素描等藝術類的非數碼相機效果,是后期程度最深的操作,將徹底改變相片的風格。
深度學習方法:
以A Neural Algorithm of Artistic Style 論文發表為起始,Prisma濾鏡為典型代表。雖然風格遷移技術的發展日新月異,但是最革命性的還是該文章的方法,這是德國圖賓根大學的研究,它通過分析某種風格的藝術圖片,能將圖片內容進行分離重組,形成任意風格的藝術作品,最開始的時候需要將近一個小時來處理。
就是把一幅圖作為底圖,從另外一幅畫抽取藝術風格,重新合成新的藝術畫,可以參考上面的圖。
研究者認為,圖片可以由內容層(Content)與風格層(Style)兩個圖層描述,相互分離開。在圖像處理中經常將圖像分為粗糙層與細節層,即前者描述圖像的整體信息,后者描述圖像的細節信息,具體可以通過高斯金字塔來得到。
卷積神經網絡的各個神經元可以看做是一個圖像濾波器,而輸出層是由輸入圖像的不同濾波器的組合,深度由淺到深,內容越來越抽象。?
底層信息重建,則可以得到細節,而從高層信息重建,則得到圖像的”風格“。因此,可以選擇兩幅圖像,一幅構建內容信息,一幅構建風格信息,分別進行Content重建與Style 重建。通過將內容與風格組合,可以得到新的視覺信息更加有意思的圖像,如計算機油畫,這就是它的基本原理。方法的核心在于損失函數的設計,包括內容損失和風格損失。?
內容損失在像素空間,要求風格化后的圖能夠保證內容的完整性。風格損失使用vgg特征空間的gram矩陣,這樣就有了較高的抽象層級,實踐結果表明可以很好的捕捉風格。
7.2?方向特點
如今風格化方法在很多地方都有應用,比如大家熟悉的變臉等。方法也演變成了幾個方向;
(1)單模型單風格,即一個網絡只能做一種風格化。
(2)單模型多風格,即一個網絡可以實現多種風格,比(1)實用的多。
(3)單模型任意風格,即一個網絡可以任意風格,視輸入圖像而定,這是最好的,更多的研究我們以后會開專題。
08
三維重建
8.1 基本概念
什么是三維重建呢?廣義上來說,是建立真實世界的三維模型。隨著軟硬件的成熟,在電影,游戲,安防,地圖等領域,三維重建技術的應用越來越多。目前獲取三維模型的方法主要包括三種,手工建模,儀器采集與基于圖像的建模。
(1) 手工建模作為最早的三維建模手段,現在仍然是最廣泛地在電影,動漫行業中應用。頂頂大名的3DMax就是典型代表,當然了,它需要專業人士來完成。
(2) 由于手工建模耗費大量的人力,三維成像儀器也得到了長期的研究和發展。基于結構光(structured light)和激光掃描技術的三維成像儀是其中的典型代表。這些基于儀器采集的三維模型,精度可達毫米級,是物體的真實三維數據,也正好用來為基于圖像的建模方法提供評價數據庫。由于儀器的成本太高,一般的用戶是用不上了。
(3) 基于圖像的建模技術(image based modeling),顧名思義,是指通過若干幅二維圖像,來恢復圖像或場景的三維結構,這些年得到了廣泛的研究。
我們這里說的三維重建,就特指基于圖像的三維重建方法,而且為了縮小范圍,只說人臉圖像,并簡單介紹其中核心的3DMM模型。
3DMM模型:
人臉三維重建方法非常多,有基于一個通用的人臉模型,然后在此基礎上進行變形優化,會牽涉到一些模板匹配,插值等技術。有基于立體匹配(各種基于雙目,多目立體視覺匹配)的方法,通過照相機模型與配準多幅圖像,坐標系轉換,獲取真實的三維坐標,然后進行渲染。有采用一系列的人臉作為基,將人臉用這些基進行線性組合的方法,即Morphable models方法。
其中,能夠融會貫通不同傳統方法和深度學習方法的,就是3D Morphable Models系列方法,從傳統方法研究到深度學習。
它的思想就是一幅人臉可以由其他許多幅人臉加權相加而來,學過線性代數的就很容易理解這個正交基的概念。我們所處的三維空間,每一點(x,y,z),實際上都是由三維空間三個方向的基量,(1,0,0),(0,1,0),(0,0,1)加權相加所得,只是權重分別為x,y,z。
轉換到三維空間,道理也一樣。每一個三維的人臉,可以由一個數據庫中的所有人臉組成的基向量空間中進行表示,而求解任意三維人臉的模型,實際上等價于求解各個基向量的系數的問題。
每一張人臉可以表示為:
形狀向量Shape Vector:S=(X1,Y1,Z1,X2,Y2,Z2,...,Yn,Zn)
紋理向量Texture Vector:T=(R1,G1,B1,R2,G2,B2,...,Rn,Bn)
?而一張任意的人臉,其等價的描述如下:
其中第一項Si,Ti是形狀和紋理的平均值,而si,ti則都是Si,Ti減去各自平均值后的協方差矩陣的特征向量。?基于3DMM的方法,都是在求解α,β這一些系數,當然現在還會有表情,光照等系數,但是原理都是通用的。
原理就說到這里,我們以后會專門講述。
8.2?方向特點
人臉的三維建模有一些獨特的特點。
(1)預處理技術非常多,人臉檢測與特征點定位,人臉配準等都是現在研究已經比較成熟的方法。利用現有的人臉識別與分割技術,可以縮小三維人臉重建過程中需要處理的圖像區域,而在有了可靠的關鍵點位置信息的前提下,可以建立稀疏的匹配,大大提升模型處理的速度。
(2)人臉共性多。正常人臉都是一個鼻子兩只眼睛一個嘴巴兩只耳朵,從上到下從左到右順序都不變,所以可以首先建立人臉的參數化模型,實際上這也是很多方法所采用的思路。
人臉三維重建也有一些困難。
(1)人臉生理結構和幾何形狀非常復雜,沒有簡單的數學曲面模型來擬合。
(2)光照變化大。同一張臉放到不同的光照條件下,獲取的圖像灰度值可能大不一樣的,這些都會影響深度信息的重建。
(3)特征點和紋理不明顯。圖像處理最需要的就是明顯的特征,而光滑的人臉除了特征關鍵點,很難在臉部提取稠密的有代表性的角點特征。這個特點,使得那些采用人臉配準然后求取三維坐標的方法面臨著巨大的困難。
09
圖像檢索
9.1 基本概念
圖像檢索的研究從20世紀70年代就已經開始,在早期是基于文本的圖像檢索技術(Text-based Image Retrieval,簡稱TBIR),利用文本來描述圖像的特征,如繪畫作品的作者、年代、流派、尺寸等。隨著計算機視覺技術的發展,90年代開始出現了對圖像的內容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術,也就是基于內容的圖像檢索(Content-based Image Retrieval,簡稱CBIR)技術,本小節的圖像檢索就特指基于內容的圖像檢索。
基于內容的圖像檢索也經歷了傳統方法和深度學習方法兩個主要階段,傳統的基于內容的圖像檢索通常包括以下流程:
預處理,通常包括一些圖像歸一化,圖像增強等操作。特征提取,即提取一些非常魯棒的圖像特征,比如SIFT,HoG等特征。特征庫就是要查詢的庫,庫中不存儲圖像而是存儲特征,每一次檢索圖像完成特征提取之后,就在特征庫中進行匹配和相似度計算。索引就是在某種相似性度量準則下計算查詢向量到特征庫中各個特征的相似性大小,最后按相似性大小進行高效的排序并順序輸出對應的圖片。
圖像檢索的中最復雜的一步就是檢索,在這一步完成驗證過程。
最簡單的方法就是暴力(brute-force) 搜索方法(又稱線性掃描),即逐個與數據庫中的每個點進行相似性計算然后進行排序,這種簡單粗暴的方式雖然很容易實現,但是會隨著數據庫的大小以及特征維度的增加其搜索代價也會逐步的增加,從而限制在數據量小的小規模圖像數據庫,在大規模圖像庫上這種暴力搜索的方式不僅消耗巨大的計算資源,而且單次查詢的響應時間會隨著數據樣本的增加以及特征維度的增加而增加,為了降低搜索的空間的空間復雜度與時間復雜度,研究者們提出了很多高效的檢索技術,其中最成功的大家也最熟悉到方法是基于哈希的圖像檢索方法。
深度學習在圖像檢索里面的作用就是把表征樣本的特征學習好,就夠了。
9.2?方向特點
圖像檢索系統具有非常大的商業價值,從搜索引擎的以圖搜圖,到人臉驗證和識別系統,到一些搜索排序系統(比如基于美學的攝影圖庫)。由于圖像特征的學習是一個通用的研究方向,因此更多的在于設計高效的檢索系統。
10
GAN
10.1 基本概念
GAN,即Generative adversarial net,被譽為新的深度學習,涉及的研究非常多,可以單列為一個方向,一個經典的網絡結構如下。
GAN的原理很簡單,它包括兩個網絡,一個生成網絡,不斷生成數據分布。一個判別網絡,判斷生成的數據是否為真實數據。
上圖是原理展示,黑色虛線是真實分布,綠色實線是生成模型的學習過程,藍色虛線是判別模型的學習過程,兩者相互對抗,共同學習到最優狀態。
關于GAN的基礎,我們以前已經寫過相關的內容,大家去看就可以了。
【技術綜述】有三說GANs(上)
10.2?方向特點
作為新興和熱門方向,GAN包含的研究方向非常的廣,包括GAN的應用,GAN的優化目標,GAN的模型發展,GAN的訓練技巧,GAN的理論分析,GAN的可視化等等,以后等著我們的分享即可。
最后發個通知,2019年有三AI學習季劃之“春季計劃”開始了,目標就是掌握計算機視覺的各項技能,歡迎參與。
2019年有三AI“春季”劃,給我一個榮耀,還你一生榮耀
總結
深度學習徹底點燃和推進了計算機視覺各大領域的研究,這是個可以投以終身的行業,希望你會喜歡,別忘了持續關注我們噢。
下期預告:下一期我們講AI在當前工業界的應用。
轉載文章請后臺聯系
侵權必究
更多請關注知乎專欄《有三AI學院》
往期白身境界
【AI白身境】入行AI需要什么數學基礎:左手矩陣論,右手微積分
【AI白身境】只會用Python?g++,CMake和Makefile了解一下
【AI白身境】學深度學習你不得不知的爬蟲基礎
【AI白身境】搞計算機視覺必備的OpenCV入門基礎
【AI白身境】深度學習必備圖像基礎
【AI白身境】學AI必備的python基礎
【AI白身境】Linux干活三板斧,shell、vim和git
【AI白身境】深度學習從棄用windows開始
想要變身”AI專家“,就戳戳手指關注我們吧
別忘了點“好看”支持作者噢? ????
總結
以上是生活随笔為你收集整理的【AI白身境】一文览尽计算机视觉研究方向的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年有三AI“春季”划,给我一个荣
- 下一篇: 【研究院】低调务实的网易人工智能,你熟悉