计算机视觉领域最全汇总(第2部分)
7、紋理生成(Texture Synthesis)與風格遷移(Style Transform)
紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風格的圖像,然后通過風格遷移不僅保留圖像的原始內容,而且將該圖像轉換為指定的風格。
7.1:特征反演(Feature Inversion)
特征反演是紋理生成和風格遷移背后的核心概念。給定一個中間層特征,我們希望迭代來創建與給定特征類似圖像。特征反演還可以告訴我們在中間層特征中包含多少圖像信息。
給定DxHxW的深度卷積特征,我們將它們轉換為Dx(HW)矩陣X,因此我們可以將對應Gram矩陣定義為:G = XX ^ T
通過外積,Gram矩陣捕獲不同特征之間的關系。
7.2:紋理生成的概念
它對給定紋理圖案的Gram矩陣進行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細節信息,而高層特征可以捕獲更大面積的特征。
7.3:風格遷移的概念
此優化有兩個主要目標:第一個是使生成的圖像的內容更接近原始圖像的內容,而第二個是使生成的圖像的風格與指定的風格匹配。風格由Gram矩陣體現,而內容直接由神經元的激活值體現。
7.4:直接生成風格遷移的圖像
上面直接生成風格遷移的圖像的方法的缺點是需要多次迭代才能收斂。解決該問題的方案是訓練一個神經網絡來直接生成風格遷移的圖像。一旦訓練結束,進行風格遷移只需前饋網絡一次,十分高效。在訓練時,將生成圖像、原始圖像、風格圖像三者前饋一固定網絡以提取不同層特征用于計算損失函數。
實驗證明,通過使用實例歸一化,風格變換網絡可以移除與圖像相關的比較信息以簡化生成過程。
7.5:條件示例規范化
上述方法的一個問題是我們必須為每種不同的風格訓練一個單獨的模型。由于不同的風格有時包含相似性,因此可以通過在不同風格的風格變換網絡之間共享參數來完成這項工作。具體來說,它更改了風格轉換網絡的示例規范化,使其具有N組縮放和平移參數,每個組對應于特定風格。這樣我們就可以從單個前饋過程中獲得N個風格的變換圖像。
8、面部驗證/識別
人臉驗證/識別可以認為是一種更加精細的細粒度圖像識別任務。人臉驗證是給定兩張圖像、判斷其是否屬于同一個人,而人臉識別是回答圖像中的人是誰。一個人臉驗證/識別系統通常包括三大步:檢測圖像中的人臉,特征點定位、及對人臉進行驗證/識別。人臉驗證/識別的難題在于需要進行小樣本學習。通常情況下,數據集中每人只有對應的一張圖像,這稱為一次性學習(one-shot learning)。
8.1:面部識別系統背后的概念
作為分類問題(非常多的類別數),或作為度量學習的問題。如果兩個圖像屬于同一個人,那么我們希望它們的深層特征非常相似。否則,它們的特征應該不同。之后,根據深度特征之間的距離進行驗證或識別(k最近鄰居分類)。
8.2:DeepFace
第一個成功將深度神經網絡應用于面部驗證/識別模型的系統。DeepFace使用非共享參數局部性連接。這是因為人臉的不同部分具有不同的特征(例如眼睛和嘴唇具有不同的特征),因此傳統卷積層的經典“共享參數”不適用于面部驗證。因此,面部識別網絡使用非共享參數局部性連接。它使用的孿生(Siamese network)網絡用于面部驗證。當兩個圖像的深度特征小于給定閾值時,它們被認為是同一個人。
8.3:FaceNet
FaceNet通過三因子輸入,希望負樣本之間的距離大于正樣本之間的距離給定量。此外,三個輸入因子并不是隨機的,否則,因為負樣本的差異樣本太大,網絡將無法學習。選擇最具挑戰性的三個元素組(例如最遠的正樣本和最接近的負樣本)會使該網絡陷入局部最優。FaceNet使用半困難策略,選擇比正樣本更遠的負樣本。
8.4:大區間交叉熵損失
近年來,這一直是一個熱門的研究課題。由于類內波動大而類間相似度高,有研究工作旨在提升經典的交叉熵損失對深度特征的判斷能力。例如,L-Softmax加強優化目標,使對應類別的參數向量和深度特征夾角增大。
?
A-Softmax進一步約束L-Softmax的參數向量長度為1,使訓練更集中到優化深度特征和夾角上。實際中,L-Softmax和A-Softmax都很難收斂,訓練時采用了退火方法,從標準softmax逐漸退火至L-Softmax或A-Softmax。
8.5:實時檢測
該系統確定面部圖像是來自真人還是來自照片,這是面部驗證/識別任務的關鍵障礙。目前在業界流行的一些方法是讀取人的面部表情,紋理信息,眨眼或要求用戶完成一系列動作的變化。
9、圖像搜索和檢索
給定一個包含特定實例(例如特定目標,場景或建筑物)的圖像,圖像搜索用于在數據庫中查找包含與給定實例類似的元素的圖像。然而,由于兩個圖像中的角度,光照和障礙物通常不相同,因此創建能夠處理圖像類別中的這些差異的搜索算法的問題對研究人員構成了重大挑戰。
9.1:經典圖像搜索的過程
首先,我們必須從圖像中提取適當的代表性矢量。其次,將歐氏距離或余弦距離應用于這些矢量以執行最近鄰居搜索并找到最相似的圖像。最后,我們使用特定的處理技術對搜索結果進行小幅調整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示:
9.2:無監督的圖像搜索
無監督圖像搜索使用預先訓練的ImageNet模型,沒有外部信息作為特征提取引擎來提取圖像的表示。
9.3:有監督圖像搜索
有監督圖像搜索首先采用預先訓練的ImageNet模型并將其調整到另一個訓練數據集上。然后,它從這個調整的模型中提取圖像表示。為了獲得更好的結果,用于優化模型的訓練數據集通常類似于搜索數據集。此外,我們可以使用候選區域網絡從可能包含目標的圖像中提取前景區域。
孿生網絡:類似于人臉識別的思想,該系統使用兩個元素或三個元素輸入(++ -)來訓練模型,以最小化兩個樣本之間的距離,并最大化兩個不同樣本之間的距離。
9.4:對象跟蹤
對象跟蹤的目標是跟蹤視頻中目標的移動。通常,目標位于視頻的第一幀中并由框標記。我們需要預測框在下一幀中的位置。對象跟蹤與目標測試類似。然而,對象跟蹤的難點在于我們不知道我們跟蹤哪個目標。因此,我們無法在任務之前收集足夠的訓練數據并訓練專門的測試。
9.5:孿生網絡
類似于面部驗證的概念,利用孿生網絡可以在一條線上的目標框內輸入圖像,并且在另一條線上輸入候選圖像區域,然后輸出兩個圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區域;相反,我們可以使用卷積網絡,只需要將每個圖像前饋一次,通過卷積,我們可以獲得二維的響應圖,其中最重要的響應位置確定了框的位置。基于孿生網絡的方法非常快并且能夠處理任何大小的圖像。
9.6:CFNet
相關濾波器訓練線性模板以區分圖像區域和它們周圍的區域,然后使用傅立葉變換。CFNet與離線訓練的孿生網絡和相關的在線濾波模板相結合,能夠提高加權網絡的跟蹤性能。
10、生成式模型(generative models)
這種類型的模型用于學習數據(圖像)的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉換、從文本生成圖像、學習隱藏的圖像表示、半監督學習等。此外,生成式模型可以與強化學習相結合,用于模擬和逆強化學習。
10.1:顯式建模
使用條件概率的公式來對圖像的分布進行最大似然估計并從中學習。該方法的缺點在于,由于每個圖像中的像素取決于先前的像素,因此必須在一個角開始并以有序的方式進行,所以生成圖像的過程將稍微緩慢。例如,WaveNet可以產生類似于人類創建的語音,但由于它不能同時產生,一秒鐘的語音需要2分鐘來計算,并且實時生成是不可能的。
10.2:變分自編碼器
為了避免顯式建模的缺陷,變分自編碼器對數據分布進行了隱式建模。它認為生成圖像受隱藏變量控制的影響,并假設隱藏變量受到對角高斯分布的影響。
變分自編碼器使用解碼網絡根據隱藏變量生成圖像。由于我們無法直接應用最大似然估計,因此在訓練時,類似于EM算法,變分自編碼器構造似然函數的下界函數,然后使用該下界函數進行優化。變分自編碼器的好處是因為每個維度的獨立性;我們可以通過控制隱藏變量來控制影響輸出圖像變化的因素。
10.3:生成對抗式網絡(GAN)
由于學習數據分布極其困難,生成對抗式網絡完全避免了這一步驟并立即生成圖像。生成對抗式網絡使用生成網絡G從隨機噪聲創建圖像,并使用判別網絡D來確定輸入圖像是真實的還是偽造的。
在訓練期間,判別網絡D的目標是確定圖像是真實的還是偽造的,并且生成式網絡G的目的是使判別網絡D傾向于確定其輸出圖像是真實的。在實踐中,訓練生成式對抗網絡會帶來模型崩潰的問題,其中生成對抗式網絡無法學習完整的數據分布。這在LS-GAN和W-GAN中產生了改進,與變分自編碼器一樣,生成對抗式網絡提供更好的詳細信息。
11、視頻分類
上述大多數任務都可以用于視頻分類,這里我們將以視頻分類為例來說明處理視頻數據的一些基本方法。
11.1:多幀圖像特征匯合
這類方法將視頻視為一系列幀圖像,網絡接收屬于視頻的一組多幀圖像(例如15幀),然后從這些圖像中提取深度特征,并最終集成這些圖像特征以獲得視頻的該部分的特征以對其進行分類。實驗表明,使用“慢速融合(slow fusion)”效果最佳。此外,獨立組織單個幀也可以得到非常有競爭力的結果,這意味著來自單個幀的圖像包含大量相關信息。
11.2:三維卷積
將標準的二維卷積擴展為三維卷積,以在時間維度上連接局部。例如,系統可以采用VGG 3x3卷積并將其擴展為3x3x3卷積或2x2收斂擴展為2x2x2收斂。
11.3:圖像+序列兩個分支結構
這種類型的方法使用兩個獨立的網絡來區分從視頻捕獲的圖像信息和時間信息。圖像信息可以從單幀中的靜止圖像獲得,并且是圖像分類的經典問題。然后通過光流獲得運動信息,跟蹤目標在相鄰幀上的運動。
11.4:CNN + RNN捕獲遠程依賴關系
先前的方法僅能夠捕獲幾幀圖像之間的依賴關系。此方法使用CNN從單個幀中提取圖像特征,然后使用RNN捕獲幀之間的依賴關系。
此外,研究人員已嘗試將CNN和RNN結合起來,以便每個卷積層能夠捕獲遠距離依賴性。
?
以上為譯文。
本文由阿里云云棲社區組織翻譯。
文章原標題《deep-dive-into-computer-vision-with-neural-network-2》,
作者:?Leona Zhang譯者:虎說八道,審校:。
文章為簡譯,更為詳細的內容,請查看原文。
總結
以上是生活随笔為你收集整理的计算机视觉领域最全汇总(第2部分)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机视觉领域最全汇总(第1部分)
- 下一篇: 基于标准C语言的数字图像处理基本框架(转