自动上色论文《Deep Exemplar-based Colorization》(2)
書接上文:https://blog.csdn.net/Najlepszy/article/details/85289496
回來填坑。
四、著色參考圖片的推薦系統
正如前文所言,本文對參考圖片的選擇具有穩健性。為幫助用戶發現更好的參考圖片,我們提出一種新的圖像檢索方法,可自動為用戶推薦良好的參考圖片。此外,該方法通過Top-1候選法來產生全自動的系統。
全局排名:通過gray-VGG-19,我們還可以獲得查詢圖像TLT_LTL?的Top 1 ID。根據類ID,我們將搜索域縮小到同一類的所有圖像(大約1000個圖像)。我們通過比較查詢信息和所有候選者之間的f c特征來過濾不同的候選者。舉例來說,查詢信息可能是“在草地上奔跑的貓”,但候選圖片可能是"坐在屋子里的貓"。然而我們希望這兩張圖片的語義信息盡可能越相像越好;為了實現這一點,對于該類中每個候選圖片RiR_iRi?(i=1,2,3,…),直接計算FT6F_T^6FT6?和FRi6F_{R_i}^6FRi?6?的余弦相似性獲得global score,并對這個global score進行排名。
局部排名:全局排名提供給我們前N個可選的圖片RiR_iRi?(N=200),而f c特征由于其會忽略空間信息,因此無法提供更為準確的信息。因此,我們在剩下的N張圖片中進行一個局部的排序,來刪除一些參考圖片。
局部的一致性分數包括語義信息和照度信息。對于每個圖片對{TL,Ri}\{T_L,R_i\}{TL?,Ri?},在FT5F_T^5FT5?的任意像素p上,我們通過最小化FT5(p)F_T^5(p)FT5?(p)和FRi5(q)F_{R_i}^5(q)FRi?5?(q)來獲得最近鄰的像素q,命名為q=NN§。因此,語義信息被定義為FT5(p)F_T^5(p)FT5?(p)和FRi5(q)F_{R_i}^5(q)FRi?5?(q)
照度信息在像素p與q附近區域之間,我們把圖片TLT_LTL?分解成有16x16分辨率的二維網格。每個網格經過四個下采樣層對應著特征圖FT5F_T^5FT5?的一個點。因此,CT(p)C_T(p)CT?(p)是點p在特征圖FT5F_T^5FT5?中點p對應的網格。同樣,CRi(q)C_{R_i}(q)CRi??(q)是特征圖FRi5(q)F_{R_i}^5(q)FRi?5?(q)中q點對應的網格。dH(?)d_H(\cdot)dH?(?)函數測量CT(p)C_T(p)CT?(p)和CRi(q)C_{R_i}(q)CRi??(q)的照度直方圖之間的相關系數。
局部一致性分數如下所示:
score(T,Ri)=∑p(d(FT5(p),FRi5(q)+βdH(CT(p),CRi(q)))score(T,R_i)=\sum_p(d(F_T^5(p),F_{R_i}^5(q) + \beta d_H(C_T(p),C_{R_i}(q)))score(T,Ri?)=∑p?(d(FT5?(p),FRi?5?(q)+βdH?(CT?(p),CRi??(q))),β\betaβ確定兩個信息的相應權重。實驗中,β\betaβ設置為0.25。一致性分數為每個圖片對TL,Ri(i=1,2,3,...){T_L,R_i}(i=1,2,3,...)TL?,Ri?(i=1,2,3,...)。通過全部的局部排名分數,我們重拍虛了全部可選圖片并尋找排名靠前的圖片。
我們通過PCA降維來加速計算能力。特征fc6的通道數由4096被壓縮到128,特征relu5_4的通道數從512被壓縮到64,并具有可忽略不計的影響。經過如上降維方式,我們的參考圖片搜索算法可以實時運行了。
五、Discussion
通過消融研究,我們測試并證明了著色網絡的性能。
問題一:著色子網絡學習到了什么?
著色子網絡C\pmb{C}CCC根據目標和參考圖片來學習如何選擇,傳播和預測顏色。如前所述,它是一個端到端網絡,涉及兩個分支,每個分支都扮演著不同的角色。首先,我們希望在學習過程中僅使用色度分支來理解網絡的行為。為此,我們僅通過最小化色度損失來訓練C\pmb{C}CCC的色度分支,并在一個示例上對其進行評估以直觀地理解其操作(圖7)。
通過比較預測結果(第4列)的色度與對齊參考圖片(第3列)的色度,我們注意到它們在大多數區域中具有一致的顏色(例如,“藍色”天空,“白色”平面和“綠色”草坪)。這表明我們的Chrominance分支從參考圖片中選取顏色樣本,然后將它們傳播到整個圖像以實現平滑的著色。
為了了解網絡選擇哪些顏色樣本,我們計算預測結果與第5列中對齊的參考圖片之間的色度差(“藍色”表示幾乎沒有差異,而“紅色”表示顯著差異)。具有較小錯誤的點的顏色更可能由網絡選擇,然后保留在最終結果中。
“網絡如何推斷出良好的樣本?”或者“良好的樣本可以從圖像之間的匹配中直接推斷出來嗎?”為了回答這些問題,我們將差異圖(第6列)與平均五級匹配誤差1?simT→R1 - sim_{T→R}1?simT→R?(第7列)和1?simR→T1 - sim_{R→T}1?simR→T?(第8列)進行比較。
一方面,我們可以看到匹配錯誤與差異圖基本一致。這表明我們的網絡可以根據匹配質量學習良好的采樣,這是確定適當位置的關鍵“提示”。另一方面,我們發現網絡并不總是選擇具有較小匹配誤差的點,這是由大量不一致樣本所證明的。沒有相似性圖片,Colorization子網很難推斷出對齊參考圖片和輸入圖片之間的匹配精度。它還會增加顏色預測的模糊性。因此,根據相似性的自適應選擇可能通過直觀的啟發式是不可行的。但是,通過使用大規模數據,我們的網絡可以更直接地學習這種機制。
為了理解感知分支的作用,我們通過單獨最小化感知損失來訓練它(在等式(6)中)。我們在下圖中示出了一個例子。對于這種情況,一些區域與參考圖片(即,右“主干”對象)沒有很好的匹配。通過僅使用Chrominance分支,我們獲得了樹干對象的不正確顏色的結果(第4列)。但是,Perceptual分支能夠解決這個問題(第8列)。它預測了軀干的單一和自然棕色,因為訓練數據中的大部分樹干都是棕色的。因此,感知分支的預測純粹基于來自大規模數據的對象的主色,并且獨立于參考。正如我們在第8列中所看到的,即使對于不同的參考,它也會預測相同的顏色。
為了享受兩個分支的優勢,我們采用多任務訓練策略同時訓練兩個分支。α用作它們的相對重量。圖8第5至7列的雙分支結果明確表明我們的網絡學會自適應地融合兩個分支的預測:在匹配良好的區域選擇和傳播參考顏色,但推廣到從來自不匹配或不相關區域的大規模數據中學習自然顏色。相對權重α調整對每個分支的偏好。根據ImageNet驗證數據進行評估,我們在實驗中將α= 0.005設置為默認值。
問題二:端對端學習為什么重要?
我們的Colorization子網學習了顏色化中的三個關鍵組件:顏色樣本選擇,顏色傳播和主色預測。據我們所知,沒有其他工作可以通過神經網絡同時學習三個步驟。
另一種方法是簡單地順序處理這三個步驟。在我們的研究中,我們采用了最先進的顏色傳播和預測方法[Zhang et al。 2017年]。這種基于學習的方法顯著推進了以前的優化方法特別是當用戶點數很少時。我們嘗試兩種顏色選擇策略:1)閾值:選擇具有前10%平均雙向相似度得分的色點; 2)交叉校驗匹配:選擇雙向映射滿足?T→R(?R→T)(p)=p\phi_{T→R}(\phi_{R→T})(p)= p?T→R?(?R→T?)(p)=p的色點。一旦獲得了這些點,我們就直接將它們送到預先訓練好的顏色傳播網絡。我們分別在下圖的第3和第4列中顯示了兩個預測的著色結果。
正如我們所看到的,著色效果不佳并且引入了許多明顯的顏色偽影。一個可能的原因是網絡[Zhang et al。 2017]未經過輸入樣本類型的培訓,而是使用用戶指導的點進行培訓。因此,這種順序學習總是會導致次優解。
此外,該研究還表明難以確定手工制作的點選擇規則,如第5.1節所述。通過啟發式方法很難消除所有不正確的顏色樣本。
預訓練的網絡也將傳播錯誤的樣本,從而導致這種偽像。相反,我們的端到端學習方法通??過聯合學習選擇,預測和預測來避免這些缺陷,從而形成直接優化最終著色質量的單一網絡。
問題三:穩健性
與傳統的基于樣本的著色相比,我們網絡的一個顯著優勢是參考選擇的穩健性。無論參考是否與目標相關或不相關,它都可以提供合理的顏色。下圖顯示了我們的方法在對目標圖像具有不同級別的相似性的變化參考上的效果。正如我們所看到的,當引用圖片在其語義內容中更類似于目標時,著色結果自然更忠實于引用圖片。在其他情況下,結果將退化為保守的著色。這是由感知分支引起的,該分支預測來自大規模數據集上獲得的主要顏色。這種行為類似于現有的基于學習的方法。
此外,我們的網絡對不同類型的密集匹配算法也很穩健,如下圖所示。請注意,本文的網絡僅使用Deep Image Analogy進行訓練[Liao et al。 2017]作為默認匹配方法,并使用各種匹配算法測試網絡。我們還可以觀察到結果更加忠實于良好對齊區域的參考顏色;而結果在未對準區域退化為主色(dominant colors)。
注意,更好的對齊結果可以改善可以在引用圖片中找到語義對應關系的對象的結果,但是不能幫助給引用對象中不存在的對象的著色。
問題四:可轉移性
以前基于學習的方法是數據驅動的,因此只能將與共同屬性共享的圖像與訓練集中的圖像著色。由于他們的網絡是在自然圖像上訓練的,例如ImageNet數據集,因此它們將無法為看不見的圖像提供令人滿意的顏色,例如人類創建的圖像(例如,繪畫或漫畫)。它們的結果可能降低到沒有著色(下圖中的第1,第3列)或引入顯著的顏色偽影(第2列)。相比之下,我們的方法受益于參考圖片,并成功地在兩種情況下都有效。雖然我們的網絡在訓練中沒有看到這種類型的圖像,但是通過Chrominance分支,它學習了基于圖像對的相關性來預測顏色。學到的能力對于看不見的物體是常見的。
六、對比結果
結果好就完事了。(太晚了懶得挨個翻譯……翻譯完下一章睡覺吧)
放圖放圖。
這個VGG Top-X 準確度忘了是干啥用的了……
與基于樣例圖片的方法進行比較
圖片的真實程度更高,更難以被用肉眼分辨
與基于學習的方法作比較
圖片著色是否自然真實,是否能騙得了人的肉眼呢?上面給出了答案。
用戶通過學習生成的一些結果(全自動學習??)
與基于交互的方式比較
與全局顏色直方圖方式進行比較
為經典的圖片上色
對視頻也可進行著色。
七、網絡的局限性以及總結
總結:
本文設計了一種基于樣例圖片的深度學習的方法。即使樣例圖片并不能提供有效的信息,本文這種方法依然可以生成合理而又自然的著色結果。不同于以往深度學習框架,我們仍可以手動控制著色的結果。與此同時,我們也可以通過自動著色來對圖片和視頻上色。
局限性:
1、受到感知力損失函數的影響,我們無法去生成含有特別奇怪或者藝術家所形成的顏色
2、其次,基于分類網絡(VGG)的感知損失不能懲罰語義重要性較小的區域中的錯誤的顏色,例如圖21第二行中的墻壁,或者不能區分具有相似局部紋理的較少語義區域,例如如圖21第三行中類似的沙子和草紋理。此外,當圖像之間存在明顯的亮度差異時,我們的結果不太忠實于參考圖片,如圖21的底行所示。為了緩解最后這種情況,我們的參考圖片推薦算法在本地排名中強制執行亮度相似性。我們的方法偶爾無法預測某些局部區域的顏色,如下圖。因此,探索如何更好地平衡網絡的兩個分支是很重要的。
總結
以上是生活随笔為你收集整理的自动上色论文《Deep Exemplar-based Colorization》(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ubuntu的应用商店打不开,闪退
- 下一篇: linux系统(Centos 7)部署环