ATSENet论文阅读笔记
題目: ATSENet :Learning Face Image Super-Resolution throughFacial Semantic Attribute Transformation andSelf-Attentive Structure Enhancement
中文;通過面部語義屬性轉換和自我注意結構增強來學習人臉圖像超分辨率
摘要
- 摘要—人臉超分辨率是一個領域特定的超分辨率(SR)問題,該問題會從低分辨率(LR)輸入生成高分辨率(HR)面部圖像。即使現有的face SR方法在全局區域評估中取得了出色的性能,【缺點】但大多數方法仍無法合理地恢復局部屬性和結構,尤其是將超小LRface圖像(16×16像素)超分辨率放大為較大的版本(8x放大系數)時。在本文中,我們提出了一種基于面部語義屬性轉換和自我關注結構增強的開源面部SR框架。具體而言,提出的框架以連續的兩階段方式引入面部語義信息(即面部屬性)和面部結構信息(即面部邊界)。在第一階段,建立屬性轉換網絡(AT-Net)。它將LR面部圖像上采樣到HR特征圖,然后將面部屬性與這些特征結合起來以生成具有合理屬性的中間HR結果。在第二階段,構建結構增強網絡(SE-Net)。它同時提取面部特征并從輸入中估計面部邊界熱圖,然后將它們融合以輸出最終的HRface圖像。大量的實驗表明,我們的方法具有出色的超分辨結果,并且優于最新方法。索引詞-面部超分辨率,面部幻覺,面部屬性轉換,面部結構增強。
背景:多數方法仍無法合理地恢復局部屬性和結構,尤其是將超小LRface圖像(16×16像素)超分辨率放大為較大的版本(8x放大系數)時
 方法:提出了一個兩階段的人臉超分辨率框架,該框架由人臉語義屬性轉換和自我關注結構增強組成。將人臉語義和結構信息引入框架,以促進人臉超分辨率的推理。
 結論:實驗表明,我們的方法具有出色的超分辨結果,并且優于最新方法。
引言
略
- 各種多媒體應用程序[1] – [6]都涉及處理人臉圖像,因為人臉圖像為身份分析和情感理解提供了豐富而關鍵的信息。不幸的是,現實世界中人臉圖像的質量通常會在獲取,傳輸和存儲過程中退化,從而導致人臉模糊和低分辨率。此外,低質量的人臉圖像引起了一個嚴重問題,它將嚴重阻礙人類視覺感知并大大降低與人臉相關的分析技術。例如人臉識別[1],[7],視頻監控[8],[9]。因此,最近已經提出并廣泛研究了面部超分辨率技術[10]-[14]。
要利用先驗信息才能更好的推理更多的像素信息
- 人臉超分辨率(也稱為人幻覺)是特定領域的超分辨率(SR)任務,可以從低分辨率(LR)圖像推斷出相應的高分辨率(HR)圖像。與普通圖像SR任務類似,人臉超分辨率也是一個固有的不適定問題,因為每個LR人臉圖像可能會映射到許多HR人臉候選者,這意味著需要合理地推斷出相當多的像素信息。例如,當將LR面部圖像(32×32像素)超分辨率為可能的HR分辨率(128×128像素)時,幾乎93.8%的信息是由面部SR模型(包括一些面部語義和結構)得出的。明智的信息。因此,有必要在人臉語義(即人臉屬性)和結構(即人臉成分和地標)信息方面利用信息先驗,以促進人臉SR任務的推斷,這也是與通用圖像SR的主要區別任務。
CNN和GAN應用于超分辨。通常,可以將圖像超分辨率視為圖像生成的過程
- 最近,卷積神經網絡(CNN)[35],[36]已在許多計算機視覺領域證明是成功的,并且在圖像超分辨率任務中取得了顯著進展。一旦訓練好了神經網絡,就可以以端到端的方式從LR輸入端提取圖像特征以從中恢復HR圖像。通常,可以將圖像超分辨率視為圖像生成的過程,在視覺感知和內容理解方面,生成的HR圖像與LR輸入高度一致。生成對抗網絡(GAN)[37] – [40]是一個具有開創性和強大功能的框架,可以生成看起來合理的圖像,該圖像已經大大推進了許多計算機視覺任務,例如圖像樣式轉換[41],[42]和圖像inpainting [43],[44]以及圖像超分辨率[22]。
人臉先驗(人臉語義、結果先驗)的作用是:前者可以幫助描述對象的位置和位置,而后者可以學習對象的存在方式
 但是人臉超分辨仍然是一個ill_posed的問題。
- 對于人臉超分辨率任務,非常值得吸收特定的人臉信息,即人臉語義和結構先驗。它們在理解人臉的這些語義和結構方面的特征方面起著兩個基本作用,因為前者可以幫助描述對象的位置和位置,而后者可以學習對象的存在方式。由于人臉很少有歧義和被誤解,因此人臉語義與結構先驗之間存在很強的相關性。面部屬性信息是最具代表性的面部語義先驗之一。已經提出了一些方法[29],[30],[32],[45]通過引入面部語義屬性(例如面部表情,胡須等)來超分辨面部。它們通常將二進制屬性向量重塑為與LR圖像相同的大小,作為附加的輸入通道[30],[32]或將LR圖像作為與屬性[29]連接的向量。他們的屬性轉換方案已經取得了一些效果,但是仍有改進的空間。此外,一些方法[27],[28],[33]關注面部結構信息。他們通常從LR面部圖像中提取結構先驗,然后將其連接到網絡作為通道[27],[33],或將其用作網絡的監控信號[28]。然而,從LR圖像估計面部結構信息是一項艱巨的任務,甚至是一個不適定的問題。
提出方案
-  為了克服上述方法的不足,本文提出了一種新的超分辨LR人臉圖像框架,以連續兩階段的方式介紹了人臉語義和結構先驗,以提高人臉SR任務的性能。顯式的面部屬性被用作面部語義信息,面部邊界熱圖被用作面部結構信息。具體來說,我們介紹了一個屬性轉換網絡(AT-Net)和一個結構增強網絡(SE-Net)。 AT-Net首先將LR面部圖像上采樣到與目標圖像大小相同的HR特征地圖,然后將面部屬性信息納入上采樣的HR特征中以生成中間HR面部圖像。接下來,**將中間體輸入到SE-Net中,該SE-Net聯合提取深層面部特征并估計面部邊界熱圖,并通過空間關注機制將它們融合以生成最終的HR面部圖像。**此外,還利用了基于圖像內容,顏色和紋理的幾種不同的聚焦對抗損失函數來改善視覺質量。這項工作的主要貢獻如下: 
-  主要貢獻: - 1)人臉語義和結構信息對于人臉超分辨率都是至關重要的。現有的方法[27]-[29],[32]傾向于只關注其中一種方法,但在語義理解和視覺感知上卻未能取得令人滿意的結果。我們提出了一種新穎的人臉超分辨率框架,該框架充分利用語義和結構信息(即人臉屬性和人臉邊界熱圖)以連續的兩階段方式生成逼真的HR人臉圖像。
- 2)不是直接編碼LR人臉圖像和人臉屬性[29],[32]一起,我們建立了一個屬性轉換網絡(AT-Net),該網絡首先將LR面部圖像上采樣到HR特征圖,然后將這些特征圖與面部屬性集成在一起。 AT-Net不僅可以將LR臉部圖像超分辨為具有清晰合理屬性的HR圖像,而且還可以靈活地操縱面部語義屬性表示。
- 3)一般情況下,人臉的結構信息是通過一個通道串聯組合起來的[27],或者在訓練過程中用作監督[28],這不能充分發揮稀缺結構信息的潛力。提出了一種基于空間注意機制的特征融合單元,將人臉邊界熱圖和人臉特征進行融合的結構增強網絡(SE-Net),以提高人臉結構信息的重要性。
- 4)我們的方法在多個放大因子(例如4倍和8倍)中產生了顯著的可伸縮性。廣泛的實驗證明了其在視覺結果和客觀評估方面的領先優勢。
 
相關工作
B、深度學習的方法
-  得益于CNN強大的學習能力和生成對抗網絡(GAN)出色的圖像生成性能,基于深度學習的人臉超分辨率方法近來引起了廣泛關注。如圖2所示,根據是否采用對抗性訓練策略,基于深度學習的方法可以大致分為兩類:基于CNN的方法和基于GAN的方法。 
-  基于CNN的方法在圖像超分辨率任務中已經取得了重大進展[17],[18],[52]。 Donget等人[17]首先提出了超分辨率卷積神經網絡(SRCNN),以學習LR和HR圖像之間的端到端映射。至于人臉超分辨率方法[19],[24],[26],[53],Zhouet等人[53]。使用雙通道CNN從LR輸入中提取面部特征以預測HR輸出。 Caoet等人[24]提出了一種能夠引起注意的面部幻覺框架,以恢復面部細節。Zhuet等[19]結合了密集的人臉對應字段估計值和深度級聯雙網絡(CBN)來逐步對人臉圖像進行采樣。不幸的是,它過于復雜,有效的模型訓練需要大量的手動預處理。由于在處理人臉圖像時人臉超分辨率和圖像生成之間的高度相似性,基于GAN的方法[20],[21],[23],[27],[28],[45],[54]越來越多受歡迎的。伊尼亞托維特人[55]通過設計基于圖像到圖像GAN的網絡將演示文稿轉換成高質量的照片。月等[20]構造了一個簡單的GAN來超分辨LR人臉圖像(URDGN),而無需考慮任何人臉先驗。后續工作[23]提出了一種變換-判別式音頻編碼器(TDAE),以使微小的未對準和嘈雜的人臉圖像產生幻覺。如表1所示,詳細總結了以前的最新超分辨率方法和相關論文,包括所涉及的面部先驗類型。 
-  與我們最相關的著作是[29],[32],[27]和[28],其中他們都使用面部語義或結構先驗作為輔助來改善面部超分辨率任務。特別是,Yuet等人。 29]將人臉屬性嵌入到上采樣網絡中,并構造一個判別器以區分真實和超分辨的人臉。另外,Luet等人[32]采用條件CycleGAN [42]生成具有目標所需屬性的上采樣人臉圖像。但是,他們將具有屬性向量的LR人臉圖像連接起來作為一個融合方案。在最終結果中導致失真和幻影偽影。 Chenet等人[27]除了利用面部特征外。估計面部地標熱圖和解析圖,然后將它們連接到由粗到精網絡提取的面部特征,生成HR面部圖像。然而,在低質量和模糊的面部上檢測面部標志是相當困難的,并且比較容易犯錯誤。此外,預測的人臉解析圖還包含許多缺陷,這些缺陷主要表現為不合理的孔洞和模棱兩可的區域。信息不完善會導致算法的健壯性降低,同時會產生不可預測的不合邏輯的結果。 Bulat和Tzimiropoulos [28]提出了Super-FAN,它在訓練過程中建立了超分辨臉部與地面真相之間的臉部地標熱圖約束。由于測試時不直接使用臉部結構先驗,因此該方法有時會產生負面結果,但結果卻很奇怪。姿勢和謬誤的屬性。 
-  1)結構增強網絡:結構增強網絡用于預測人臉邊界熱圖并同時提取人臉特征,然后將其組合以重建HR人臉圖像。如圖5所示,SE-Net由幾個級聯的特征提取單元(FEU),邊界提取單元(BEU)和FeatureFusion單元(FFU)組成。 FEU用于提取臉部特征,同時通過跳過連接來集成以前的單元的功能。 BEU旨在估計面部邊界熱圖。為了提高邊界提取的性能,我們使用了堆疊的BEU的級聯,并且在訓練過程中對每個中間單元進行了監督。提出了通過空間關注機制融合面部特征和面部邊界熱圖的FFU。實際上,對于每種類型的單元,我們實際上都使用6個來構建SE-Net。 
-  4)特征融合單元:為融合人臉特征和人臉結構先驗,先前的工作[27],[33]采用了通道級聯。然而,與臉部特征相比,提取的臉部先驗在數量上相對稀缺,這容易導致臉部先驗不堪重負。為了緩解這種情況,我們提出了一種特征融合單元,通過空間關注機制將輸入的人臉特征和人臉邊界熱圖結合起來,如圖8所示。具體來說,我們首先將從BEU提取的面部邊界熱圖上采樣到與從FEU獲得的HR面部特征相同的大小。然后,我們獲得特定部位的面部邊界熱圖,包括眉毛,眼睛,鼻子,嘴唇和面部外輪廓。特定的人臉邊界熱圖可以集成到整個人臉熱圖中,它不僅包含人臉語義信息,還包含人臉結構信息。圖9示出了人臉邊界熱圖的一些樣本。接下來,我們探索一種空間關注機制來融合人臉特征和人臉邊界熱圖。假設F和B分別表示人臉特征和整合的人臉邊界熱圖。細化的特征R定義為 
 
- 在SE-Net中,我們提出了三種類型的單元,包括特征提取單元,邊界提取單元和特征融合單元。 FEU構成了基本的骨干網。 BEU用于先提取面部邊界熱圖作為面部結構。 FFU確定如何融合先驗信息。為了研究單元是否有用和合理,我們在SE-Net中采用了三種不同的配置。第一種是僅使用FEU,這是類似于DenseNet [36]的骨干網絡。第二種是使用FEU和BEU,通過通道級聯直接組合面部邊界熱圖和面部特征,與[27]相同。 ]。第三是通過使用FFU在空間關注機制中融合面部邊界熱圖和面部特征的標準SE-Net。如表IV所示,僅使用FEU的骨干網會產生較低的PSNR和SSIM。當采用FEU和BEU時,PSNR從25.21 dB增加到25.39 dB。這表明人臉結構先驗對人臉超分辨率有積極影響。此外,帶有FFU的普通SE-Net將PSNR從25.39 dB提高到25.74 dB,將SSIM從0.6734提高到0.6779。驗證了FFU先于融合人臉結構優于粗糙級聯特征圖的方法。此外,與BEU相比,FFU大大提高了PSNR和SSIM。一種合理的解釋是,使用FFU的融合方法可以將結構信息應用于所有特征圖,而另一種使用通道級聯的融合方法則導致特征圖中的結構信息所占比例很小。
提出方法
- 我們的目標是學習從LR面部圖像到HR的映射,其中特定的面部語義和結構先驗可以促進推理。因此,為面部超分辨率提出了一個兩階段的框架,如圖2所示。 3.在第一階段,將面部語義屬性信息嵌入到屬性轉換網絡(AT-Net)中,以確保超分辨的面部圖像具有明確的屬性和合理的外觀。在第二階段,將面部結構表示為多個面部邊界熱圖。此外,我們提出了一種結構增強網絡(SE-Net),該網絡同時提取深層面部特征并估計面部邊界熱圖,然后將它們組合以通過空間關注來生成HR面部圖像另外,一些評估網絡被用來提高框架的性能,這些評估網絡側重于面部圖像的感知上重要的屬性,例如身份相似度,屬性準確性和圖像質量。在訓練過程中,我們受益于生成的對抗性學習,以使最終的超分辨面孔在視覺上令人愉悅。在本節中,我們將詳細介紹擬議的框架,包括相關的網絡和培訓細節
結論
- 本文提出了一個兩階段的人臉超分辨率框架,該框架由人臉語義屬性轉換和自我關注結構增強組成。將人臉語義和結構信息引入框架,以促進人臉超分辨率的推理。實驗結果表明,人臉語義和結構信息對人臉超分辨率有明顯的好處,我們提出的方法優于目前的狀態。準確性和真實性方面的替代技術。
 
圖1:使用所提出的方法對真實世界的低分辨率人臉圖像進行超分辨率的示例結果。最大的圖片是真實世界的降級圖像。右列是從前者提取的低質量面部圖像(32×32像素)。最下面的一行是我們方法的相應超分辨結果(128×128像素)。
 
 
 圖2:基于深度學習的方法(包括基于CNN和GAN的方法)的示意圖。 (a)基于CNN的方法,未引入對抗訓練策略。 (b)基于GAN的方法,其中包括通過添加鑒別器進行對抗訓練的過程。 (c)為(a)和(b)中的方法構造LR / HR人臉圖像對
 
 圖3:建議的人臉超分辨率框架。該框架主要通過構建一個AT-Net和SE-Net以及一些評估網絡來實現面部語義屬性的轉換和自我關注結構的增強。
 
 圖4:與面部語義屬性轉換有關的擬議網絡。 (a)屬性轉換網絡(AT-Net)。 (b)辨別器網絡。 (c)屬性預測網絡。
 
 圖5:結構增強網絡的示意圖。結構增強網絡由級聯的特征提取單元(FEU),邊界提取單元(BEU)和特征融合單元(FFU)組成。
 
 圖6:特征提取單元(FEU)的體系結構
 圖7:邊界提取單元(BEU)的體系結構。
 
 圖8:功能融合單元(FFU)的體系結構
 
 圖9:人臉邊界熱圖的可視化樣本。從左到右:HR臉部圖像,臉部邊界熱圖(即眉毛,眼睛,鼻子,嘴唇和臉部外部輪廓),集成臉部熱圖和疊加了熱圖的臉部圖像。
 
圖10:真面面部邊界熱圖的生成過程。 (a)人力資源面部圖像。 (b)面對地標。 (c)面界線。 (d)以熱圖形式的臉部邊界。(e)真實的臉部邊界熱圖。
 
圖11:操作屬性轉換的效果左側的文本注釋是對原始屬性的操縱。 (一)LR圖像。 (b)人力資源圖像。 (c)具有原始屬性的結果。 (d)具有操縱屬性的結果
總結
以上是生活随笔為你收集整理的ATSENet论文阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 链脉王亮:如何用电子名片玩转微信营销
- 下一篇: 利用独立同分布的中心极限定理生成正态分布
