CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE
全球計算機視覺三大頂級會議之一 CVPR 2019 將于當地時間 6 月 16-20 日在美國洛杉磯舉辦。屆時,曠視研究院將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會介紹一篇被 CVPR 2019 接收的論文,本文是第 9 篇,曠視成都研究院提出一個極其簡單但是高效、基于上下文信息的級聯性年齡估計模型 ——C3AE。
論文名稱:C3AE: Exploring the Limits of Compact Model for Age Estimation
論文鏈接:https://arxiv.org/abs/1904.05059
導語
簡介
模型
用于小尺寸圖像的緊致模型:重新思考標準卷積
年齡的兩點表征
級聯訓練
基于周圍環境的回歸模型
實驗
在 Morph II 上的對比
在 FG-NET 上的對比
結論
參考文獻
往期解讀
?
導語
?
在計算機視覺領域,年齡估計(Age Estimation)是一個經典的學習問題。隨著 CNN 網絡(比如 AlexNet、VGGNet、GoogLeNet、ResNet)不斷變大變深,其性能也獲得長足提升;但是上述模型并不適用于嵌入式/移動設備。
?
最近,MobileNet 和 ShuffleNet 系列算法降低參數數量,帶來了輕量級模型。但是由于采用深度可分離卷積,特征表達能力被弱化。在調查了緊致模型(Compact Model)在中小尺度圖像方面的局限性之后,曠視研究院提出了一個極其簡單但高效的基于語境的年齡估計模型 ——C3AE。
?
相較于 MobileNets、ShuffleNets 和 VGGNet,該網絡只有其 1/9 和 1/2000 的參數量,但取得了極具競爭力的性能。具體而言,曠視研究院把年齡估計問題重新定義為基于級聯模型的兩點表示;并且,為充分利用面部的上下文信息,提出了三分支 CNN 網絡,以集成多個尺度的上下文信息。三個年齡估計數據集上的實驗表明,C3AE 很大程度地推進了緊致模型的當前最佳性能。
簡介
??
近年來,越大越深的卷積神經網絡在帶來精度提升的同時,也帶來了計算成本前所未有的提升,無論是對于訓練還是部署而言。具體而言,受限于模型大小和計算量,在智能手機、汽車、機器人等嵌入式/邊緣設備上運行現有的大型模型(比如 AlexNet、VGGNet、ResNet、InceptionV1-V4)幾近不可能。
?
為解決上述問題,最近,MobileNet 和 ShuffleNet 系列算法通過深度可分離卷積方法極大減少參數量,在這些模型中,傳統的卷積被一個兩步的改進卷積所替代,即逐通道卷積和逐點卷積。這兩個系列算法將所有的關注點都集中在模型改進上,忽略了圖像的輸入尺寸也與模型設計息息相關,尤其是緊致性模型設計。事實上,卷積模塊中的卷積層/或者池化層很大程度上類似直接對圖像做下采樣操作,但是其卷積層卻耗費了大量的參數和計算量。
?
對于大尺寸圖像而言,這樣的操作(可分離卷積)是可行的,因為圖像需要被大量通道所表征;對于低分辨率的中小尺寸圖像來說,這就需要打問號。另外對于識別問題來說,許多高清的大尺度圖像是沒有必要的,幾倍的下采樣往往并不影響模型的性能,但卻極大地影響著模型設計。
?
相較于大尺寸圖像,中小尺寸圖像經常只需要網絡中更少的通道來表征,當然計算量和參數量也一樣會大幅度減少。因此,和深度可分離卷積相比,中小尺寸圖像的標準卷積層并不需要太多的參數和內存。
?
從圖像表征的角度看,可分離卷積的輸出通道數量是標準卷積的很多倍。為補償表征能力,可分離卷積不得不增加參數。因此,曠視研究院認為,使用小卷積核的一般卷積層比深度可分離卷積層更適合處理中小尺寸圖像。
?
之前的許多緊致性模型都在思考如何改進模型或者卷積層以滿足現實需求,很少考慮圖像的輸入尺寸與模型設計的關系。對于一個識別系統來說,當圖像清晰度合適時,許多低分辨率的圖像往往也是非常合格的訓練樣本,如圖 1 所示。
?
圖像的存儲和處理要在低分辨率、中小尺寸的情況下,即小圖像運行在低功耗的移動設備上,年齡估計即是與此相關的困難問題之一。
?
比如,人們可以輕易地識別出圖 1 中男人的年齡,不管他的臉是低分辨率、局部或是全局的。曠視研究院認為,當下的普通卷積神經網絡同樣可以擁有這種能力,通過設計一個帶有標準卷積層的簡單網絡,并把中小尺寸人臉圖像作為年齡估計的輸入,也能設計一個非常緊致的模型。事實上,對圖像進行下采樣的過程就對應到神經網絡中的池化過程,只是之前的許多工作都把研究重心放在了模型改進上。
▲?圖1:不管何種分辨率和大小,人們可以輕易識別上圖男子的年齡。曠視研究院新方法 C3AE 把小尺寸圖像(64 × 64 × 3)作為輸入進行年齡估計,同樣取得了不俗的效果
?
年齡估計的最新進展通常歸納為兩個方向:1)聯合分類與年齡值回歸,2)分布匹配。在本文中,曠視研究院嘗試同時利用分類、回歸和標簽分布的信息,它的實現是通過把年齡值表征為兩個相鄰年齡等級上的一個分布(如圖 2 所示),并且訓練目標是最小化分布之間的匹配(如圖 3 所示)。
?
在深度回歸模型中,會在特征層和年齡值預測層之間嵌入一個帶有語義分布的全連接層,該全連接層即是預測的分布。
?
總體而言,曠視研究院設計了一個緊致模型,它把所有中/小尺度圖像作為輸入,使用標準卷積而不是深度卷積,其中能較好地控制特征層的通道數。據知,這應該是目前為止最小的人臉識別模型,基礎模型僅 0.19 MB,完整模型約 0.25 MB;接著,曠視研究員把分離的年齡值表征為一個分布,并設計一個級聯模型;進而,曠視研究員引入一個基于語境的回歸模型,它把多個尺寸的人臉圖像作為輸入。
?
借助于這一簡單的基礎模型、級聯式訓練以及多尺寸語境,曠視研究院旨在解決所有的中小尺寸圖像的年齡估計問題,這一方法稱之為——C3AE。事實上這一思路可以推廣到許多其他的應用中。
模型
??
曠視研究員首先展示了基礎模型及其架構,接著描述了新的年齡兩點表示方法,并通過級聯的方式將其嵌入到深度回歸模型中。隨后,借助于三個不同尺度下的人臉信息,加入了基于周圍環境信息的集成模塊,通過共享的 CNN 嵌入到單一的回歸模型中。
?
用于中小尺寸圖像的緊致模型:重新思考標準卷積
?
本文的基礎模型(plain model)由 5 個標準卷積和 2 個全連接層構成,如表 1 所示;曠視研究員還展示為什么使用標準的卷積模塊而不是 MobileNet 和 ShuffleNet 系列模型所用的可分離的卷積模塊。本文設計的基礎模型極其簡單,也不 fashion,但是一點也不影響其良好的性能。
▲?表1:C3AE基礎模型
?
在 MobileNet 系列模型中,對參數量與計算量降低方面的狀況進行了分析,尤其是標準卷積和可分離卷積之間的對比。這一分析適用于大尺寸圖像,而對于中、小尺寸圖像,效果則不一定好。
年齡的兩點表征
?
曠視研究員借助兩點表征對年齡估計實現了重新定義,即把一個全新的年齡表征看作是兩個離散且相鄰的 bin 的一個分布。任意點的表征是通過兩個鄰近的 bin,而不是任意兩個或多個 bin 來表示。顯然,兩點表征的分布是稀疏的,只有其中兩個元素是非零的。
?
▲?圖3:借助兩點表征重新定義年齡估計任務
?
級聯訓練
年齡值可由分布向量表征,但是分布向量的組合方式是多種多樣的。兩點表征很適合解決這種多樣性的不足。那么下一個問題是,如何把向量信息嵌入到一個端到端的網絡中。本文通過級聯模型做到了這一步,如圖 2 所示。具體而言,一個帶有語義信息(年齡分布)的全連接層被嵌入到特征層和回歸層之間,并使用 KL loss 進行約束。
?
▲?圖2:C3AE圖示
?
基于周圍環境的回歸模型
?
中小尺寸圖像的分辨率和大小是限定的,利用不同尺寸下的人臉信息很有必要。如圖 1 所示,分辨率更高的圖像有著豐富的局部信息,而分辨率較低的圖像則有著全局信息和場景信息。除了挑選 SSR 中一個對齊的人臉框外,本文按照三個尺寸剪裁人臉中心,如圖 2 所示,緊接著將其輸入到共享的 CNN 網絡,最后三種尺寸的人臉圖像的特征通過級聯模塊之前的串聯(concatenation)進行聚合。
實驗
?
實驗包含三個部分。第一部分是基礎模型的對比實驗(1):對比使用基礎模型的 SSR、MobileNet V2、ShuffleNet V2 和 C3AE;第二部分是消去實驗(2):討論級聯模塊(兩點表示)和基于周圍場景模塊的必要性;第三部分是與當前最優方法的一些對比實驗。本文主要介紹第三部分。
?
在 Morph II 上的對比
?
如表 5 所示,在 Morph II 上,C3AE(full model)在從頭開始訓練和在 IMDB-WIKI 上預訓練兩種情況下分別取得了2.78 和 2.75 MAE,這是所有簡單模型中的當前最佳結果;而C3AE(plain model)則直截了當地取得了 3.13 MAE。總之,C3AE 以超輕量級模型在 Morph II 上取得了很有競爭力的結果。
?
▲?表5:C3AE在Morph II上的對比結果
在 FG-NET 上的對比
?
如表 6 所示,在 FG-NET 上,C3AE 與一些當前最優模型做了對比。通過平均絕對值損失,經過預訓練的 MV 取得了最佳結果 2.68 MAE,而 C3AE 經過預訓練實現的結果是 2.95 MAE 和 0.17 std,即第二優結果。此外,在沒有預訓練的情況下,C3AE 取得的結果 4.09 稍優于 MV 的 4.10。總之,在 FG-NET 上的對比證明了 C3AE 的有效性和競爭力。
?
▲?表6:C3AE在FG-NET上的對比結果
結論
?
曠視研究院提出了一個極簡單模型,稱之為 C3AE,相較于其他簡單模型(緊致性模型),C3AE 取得了當前最優的結果,且相比于大模型其表現也很有競爭力。多個消去實驗也證明了 C3AE 各個模塊的有效性。對于中小尺寸的圖像和模型,本文也給出了一些分析和思考。未來,曠視研究院將會評估 C3AE 在一般數據集和更廣泛應用上的有效性。
?
參考文獻
?
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In CVPR, 2016.?
Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, WeijunWang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficientconvolutional neural networks for mobile vision applications. arXiv preprintarXiv:1704.04861, 2017.?
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenetclassification with deep convolutional neural networks. In NIPS, 2012.?
Ningning Ma,Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. Shufflenetv2: Practical guidelines for efficient cnn architec- ture design. In ECCV,2018.?
Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zh- moginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In CVPR, 2018.?
X Zhang, X Zhou, M Lin, and J Sun. Shufflenet: An extremelyefficient convolutional neural network for mobile devices. arxiv 2017. arXivpreprint arXiv:1707.01083.
?
傳送門
?
歡迎各位同學關注曠視成都研究院(及同名知乎專欄:https://zhuanlan.zhihu.com/c_1119253499380166656,簡歷可以投遞給研究院負責人劉帥成(liushuaicheng@megvii.com)
往期解讀:
CVPR 2019 | 曠視提出GIF2Video:首個深度學習GIF質量提升方法
CVPR 2019 | 曠視Oral論文提出GeoNet:基于測地距離的點云分析深度網絡
CVPR 2019 | 曠視提出超分辨率新方法Meta-SR:單一模型實現任意縮放因子
CVPR 2019 | 曠視實時語義分割技術DFANet:高清虛化無需雙攝
CVPR 2019 | 曠視研究院提出ML-GCN:基于圖卷積網絡的多標簽圖像識別模型
CVPR 2019 | 曠視研究院提出新型損失函數:改善邊界框模糊問題
CVPR 2019 | 曠視研究院提出Geo-CNN:建模3D點云的局部幾何結構
CVPR 2019 | 曠視研究院提出DeepLiDAR:通過曲面法線實現稠密深度預測
CVPR 2019 | 曠視研究院提出極輕量級年齡估計模型C3AE
CVPR 2019 | 曠視研究院提出用于全景分割的端到端閉環網絡OANet
CVPR 2019 | 曠視研究院提出TACNet,刷新時空動作檢測技術新高度
CVPR 2019 | 曠視研究院提出一種行人重識別監督之下的紋理生成網絡
點擊以下標題查看更多往期內容:?
CVPR 2019 | 無監督領域特定單圖像去模糊
論文盤點:CVPR 2019 - 文本檢測專題
近期值得讀的10篇GAN進展論文
小樣本學習(Few-shot Learning)綜述
萬字綜述之生成對抗網絡(GAN)
可逆ResNet:極致的暴力美學
CVPR 2019 | 基于池化技術的顯著性目標檢測
CVPR 2019 | 天秤座R-CNN:全面平衡目標檢測器
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 征文通知 | 第十八届中国计算语言学大会
- 下一篇: 周志华《机器学习》西瓜书出全新视频课啦!