MNA-CNN: 如何在美学质量评估中储存照片原始信息
傳統基于深度學習的圖片美學評估的要求輸入是fixed-size,待評估的照片經常會經過裁剪、縮放和充填等變換,造成圖片質量的下降。
那如何可以實現對原始圖片尺寸進行美學質量評估呢?
示例:由上圖,可以看出對圖片尺寸的更改,直觀上對美學質量就有較大影響。
于是,作者提出了一個composition-preserving deep ConvNet method,可以對原圖進行美學特征的提取,不損壞原圖質量。
具體的方法就是在常規卷積層和池化層前面加入一個spatial pooling layer,以直接處理輸入圖片的原始大小和長寬比。
接下來,就具體描述下作者的方法。
Background
首先,作者使用了一個廣泛使用的圖片分類網絡ImageNet,將網絡的top layer進行調整使之適應于美學質量評估任務。即將softmax prediction layer變成具有sigmoid激活函數的單一線性單元。
示例:深度學習網絡結構
令fw表示為一個投影方程
其中,QI表示為圖片I的美學質量。
令fcl(I)表示為最后一層全連接層的輸出,sigmoid激活函數利用了圖片美學質量的先驗概率
將訓練樣本對S={In,ym}作為輸入,其實yn為二進制(表示高質量與低質量)。令W表示為網絡的連接權重集合,則可用stochastic gradient descend algorithm優化下式
獲得網絡結構參數。
Composition-preserving?Deep ConvNet
作者對上述網絡結構進行了修改與調整,采用了adaptive spatial pooling (ASP)strategy來替代原本的fixed-size約束。
示例:adaptive spatial pooling layer。ASP層在本地映像區域執行類似于傳統池化層的運算(例如 max pooling)。但不同的是,ASP層代替了原本的輸出維度,可相應地調整receptive field的大小。
接下來就是作者提出的Multi-Net Adaptive-Pooling ConvNet (MNA-CNN)的網絡結構示意。
示例:MNA-CNN包含多個子網絡,每個子網絡的最后一層池化輸出都轉變成ASP。每個子網絡的輸入均為同一幅圖片,每個子網絡的輸出通過average operator可獲得一個最終的總體預測輸出值。
作者又對所提出的網絡結構做了進一步的改進。
用一個aggregation layer取代MNA-CNN的average operator算子。將每個子網絡的預測值和作為每幅圖片的scene-categorization posteriors輸入,輸出最后的美學質量估值。
示例:Scene-Aware Multi-Net Aggregation。將所提出的網絡與scene-categorization deep network相結合。頂層的分類器以子網絡預測和圖像場景分類的后驗概率作為特征向量,并產生最終的美學分類。
Experiments
作者將所設計網絡應用于AVA數據集,實驗效果則如下所示:
可以說是,美學質量評估效果還是很棒棒的。
接著,通過實驗檢驗下ASP的有效性
? ? ? ? 以及Composition-preserving 有效性
示例1
示例2
綜上,可以說作者提出的Composition-preserving網絡在美學質量評估方面效果很是不錯的。
原文鏈接:
[1] Mai, Long, Hailin Jin, and Feng Liu. "Composition-preserving deep photo aesthetics assessment. "?Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
? ? ??
? ? ? ? 隨著攝影平臺積累的數據和用戶的手動標注信息越來越多,相關的公司和團隊在這個研究上將具有絕對壓倒性的優勢。
? ? ? ? 這里還是給自己的攝影分享公眾號《言有三工作室》和攝影平臺500px,圖蟲做個宣傳。
????????知乎專欄已經開通,歡迎來吐槽,投稿
https://zhuanlan.zhihu.com/c_146817036?group_id=923257138554384384
總結
以上是生活随笔為你收集整理的MNA-CNN: 如何在美学质量评估中储存照片原始信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从alexnet到resnet,初探深度
- 下一篇: 【GAN的应用】基于对抗学习的图像美学增