一文说说这十多年来计算机玩摄影的历史
0 導論
我是一個AI行業的從業者,也是一個攝影愛好者。
在不斷接觸攝影技術的過程中,也不斷地開始了解計算機算法,尤其是最新的深度學習技術在其中發揮的作用。
這篇文章的目的,是一個導論,面向的對象,也是大眾。但是,本著稍求甚解的原則,我接下來會盡量照顧受眾的同時,也說點技術。
攝影,說的粗淺一點,就說拍照吧,本身并不是一個技術很高的活,稍加訓練,就能成為合格的攝影師。
當然,攝影本身也可以是一門藝術,好的作品往往會帶入情緒等等。這是一個充滿抽象與主觀因素的領域。但我們不能因此陷在這個點上,不然下面就沒法說了。
好的照片,讓大眾心情愉悅,欣賞點贊的照片,是有共性的,而計算機玩攝影,就是要解決這個問題,怎么學習到攝影師和大眾的審美。
所以下面正式拋出關鍵詞:photo aesthetics
1 一窺 aesthetics
總的來說,包含以下幾個大方向;
所謂photo aesthetics,即計算機美學,這是計算機視覺的一個研究方向。它研究通過計算機來學會人的審美,狹義而簡單的來說,就是判斷一張圖片是高質量的,還是低質量的,也就是好與壞,數學上這是一個2分類問題。很多早期的研究,以及相應的數據庫CUHK【1】,CUHKPQ【2】的標注,都是為這個而服務。
從下圖相關論文的數量趨勢來看,現在是一個很活躍的領域。
從研究的現狀來看,這也是一個遠遠沒有飽和的區域。
相比人臉檢測,美顏等,這是一個更抽象,更難的問題,還處于高速發展期。
從2006年左右,這個領域開始有了比較系統的研究,至今十年出頭。所以,我接下來的介紹,也是近10年的一個概覽。
上面說了,最簡單也是最直觀最早期的研究,就是分辨一張圖是好,還是不好,是個2分類問題。
但是2分類問題有它的兩個重大的局限性:
(1)?美學不是一個很嚴謹的數學問題,而是有很強的主觀性,有很多的圖,介于好圖與非好圖之間,難以2分類,分界面實在不清晰。這導致問題本身定義不明確,數據的標注也很困難。
(2)?如果只是一直做2分類問題研究,那很多的應用無法實現,直接點的如圖像檢索排名,間接點的如構圖推薦,自適應濾鏡。
演變到后來,先是升級到了回歸問題,不僅分好壞,還要打個等級分。
什么意思呢?每一個樣本的標注不再是2分類,不僅僅是包含好圖與壞圖的標注,而是有了一個量化的分數,比如AVA數據集【3】分數的標注從1到10。
研究就變成了如何回歸出其標注的分數,最后給出每張圖片的平均分數。
從應用層面上講,主要包括了圖像檢索,自動構圖,智能濾鏡,甚至是直接創作。
以上,就是通常意義下的photo aesthetics包含的內容,核心思想就是學習分辨與創作好圖。
2 photo aesthetics的主要研究方法
在說應用之前,還是先說說我們的研究手段。
從技術的突破來說,以深度學習為界限,可以從傳統方法和深度學習方法來說。不過對于大多數問題和應用這兩者最大的區別就是:前者是手動設計特征,后者是自動學習特征。
所以,這里不從傳統方法和深度學習方法的維度來說,而是從研究問題的演變發展上說。
(1)?二分類問題。
1說了,最開始的時候,美學問題僅僅是被當做一個2分類問題。
早期的數據集CUHK【1】,CUHKPQ【2】,都只包含2分類的標注,也就是數據集中的圖片被人為分為了質量高與低的圖。
為了讓數據集更可靠,自然是選擇了一些區分度比較大,也就是不太容易產生歧義的圖片。質量好的,通常是大家都認為好,質量低的以此類推。
如下圖:
(a)是質量高的,(b)是質量低的,沒有疑問。
【2】可以認為是在【1】的基礎上問題的延續,它彌補了【1】中的巨大不足,就是不再對所有圖片一視同仁,而是不同類型的照片區分對待。
將所有的圖總共分為了7類,包括landscape,plant,animal,night,human,static,architecture。
上圖是一個示例,在研究過程中對不同的類別,開始采用不同的特征,考慮了圖像的多樣性(diversity)。
這是必須的,因為攝影中對待不同類型的照片,就是必須用不同的表現手法。
比如人像攝影中,尤其是近照,需要控制好光照,使用大光圈。而風景照中最需要的是好的構圖與豐富的色彩表達。
2分類問題研究方法的進步,就是不斷利用新的深度學習模型去提取特征,從alexnet【4】,到googlenet【5】到resnet【6】等的嘗試,以后專題介紹。
(2)?回歸問題。
由于2分類的局限性,自然而然的就演變成了回歸問題。
這個時候也就出現了新的供我們使用的數據庫,AVA【3】。
這是一個很大的數據庫,包括250000張照片。每一張照片,都有一個評分從1~10分。同時還有語義級別和照片風格的標注,以后我們詳說。
比較新的研究有【7】。相比于2分類問題,其實回歸問題也沒有太多新的東西,從數學上來說,無非就是輸出維度變了,loss function變了。
不過在學習具體分數值的過程中,有些研究更進一步,預測了分數的分布。也就是不僅僅預測了圖片的質量分數,還預測了它的分數概率圖,比如【8】。
(3)?相對美學問題。
這個的出發點,是從人的主觀上進行考慮。對于人來說,容易判斷的是一張圖片的相對好壞,而不是絕對分數。
同時又由于更可靠穩定的有打分標注的數據集的獲取成本之高,催生了一些研究。就是在學習的過程中,沒有一個絕對的分數來指導你。
【8】,【9】都是相關研究。
從訓練上來看,這一般輸入的訓練是多個圖像,可能是兩個圖像,也可能是多個圖像,一起丟進網絡去學習哪一個更好。
下面是一個結果展示,右邊的比左邊的質量高。相對美學,在圖像檢索和圖像增強中是有很大的作用的。
相對美學,是一個很值得研究的問題。
(4)?多任務學習問題
最簡單粗暴的方法,就是不管是什么圖像,都直接提特征,分類也好,回歸也好。但是,顯然這是不可能很好的解決問題的。
攝影美學是講究因材施教的,不同類型的圖像,審美標準完全不同。
那么,直接對所有的圖片,采用同樣的方法學習,是不通,所以就有方法,或利用圖像style,semantic信息進行弱監督,或直接將style和score,semantic一起學習【10】。
至于怎么做,按住不表,下回再論。
3 Photo aesthetics應用
總的來說,包含以下幾個大方向;
(1)?圖像檢索
我們在搜索引擎中搜索圖片時,自然是希望能夠盡量返回質量高的圖,恨不得是高清原圖。
但是目前的搜索引擎并不能做到。
因為,目前的都是基于tag做的檢索,而不是圖像本身的質量。
下面就在百度中搜了一個學校美照,出來的效果不怎么樣。
學校沒得到體現,人像很多也是普普通通的大頭照,從攝影師的角度來看,真的很一般。
當然,你也可以去搜索更多的關鍵詞,反正我在使用過程中常常不滿意。Google圖片質量比百度高,但是也還有很大的發展空間。
?
(2)?圖像自動構圖
自動裁剪這個,自打用上iphone起,它的照片管理工具就自帶這個功能了,但是其他好用的app,我還沒有發現。
這是個什么問題,專業點的說法,就是攝影構圖。
它做的就是去除不必要的元素,合理安排畫面中的元素分布。
每一個攝影師拍完照做后期時,第一步肯定就是做圖像裁剪。
就算是最后沒有裁剪,第一步也會看是不是需要裁剪!
為什么。因為你拍照的時候,很多時候來不及細細的去構圖,
只有在后期認真想的時候,
才會去精細地調整。
據我體驗,目前iphone照片管理軟件的自動裁剪功能,主要還是對人像管用,下面給大家看個例子就知道了。
干脆把兩張前后對比圖拿過來大家瞧瞧,想想為什么要這么裁剪?
自動裁剪前
? 自動裁剪后
可以看出,去除了更多的干擾,使畫面更加平衡與和諧。
關于更多的構圖攝影知識,請關注我另一個攝影公眾號《言有三工作室》,里面有大量的教程可以學習體驗。
至于構圖的一些研究,可以參考【11】【12】,下回說細節。
(3)?自適應濾鏡
現在就沒有一個app能夠自動推薦濾鏡,后期很多的時候是很繁瑣的。
對于菜鳥來說,只能去各種嘗試已有的濾鏡。
對于高手來說,需要很多時間來積累經驗,也需要時間去選擇更好的方案。
費時費力,還不一定能達到最好的效果,所以,我們其實都很期待出現一個app,
能夠自動幫我們選擇一個好的風格濾鏡。
可惜,現在比較優秀的后期app,如snapseed,潑辣修圖,也僅僅是能夠對圖像的對比度,亮度等自適應地做些調整。
關于現有的發展,更詳細的介紹,在我的攝影公眾號《言有三工作室》的文章
Apple和Google他們為小白們的修圖大業做了什么?中有詳細的說明,大家有興趣可以自行前往閱讀。
現在比較好的研究,也有一些。
像名字取得比較嚇人的【13】,號稱end-to-end可以把手機照片提升至單反畫質,不過實際效果看來,主要是減少了陰影,總體上學習到了使圖像變得更加通透。缺點是對比度經常放的太高,同時因為采用了GAN,放大了噪聲。
這種事當然不能少了湯曉鷗他們團隊,EnhanceGAN算是很新的應用了【14】,也成功地學習到了顏色,對比度等調整方法,不是end-to-end的方法,而是image-crop與enhancement交叉訓練。
最大的優點是不需要成對的標注圖像了(這是通過gan,和一批有著2分類標簽的高質量圖和低質量圖來實現的)。
早期的方法【15】是需要成對的標注圖像,成本太高,所以數據集不可能很大。以后不需要成對圖像做訓練的方法,必將成為主流。
(4)?風格化
這個,其實已經踏進藝術的創作,而不僅僅是攝影的范疇了。
行內人士可能還記得《image style transfer using convolutional neural networks》【16】這篇文章,后來催生了prisma,當時那個很火的濾鏡。
整個的流程就如同下面這樣,一張原圖,一個風格,最后做融合。
不過,沒過多久,就退燒了。畢竟,那樣玩圖太“高級”,不是大眾剛需,也就沒見人玩了。
但是,并不是說他就不重要的了。
像pixtopix【17】這樣的文章出來之后,風格化仍然有很大的市場。
比如黑白圖像上色,比如圖像風格轉化(夏天冬天風格轉化)【18】,甚至做得極端點,cycle-gan【19】這樣的,不需要成對地標注,把斑馬和馬相互轉換的有意思的研究。
未來,還大有可為!
4 Photo aesthetics焦點問題
難點?
(1)?怎么利用數學的方法去建模內部的美學規則。
(2)?怎樣自適應調整不同的圖片之間的美學差異。
(3)?如何準確判斷一張圖采用的技術。
(4)?怎樣獲取一個標注詳細的大數據庫。
熱點
(1)?網絡結構設計相關問題,如多尺度多patch。
(2)?圖片風格,語義信息的應用。
(3)?怎么自動獲取數據的標注。
(4)?最新技術在其中的應用,GAN。
?
這一次,只是一個入門介紹,后續,敬請期待!
?
作者簡介:
言有三,原360AI研究院工程師,一個攝影愛好者。
想了解更多的細節,就來我計算機視覺公眾號《視若觀火》,以及攝影公眾號《言有三工作室》吧
當然,攝影平臺500px和圖蟲,更是天天更新噢。
另外,邀請你來我10天后的gitchat活動一起討論學習。
http://gitbook.cn/m/mazi/activity/5a10fa46a625c025b1800fc3?giftToken=a8c65830-ccd9-11e7-a69c-c935a9531f2d&sut=844a9360d28611e79254eb304c8a2a1e
如果有土豪覺得文章OK,想打個賞,那就樂呵呵接受了!
【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6
【2】 W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7
【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.
【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.
【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.
【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.
【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.
【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.
【10】 Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.
【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.
【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.
【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.
【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.
【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.
【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.
【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.
總結
以上是生活随笔為你收集整理的一文说说这十多年来计算机玩摄影的历史的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为了压榨CNN模型,这几年大家都干了什么
- 下一篇: 为AI摄影铺路,第一个大规模的美学质量数