全国人工智能大赛 AI+4K HDR赛项 冠军团队方案分享
冠軍團隊由三名博士生組成,目前此方案在投論文中,之后方案代碼會開源。
團隊名稱:沒學可上
團隊成員:
曾輝 博士研究生(第4年)
楊熹 博士研究生(第1年)
梁杰 博士研究生(第1年)
賽題任務
視頻四倍超分+HDR,要求將低質量540p SDR視頻重建為高質量、已調色的4K HDR視頻。
評測方法:最終得分 = 25 * PSNR 項 + 25 * SSIM 項 + 50 * VMAF 項
關于賽題的詳細信息可以查看和鯨科技賽事頁面:
https://www.kesci.com/home/competition/5d84728ab1468c002ca1825a
賽題分析
此次4K HDR比賽包含眾多子任務,初步按照高頻和低頻兩個方向劃分為:
高頻方面,需要去噪和超分
低頻方面,需要做亮度矯正、色彩增強和SDR轉HDR (即inverse tone mapping)
給定時間和硬件環境下同時解決上述多個任務,需要重點考慮兩個方面的矛盾
矛盾一:高頻和低頻
亮度矯正和色彩增強等低頻任務需要足夠多的圖像內容才能進行準確判斷,因此訓練和測試都依賴于較大的patchsize和感受野。在顯存有限的情況下,大patch限制了模型的復雜度。
而去噪和超分等高頻任務pattern更不固定,更難學,需要較深的模型和比較長的訓練時間才能保證性能。
矛盾二:去噪和超分
去噪和超分關注圖像高頻細節,其中去噪不可避免地會損失高頻信息,而超分又需要恢復高頻,兩個任務本身存在矛盾之處。
基于以上對賽題的分析,需要綜合考慮亮度、色彩、去噪、超分等幾個方面,在相互矛盾的子任務之間找到最合適的平衡點,設計最優的解決方案。同時由于本次任務所給數據退化較嚴重,需要仔細分析退化模式并相應地設計出有效的數據處理方案。
整體方案
數據預處理
這一部分的目的是修正數據分布,簡化學習任務。處理步驟基于對數據集的觀察及實驗,人工得出的經驗。
具體操作:
計算YUV空間亮度均值。這一步可以篩出嚴重過曝的視頻(直接排除),以及視頻的黑邊(直接輸出結果0(SDR)->4099(HDR)
計算HSV空間直方圖距離。這一步可以檢測出場景的轉換,提高多幀融合穩定性。
中值濾波去除椒鹽噪聲點,如果濾波后與濾波前像素值大于某個閾值,則用非椒鹽噪聲點替換原始值,反之不處理。
Non-local mean濾波去除部分高斯噪聲
模型學習
特征提取
1.采用大patch(384x768)輸入,確保低頻任務獲得足夠大的感受野;
2.采用一層instance normalization對亮度做歸一化;
3.提前下采樣,降低顯存消耗,節省計算資源。
特征對齊與融合
1. 采用EDVR中的PCD模塊多幀對齊;
2. HardTanh約束offset越界,(-32,+32);
3. TV約束offset平滑,利用圖像空域的連續性先驗。
低頻任務學習
方案一
1.UNet結構進一步增大模型感受野,促進低頻內容學習;
2.采用pixel shuffle的方式上采樣,減少上采樣產生的halo。
方案二
學習多個3D LUTs進行色彩增強
此模型優點為:僅0.6M參數;SOTA性能;4K分辨率上200+FPS;有明確物理意義。
高頻細節恢復
1.采用RCAN中的deep residual channel attention模塊重構細節;
2.不同尺度采用不同的channel維度,兼顧性能與效率。
訓練&預測
將前面幾個模塊串聯起來之后,計算多尺度損失,這樣可以提高訓練效率。模型訓練好之后,輸出中間的預測結果。
結果后處理
這一部分會對前一步的預測結果進行進一步處理,改善遺留問題,并且提升分數視覺效果。
具體操作:
亮度修正,幀間平滑
細節增強
黑邊補償
模型融合
理論分析及實驗發現,本任務中存在一些相互矛盾的子任務,需要合理設計兩者之間的trade-off以達到最佳的結果。比如,單個模型對不同場景亮度的恢復有時候偏亮有時候偏暗,模型的去噪能力與超分后的細節保留能力之間存在著明顯的沖突等等。基于以上分析,我們設計了一個雙模型融合的框架,其中,第一個模型Model_1采用未經處理的原始數據訓練,采用512x512的大patch輸入,重點恢復圖像低頻內容,第二個模型Model_2使用預處理過的數據,訓練采用384x384的patch訓練恢復盡可能多的細節。實驗發現,兩個模型的預測結果在去噪、細節保留、亮度估計、色彩估計等方面均有一定的互補性,融合之后能夠取得最佳效果。
參數量和復雜度分析
1.數據處理:經驗為主,參數為個位數
2.模型參數總量:26.67M
3.數據處理時間:2小時
4.模型訓練時間:86小時 (8卡V100)
5.測試時間:2.0張/秒(w/o ensemble),0.5張/秒(w ensemble)
技術總結
方案總結:
精細的數據預處理,簡化學習任務,提升學習效率
先低頻、后高頻、多尺度、多任務的高效學習框架
后處理進一步提升穩定性和視覺效果
創新點:
細致的數據預處理和后處理提升訓練的效率和測試效果。
采用大patch輸入和引入UNET結構增大感受野。
改進EDVR框架提升模型穩定性和表達能力。
多尺度loss約束不同頻段內容,提升訓練效率和效果。
雙模型融合,平衡不同模型設計下去噪與超分細節之間的矛盾,同時使預測結果的亮度估計更加穩定。
優點
靈活:任務可分解,過程更可控,結果更穩定
高效:模型參數少,訓練時間短,收斂速度快
穩定:結果瑕疵少,泛化能力強
不足
? ? 1.?高頻模塊計算代價大,無法滿足實時需求
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入本站微信群請回復“加群”獲取一折本站知識星球優惠券,請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的全国人工智能大赛 AI+4K HDR赛项 冠军团队方案分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于ELMo,面试官们都怎么问
- 下一篇: 关于Transformer,面试官们都怎