视频编码帧间学习笔记(个人向初学小结)
????????以下鏈接是視頻編碼的淺析,原理解釋的很詳細(像素計算過程錯了,但原理沒錯),小白必看。?
視頻編碼技術詳解_tiankong19999的博客-CSDN博客_視頻編碼1、引言 如今我們所處的時代,是移動互聯網時代,也可以說是視頻時代。從快播到抖音,從“三生三世”到“延禧攻略”,我們的生活,被越來越多的視頻元素所影響。 而這一切,離不開視頻拍攝技術的不斷升級,還有視頻制作產業的日益強大。 此外,也離不開通信技術的飛速進步。試想一下,如果還是當年的56K Modem撥號,或者是2G手機,你還能享受到現在動輒10...https://blog.csdn.net/guoyunfei123/article/details/105597859?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164734297916780255289258%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=164734297916780255289258&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-105597859.142%5Ev2%5Epc_search_result_control_group,143%5Ev4%5Eregister&utm_term=%E8%A7%86%E9%A2%91%E7%BC%96%E7%A0%81&spm=1018.2226.3001.4187
??以下是HM編碼器原理介紹,由HM項目里面的software-manual.pdf說明書翻譯而來http://t.csdn.cn/POkfd
?
1.1????????近三年幀間的一些具體方向
?????????對于改進幀間預測,一類是預測塊劃分的改進,一類是運動矢量精度的提高,一類是在運動補償上增加一些新技術,提高幀間預測的準確度。H.266之于H.265在幀間預測工具作了很多擴展和新增:擴展Merge模式、改進運動估計、運動參數精細化、聯合預測方法。其應用范疇包括HDR視頻、360全景視頻、計算機屏幕視頻等。今后主要是以下幾個研究方向值得關注:基于AI的視頻壓縮算法、更多的基于各種視頻感知度量的最佳視頻壓縮方法、設計專門用于機器的視頻壓縮方法。以下是閱讀一些論文的筆記:
1.1.1? ? ? ? GAN+幀間
? ? ? ? 總的來說就是通過RNN學習在相鄰視圖之間進行多個局部視圖間預測,視圖預測的目的是模擬人類對視依賴模式的感知。也就是說,根據相鄰視圖之間的變化,人們可以很容易地想象出中間的中心視圖,同時也可以根據中心反向想象出鄰居視圖。最終達到優化全局特征的提取的目的。
1.1.2? ? ? ? 數據挖掘+幀間
????????利用數據挖掘有選擇地預測需要CRFPM的塊的方法。該方法可以被視為一個二元分類任務,應用于每個塊,以決定是使用SRFPM (Class 0)預測,還是使用CRFPM或SRFPM (Class 1)預測。該方法的中心思想就是訓練一個決策樹。
1.1.3? ? ? ? 幀間的3D擴展
? ? ? ? (1)利用自動閾值技術將深度圖分為背景、中間地帶和前景三個部分;然后,根據CTU的分類調整搜索范圍。
? ? ? ? (2)遮擋情況下的三維幀間運動估計:首先估計可見區域的運動,并結合時間信息,通過一個涉及lstm的圖神經網絡來推斷被遮擋區域的運動。此外,通過用概率模型建模網絡輸出來計算估計運動的置信度,從而減少不可信的運動,實現魯棒跟蹤。隨著運動誤差的減小,該技術可以處理長且具有挑戰性的運動序列。
? ? ? ? (3)3D-MOT是自動駕駛中應用的一項重要的感知技術,以連續幀序列作為特定類別目標的輸入和輸出軌跡。在連續的幀中,目標的軌跡用帶有跟蹤id的三維方框表示。同一目標在不同幀中用對應的唯一ID標識。
1.1.4? ? ? ? 幀間和幀內的編碼權衡問題
????????現有的工作只關注于減少每兩個相鄰幀之間的變化,而忽略了幀內和幀間的編碼權衡問題。由于預測編碼機制問題,幀內的失真可以傳播到幀間。因此,需要更好地分析幀內編碼和幀間編碼之間的相關性,以便改進。通過改進幀內和幀間編碼權衡來改善QC,而不是追求每幀的最優解。
1.1.5? ? ? ? ?注意力+幀間
? ? ? ? 其實就是關鍵幀提取,我覺得跟幀間有一點關聯,我的想法是:快視頻瀏覽其實并不需要很多幀,只需要瀏覽一些關鍵的信息,中間幀人腦會自動補足,就可以直接省去中間幀。這里我看的論文用的就是注意力機制的方法。
1.1.6? ? ? ? 遮擋問題
????????視頻全景分割 (VPS) 需要生成一致的全景分割并跟蹤視頻幀中所有像素的身份。現有的方法主要是基于經過訓練的實例嵌入來保持一致的全景分割。然而,它們不可避免地難以應對小物體、外觀相似但身份不一致、遮擋和強烈的實例輪廓變形等挑戰。為了解決這些問題,我們提出了 HybridTracker,這是一種輕量級的聯合跟蹤模型,試圖消除單個跟蹤器的限制。 HybridTracker 并行執行像素跟蹤器和實例跟蹤器以獲得關聯矩陣,將關聯矩陣融合成匹配矩陣。在實例跟蹤器中,我們設計了一個可微匹配層,保證了幀間匹配的穩定性。在像素跟蹤器中,給定估計的光流,我們計算不同幀的同一實例的骰子系數,形成聯合交集(IoU)矩陣。我們還在推理過程中提出了相互檢查和時間一致性約束,以解決遮擋和輪廓變形挑戰。大量實驗表明,HybridTracker 在 Cityscapes-VPS 和 VIPER 數據集上優于最先進的方法。
1.1.7????????小波在視頻幀間壓縮中的應用
????????由于小波變換為信號處理帶來的額外優勢,將小波應用于視頻壓縮的想法已經獲得了動力。本文探討了一種視頻壓縮去噪算法,該算法可以消除幀內和幀間噪聲。此外,還探討了視頻壓縮的必要性以及我們如何使用各種指標來確定視頻壓縮質量。他們考慮了視頻壓縮中的各種標準,因為它們有助于降低編解碼器的成本,同時引發產品開發和產業增長,并實現不同制造商的產品之間的兼容性。
1.1.8????????點云壓縮的分數運動估計
????????受視頻編碼中分數像素運動的成功啟發,我們探索了具有分數體素分辨率的運動估計設計,用于壓縮動態 3D 點云的顏色屬性。我們提出的基于塊的分數體素運動估計方案考慮了點云和視頻之間的根本差異,即幀內和幀間體素分布的不規則性。我們表明,運動補償可以受益于分數精度提供的更高分辨率參考和更準確的位移。我們提出的方案明顯優于僅使用整數運動的可比方法。所提出的方案可以與使用諸如區域自適應圖傅里葉變換和區域自適應哈爾變換等變換的最先進系統相結合并增加相當大的增益
1.2? ? ? ? 幀間+深度學習的一些具體方向和優缺點
????????隨著數字視頻技術的出現和視頻采集設備的普遍使用,視頻及其壓縮變得越來越突出。傳統的視頻壓縮需要借助人工智能、機器學習、神經網絡和深度學習進行升級。除了正常的信號處理之外,深度學習技術還具有優勢,因為它們可以處理內容分析,而不是僅處理相鄰像素。視頻壓縮的初始步驟、幀內/幀間預測在整體壓縮中提供了更好的百分比。現有幀內預測方法的計算復雜度較高。?
1.2.1????????使用 CNN 的基于深度學習的幀內預測方法
????????這種深度深度預測算法訓練網絡以減少計算量和時間來提供 CTU 的深度。
1.2.2????????具有幀間預測和線性變換的壓縮神經網絡
????????由于資源受限的環境,網絡壓縮已成為深度神經網絡研究的重要組成部分。在本文中,我們發現內核權重之間的相互關系稱為層間內核相關(ILKC)。兩個不同卷積層之間的核權重在形狀和值上具有很大的相似性。基于這種關系,我們提出了一種新的壓縮方法,層間內核預測(ILKP),它通過卷積神經網絡中內核權重之間的相似性來表示位數較少的卷積內核。此外,為了有效地適應視頻編碼技術的幀間預測方案,我們將線性變換集成到了預測方案中,從而顯著提高了壓縮效率。所提方法達到了93.77%的top-1精度, 壓縮率與CIFAR10上的ResNet110基線模型相比。這意味著通過使用更少的內存占用空間,可實現0.04%的top-1精度提高。此外,結合量化,所提出的方法與CIFAR10和CIFAR100上訓練的ResNets基線模型相比,壓縮率幾乎沒有性能下降。
1.2.3????????用于幀間預測的具有多域分層約束的深度參考生成
????????幀間預測是視頻編碼中用于去除時間冗余的重要模塊,其中從先前編碼的幀中搜索相似的參考塊并用于預測要編碼的塊。盡管現有的視頻編解碼器可以估計和補償塊級運動,但它們的幀間預測性能仍然受到由不規則旋轉和變形引起的剩余不一致像素級位移的嚴重影響。在本文中,通過提出一個深度幀插值網絡來在編碼場景中生成額外的參考幀來解決這個問題。首先,總結了以前用于幀插值的自適應卷積,并提出了一個分解核卷積網絡,以提高建模能力并同時保持其緊湊的形式。其次,為了更好地訓練這個網絡,引入了多域分層約束來規范我們的分解核卷積網絡的訓練。對于空間域,使用逐漸下采樣和上采樣的自動編碼器來為不同尺度的幀插值生成分解內核。對于質量域,考慮到輸入幀的質量不一致,分解的內核卷積用質量相關的特征進行調制,以學習從高質量幀中利用更多信息。對于頻域,利用進行頻率變換的絕對變換差值損失之和,從編碼性能的角度便于網絡優化。?????
1.2.4????????基于合成候選參考(SCR)的幀間預測
????????不是對 LF 視頻中的所有視圖進行編碼,而是僅壓縮部分視圖,而使用 LF-CNN 從編碼視圖重建剩余視圖。所選視圖的預測結構能夠適應視圖之間的相似性。受視圖合成算法有效性的啟發,合成結果被用作額外的候選參考,以進一步減少幀間冗余。
1.2.5????????混合運動補償 (HMC) 方法
????????近年來,學習視頻編碼取得了快速進展。大多數算法僅依靠基于矢量的運動表示和重采樣(例如,基于光流的雙線性采樣)來利用幀間冗余。盡管基于自適應內核的重采樣(例如自適應卷積和可變形卷積)在未壓縮視頻的視頻預測中取得了巨大成功,但將這些方法與幀間編碼的速率失真優化相結合卻不太成功。認識到每種重采樣解決方案在具有不同運動和紋理特征的區域中都具有獨特的優勢,提出了一種混合運動補償 (HMC) 方法,該方法自適應地結合了這兩種方法生成的預測。具體來說,使用來自當前幀和多個過去幀的信息,通過循環信息聚合 (RIA) 模塊生成復合時空表示 (CSTR)。進一步設計一個一對多的解碼器管道,以從 CSTR 生成多個預測,包括基于矢量的重采樣、基于自適應內核的重采樣、補償模式選擇圖和紋理增強,并將它們自適應地組合以實現更準確的幀間預測。實驗表明,他們提出的幀間編碼系統可以提供更好的運動補償預測,并且對遮擋和復雜運動具有更強的魯棒性。與聯合訓練的幀內編碼器和殘差編碼器一起,與傳統的 H.264/AVC 和 H.265/HEVC 相比,整體學習的混合編碼器在低延遲場景中產生了最先進的編碼效率正如最近發布的基于學習的方法,在 PSNR 和 MS-SSIM 指標方面。
1.3? ? ? ? 5個幀間研究方向具體詳解和優劣
通過3.20號的組會,總結了幾個預備深入學習的研究方向。
1.3.1? ? ? ? 遮擋情況下的三維幀間運動估計
? ? ? ? 三維動態的目標是重建被記錄對象的形狀、運動和外觀,從而使用戶能夠記錄、編輯、動畫,并與真實的3D目標進行游戲,應用場景包括3D設計、視頻游戲、電信、虛擬現實和增強現實。
????????在給定一幅輸入RGB-D圖像和當前重構模型的節點圖的情況下,首先用該方法估計前一幅圖像到當前輸入圖像的二維光流,然后,利用二維光流圖像和深度圖像,計算出可見節點的三維運動。將可見節點的三維運動和完整的節點圖都輸入到圖神經網絡中。同時引入LSTM模塊來整合節點的歷史運動,將時間信息傳遞到圖神經網絡中。最后,圖神經網絡以每個節點的置信度預測全節點運動。利用預測的節點運動和置信度,進一步優化圖節點的變形參數。
????????優缺點:雖然這個方法通過引入基于圖的全運動預測網絡提高了運動跟蹤的質量,但仍然存在一些失敗的情況。首先,這個方法不能處理拓撲變化,對于基于節點圖的重構系統來說這是一個開放的問題。變形圖中的錯誤連接可能導致跟蹤失敗。可能的解決方案可以利用無跟蹤重建方法的優勢,如reference[24],或使用神經網絡來預測圖節點的位置和連接,如reference的[4]。另外,如果物體的某一部分被長期遮擋,并且有較大的非剛體運動,那么當物體重新可見時,這個方法也很難對其進行重新跟蹤。
1.3.2????????幀間和幀內的編碼權衡問題
? ? ? ? 首先,考慮到幀內的重要性,提出了一種新的面向幀質量一致性的IQP(intraframes quantization parameter)預測框架,然后利用所提出的懲罰項去除不合格的IQP候選項;其次,廣泛地評估可能的特征,并為所有剩余幀選擇每像素的目標位,幀QPs的平均與標準方差,其中給出了QP特征的等效捕獲方法。第三,根據帶寬和先前的信息有效地裁剪預測的IQPs,以獲得更好的比特率精度。
????????現有的IQP工作大多是隱式或顯式的R-D gains,而不是QC。評價幀質量波動的指標主要有兩種:相鄰幀之間的平均絕對質量差、幀質量的標準方差。R-D 指的是research-development。
?????????機器學習算法有足夠的數據和模型調整,選擇以學習為基礎的方法解決intracoding和intercoding的問題。第一步,不同的幀內QP attempts使用不同的TBRs去限制編碼帶寬,最好的QP代表最流暢的質量,被標記為每個序列和每個目標比特率的真實值,選擇哪個標準對實現視頻編碼的性能起了很大作用。第二步,視頻編碼模型在實際的編碼器實現,實際上對精度和復雜度有自己獨特的要求,因此要求學習算法在允許計算復雜度增加的情況下能夠獲得更好的視頻編碼性能,而不僅僅是預測精度。此外,還需要對特征進行有效的提取。第三步,將訓練后的模型應用到實際編碼過程中,利用預測的幀內QP對幀內和幀間編碼進行優化,在固定的編碼配置下,既能獲得編碼折衷,又能獲得一致的編碼質量。
1.3.3? ? ? ? 點云
? ? ? ? 屬于VR、3D方面應用廣泛的技術,對3D物體進行處理時,只關注點,不關注邊。
????????首先在相鄰的被占用的integer voxels之間創建fractional voxels。Neighboring voxels用于與物體表面保持一致性,不需要對表面進行明確的估計。然后,通過插值每個fractional voxels的屬性,從附近的integer voxels獲得更高分辨率的點云。fractional-voxel motion estimation (FvME)是通過integer-voxel MVs (IvMVs) 給出的位置周圍搜索fractional-voxel MVs (FvMVs),選擇運動補償預測誤差最小的分數位移來實現的。運動補償預測是通過直接復制參考幀中匹配塊中最近體素的屬性作為當前幀中塊體素的屬性來實現的。FvME方案與基于變換的方法相比,在沒有內部或內部預測的情況下,性能得到了改善,也明顯優于基于IvMV的時間預測方法。
? ? ? ? ?(a)描述了所有可能的候選整數和1/2體素位置。(b)顯示了3個被占用的整數體素位置的例子,這些整數體素對應的分數體素是從相鄰的整數體素中獲得的。
?
1.3.4???????使用 CNN 的基于深度學習的幀內預測方法?
? ? ? ? 如何兼具噪聲平衡?
1.3.5? ? ? ? 待定
總結
以上是生活随笔為你收集整理的视频编码帧间学习笔记(个人向初学小结)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 达内重磅推出校园版“非你莫属”《名企有约
- 下一篇: ubuntu software