多媒体表示、描述、编码以及通信的相关规定和标准课程总结
- 時間:2016.10.11-2016. 11.3
- 注意關注會議
機構
ITU(國際電信聯盟)
MPEG: Moving Picture Experts Group,動態圖像專家組, 是ISO(International Standardization Organization,國際標準化組織)與IEC(International Electrotechnical Commission,國際電工委員會)于1988年成立的專門針對運動圖像和語音壓縮制定國際標準的組織。每年舉辦三次會議。
3GPP: 3GPP的目標是實現由2G網絡到3G網絡的平滑過渡,保證未來技術的后向兼容性,支持輕松建網及系統間的漫游和兼容性。 其職能: 3GPP主要是制訂以GSM核心網為基礎,UTRA(FDD為W-CDMA技術,TDD為TD-CDMA技術)為無線接口的第三代技術規范。
標準
MPEG標準:
- MPEG-1/1993:11172,VCD
- MPEG-2/1995:13818,DVD
- MPEG-4/1999:.mp4格式的視頻,目前仍在使用
- MPEG-4 AAC/2003 /H.264
- MPEG-7/2001:15938,檢索標準,較老了
- HEVC(2013)/H.265
- MPEG-21
Dolby AC3標準
AVS標準
兩種向量差值的表示:
歐氏距離:|F1-F2|^2; 歐幾里得度量(euclidean metric)(也稱歐氏距離)是一個通常采用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。
馬氏距離: 馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關于身高的信息會帶來一條關于體重的信息,因為兩者是有關聯的)并且是尺度無關的(scale-invariant),即獨立于測量尺度。對于一個均值為μ,協方差矩陣為Σ的多變量向量,其馬氏距離為(x-μ)’Σ^(-1)(x-μ)。
JPEG2000 圖像檢索
問題:描述、匹配、視角問題、手機搜索
拍照過程(信息有損失):
3D——>2D;
成像輸入——>攝像頭——>去噪——>對應RGB不同的通道對圖像采樣——>DSP處理——>輸出
描述:
Globle Feature:
- 顏色
- 結構
- 輪廓
Local Feature :
- keypoint(特征點、關鍵點)
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋轉、尺度等變換可重復檢測)
SIFT
SIFT概念:
尺度不變特征變換(Scale-invariant feature transform,SIFT),是用于圖像處理領域的一種描述。
這種描述具有尺度不變性,可在圖像中檢測出關鍵點,是一種局部特征描述子。
- keypoint(特征點、關鍵點)
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋轉、尺度等變換可重復檢測)
該方法于1999年由David Lowe首先發表于計算機視覺國際會議(International Conference on Computer Vision,ICCV),2004年再次經David Lowe整理完善后發表于International journal of computer vision(IJCV)。截止2014年8月,該論文單篇被引次數達25000余次。
SIFT實現方法:
金字塔形狀分解(pyramids);逐級檢測
尺度空間(scale space);DOG method
仿射(Affin Transform, AT)
包括:旋轉、傾斜、平移、縮放
第二課
MPEG-1
CD11172-1,音頻(A、B、C、D、E、F、G)
幀同步:CD11172-2,視頻。
注意:encoder issue編碼器問題,只要編碼后的碼流符合標準即可,對編解碼器并沒有規定,其中涉及優化問題。
MPEG-1 :13818(視頻標準)
幀內編碼:
audio(聽覺)
- Bn=20KHZ,Fs=44.1KHZ,或是48KHZ Bps=16bit
voice(語音)
- Bn=3.4KHZ->4KHZ ,Fs=8KHZ Bps=8bit
MPEG Audio
Audio layout2 ——MP2:時域上編碼
Audio layout3 ——MP2:濾波器組,切割成32個子帶
AAC MP3有更大的采樣率:8-96KHZ,更大的比特數和更長的幀長
編碼器
- CELP:較有名的編碼器, 基于模型的編碼
- MIDI
三基色:RGB
16777216種顏色
4096/2048 量化,取最大值
描述圖像,用于檢索的指標有
- PBC
- SRC
- Edge histogram
注意:旋轉不變性,解決的是角度問題。
總結
以上是生活随笔為你收集整理的多媒体表示、描述、编码以及通信的相关规定和标准课程总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 确善能日本宣布两支徕卡 M 卡口镜头停产
- 下一篇: AD制图相关问题总结