视频技术阐释
目錄
一、視頻定義
二、視頻原理
三、視頻中的圖像表達(dá)原理
四、視頻的基礎(chǔ)參數(shù):幀、長(zhǎng)寬比、分辨率、幀率、碼率、重采樣率、色深
五、視頻的高低頻
六、視頻編碼與格式
七、視頻評(píng)價(jià)
八、視頻開發(fā)庫(kù)
九、視頻協(xié)議
十、常用視頻編輯軟件
一、視頻定義
視頻(Video)泛指將一系列靜態(tài)影像用電信號(hào)的方式加以捕捉、紀(jì)錄、處理、儲(chǔ)存、傳送與重現(xiàn)的各種技術(shù)。視頻是連續(xù)的圖像序列,由于人眼的視覺暫留效應(yīng),當(dāng)連續(xù)圖像以一定的速率播放時(shí),我們看到的就是動(dòng)作連續(xù)的視頻。
二、視頻原理
人眼視覺殘留(余暉效應(yīng)):人眼觀看物體時(shí),成像于視網(wǎng)膜上,由視神經(jīng)將圖像傳入人腦,感覺到物體的像。當(dāng)物體移去時(shí),視神經(jīng)對(duì)物體的印象不會(huì)立即消失,而要延續(xù)1/24秒左右的時(shí)間,人眼的這種現(xiàn)象被稱為視覺暫留現(xiàn)象。依據(jù)以上原理,可以將連續(xù)的時(shí)間序列圖像在同一畫面上進(jìn)行快速展示,即可看到視頻效果。因此,視頻的幀率一般為24幀每秒以上,常用規(guī)格有25、29、30等,高速動(dòng)態(tài)視頻在60幀每秒以上。
從某種意義上說,視頻是連續(xù)時(shí)間序列圖像的集合,只不過這個(gè)集合經(jīng)過壓縮和封裝,我們看到卻是一個(gè)文件,如:MP4,avi,MKV,wmv,rm等等,用于視頻的存儲(chǔ)和傳輸。當(dāng)然,現(xiàn)行的視頻不僅包含有視頻數(shù)據(jù),還有音頻數(shù)據(jù)和字幕數(shù)據(jù)。如果要播放視頻就需要專門的解碼器或者說播放器,對(duì)視頻文件進(jìn)行解壓縮或者解碼,然后讀取視頻文件的元文件信息,在畫布上按照恒定的幀率展示時(shí)間序列影像。
三、視頻中的圖像表達(dá)原理
視頻是由連續(xù)圖像組成的,圖像是表達(dá)視頻的基本單位。視頻中的圖像表達(dá)模型有RGB 、HSI、YUV等多種模型,它們基于三原色原理,廣泛用于視頻的顯示中。
人眼可見光波長(zhǎng)范圍為380nm-780nm,物體通過反射將可見光傳入人眼中,人的大腦便有了物象,所有物象的顏色都可以看作是紅(R)、綠(G)、藍(lán)(B)三種可見光顏色的不同組合。國(guó)際照度委員會(huì)(CIE)在1931年規(guī)定了三種基本色的波長(zhǎng)分別為R:700nm ?G:546nm B:435.8nm。
三基色原理:
(1)分解:絕大多數(shù)的彩色,都能分解為相互獨(dú)立的紅、綠、藍(lán)三種基色光。
(2)合成:用相互獨(dú)立的紅、綠、藍(lán)三種基色光以不同的比例混合,可模擬出自然界中絕大多數(shù)的彩色。
(3)相互獨(dú)立性:三中基色中任何兩種顏色的組合都不能生成第三種顏色。
另一方面,單個(gè)的顏色也可以按照亮度、色調(diào)和飽和度三種基本特征量來表示。亮度與物體的反射率成正比,如果無彩色就只有亮度的一維變化。對(duì)彩色來說,顏色中摻入白色越多就越明亮,摻入的黑色越多亮度就越小。色調(diào)是與混合光譜中主要波長(zhǎng)相聯(lián)系的。飽和度與一定色調(diào)的純度有關(guān),純光譜色是完全飽和的,隨著白色的加入飽和度逐漸減少。
RGB:R-red紅色;G-green綠色;B-blue藍(lán)色
HSI:H-Hue-色調(diào),S-Saturation飽和度,I-Intensity密度
YUV:亮度色度模型Luma-Chroma,Y-Luminance亮度,色度Chroma被分解為兩個(gè)分量(UV):u水平方向表示圖像色彩或者紅色色度,v-vertical垂直方向表示色彩飽和度或者藍(lán)色色度,此處的UV坐標(biāo)區(qū)別于紋理坐標(biāo)UV,不過他們都是一種直角坐標(biāo)表示(xyz-uvw)。
RGB模型
光的三原色是紅(Red)、綠(Green)、藍(lán)(Blue)。現(xiàn)代的顯示器技術(shù)就是通過組合不同強(qiáng)度的三原色,來達(dá)成任何一種可見光的顏色。圖像儲(chǔ)存中,通過記錄每個(gè)像素紅綠藍(lán)強(qiáng)度,來記錄圖像的方法,稱為RGB模型 (RGB Model),常見的圖片格式中,PNG和BMP這圖像格式就是基于RGB模型的。
比如說下圖:
分別只顯示R G B通道的強(qiáng)度,效果如下:
三個(gè)通道下,信息量和細(xì)節(jié)程度不一定是均勻分布的。比如說可以注意南小鳥臉上的紅暈,在3個(gè)平面上的區(qū)分程度就不同——紅色平面下幾乎無從區(qū)分,造成區(qū)別的主要是綠色和藍(lán)色的平面。外圍白色的臉頰,三色都近乎飽和;但是紅暈部分,只有紅色飽和,綠色和藍(lán)色不飽和。這是造成紅色凸顯的原因。
YUV模型
除了RGB模型,還有一種廣泛采用的模型,稱為YUV模型,又被稱為亮度-色度模型(Luma-Chroma)。
亮度:亮度是指圖形原色的明暗程度。亮度的調(diào)整就是明暗程度的調(diào)整。亮度的范圍是從0——255,共256種色調(diào)。
色相:色相是指從物體反射或透過物體傳播的顏色。簡(jiǎn)單的說色相就是色彩顏色,對(duì)色相的調(diào)整就是在多種顏色之間的變化,例如紅、橙、黃、綠、青、藍(lán)、紫七色組成,每一種顏色即道標(biāo)一種色相。
飽和度:飽和度也成為彩度,是指顏色的強(qiáng)度或純度。調(diào)整飽和度就是調(diào)整圖像的彩度。將一個(gè)彩色圖像的飽和度降為0時(shí),就會(huì)變?yōu)榛疑珗D像,增加飽和度就會(huì)增加彩度。
對(duì)比度:對(duì)比度是指不同顏色之間的差異,對(duì)比度越大,兩種顏色之間的反差越大。反之顏色越接近。
YUV模型下,有不同的實(shí)現(xiàn)方式。用得比較多有YCbCr模型:它把RGB轉(zhuǎn)換成一個(gè)亮度(Y),和 藍(lán)色色度(Cb) 以及 紅色色度(Cr)。
只有亮度通道:
只有藍(lán)色色度:
只有紅色色度:
YUV主要用于優(yōu)化彩色視頻信號(hào)的傳輸,使其向后相容老式黑白電視。與RGB視頻信號(hào)傳輸相比,它最大的優(yōu)點(diǎn)在于只需占用極少的頻寬(RGB要求三個(gè)獨(dú)立的視頻信號(hào)同時(shí)傳輸)。其中“Y”表示明亮度(Luminance或Luma),也就是灰階值;而“U”和“V” 表示的則是色度(Chrominance或Chroma),作用是描述影像色彩及飽和度,用于指定像素的顏色?!傲炼取笔峭高^RGB輸入信號(hào)來建立的,方法是將RGB信號(hào)的特定部分疊加到一起。“色度”則定義了顏色的兩個(gè)方面─色調(diào)與飽和度,分別用Cr和Cb來表示。其中,Cr反映了RGB輸入信號(hào)紅色部分與RGB信號(hào)亮度值之間的差異。而Cb反映的是RGB輸入信號(hào)藍(lán)色部分與RGB信號(hào)亮度值之同的差異。在圖像視頻的加工與儲(chǔ)存中,YUV模型一般更受歡迎,理由如下:
1、人眼對(duì)亮度的敏感度遠(yuǎn)高于色度,因此人眼看到的有效信息主要來自于亮度。YUV模型可以將絕大多數(shù)的有效信息分配到Y(jié)通道。UV通道相對(duì)記錄的信息少的多。相對(duì)于RGB模型較為平均的分配,YUV模型將多數(shù)有效信息集中在Y通道,不但減少了冗余信息量,還為壓縮提供了便利
2、保持了對(duì)黑白顯示設(shè)備的向下兼容
3、圖像編輯中,調(diào)節(jié)亮度和顏色飽和度,在YUV模型下更方便。
幾乎所有的視頻格式,以及廣泛使用的JPEG圖像格式,都是基于YCbCr模型的。播放的時(shí)候,播放器需要將YCbCr的信息,通過計(jì)算,轉(zhuǎn)換為RGB。這個(gè)步驟稱為渲染(Rendering)每個(gè)通道的記錄,通常是用整數(shù)來表示。比如RGB24,就是RGB各8個(gè)bit,用0~255 (8bit的二進(jìn)制數(shù)范圍)來表示某個(gè)顏色的強(qiáng)弱。YUV模型也不例外,也是用整數(shù)來表示每個(gè)通道的高低。
RGB與YUV相互轉(zhuǎn)換公式為:
Y = 0.299 R + 0.587 G + 0.114 B? U = -0.1687 R - 0.3313 G + 0.5 B + 128 V = 0.5 R - 0.4187 G - 0.0813 B + 128R = Y + 1.402 (V-128) G = Y - 0.34414 (U-128) - 0.71414 (V-128) B = Y + 1.772 (U-128)四、視頻的基礎(chǔ)參數(shù):幀、長(zhǎng)寬比、分辨率、幀率、碼率、重采樣率、色深
1、視頻幀
視頻是由連續(xù)的圖像構(gòu)成的,視頻中的一幅圖像稱為一幀,相當(dāng)于電影中的一個(gè)鏡頭,幀是視頻、動(dòng)畫中最小單位的單幅影像畫面。
?當(dāng)采樣視頻信號(hào)時(shí),如果是通過逐行掃描,那么得到的信號(hào)就是一幀圖像,通常幀頻為25幀每秒(PAL制)、30幀每秒(NTSC制)。
當(dāng)采樣視頻信號(hào)時(shí),如果是通過隔行掃描(奇、偶數(shù)行),那么一幀圖像就被分成了兩場(chǎng),通常場(chǎng)頻為50Hz(PAL制)、60Hz(NTSC制)
關(guān)鍵幀是指視頻中角色或者物體運(yùn)動(dòng)或變化中的關(guān)鍵動(dòng)作所處的那一幀。
過度幀是指關(guān)鍵幀與關(guān)鍵幀之間插值得到的圖像。
I幀又稱幀內(nèi)編碼幀,是一種自帶全部信息的獨(dú)立幀,無需參考其他圖像便可獨(dú)立進(jìn)行解碼,可以簡(jiǎn)單理解為一張靜態(tài)畫面。視頻序列中的第一個(gè)幀始終都是I幀,因?yàn)樗顷P(guān)鍵幀。
 P幀又稱幀間預(yù)測(cè)編碼幀,需要參考前面的I幀才能進(jìn)行編碼。表示的是當(dāng)前幀畫面與前一幀(前一幀可能是I幀也可能是P幀)的差別。解碼時(shí)需要用之前緩存的畫面疊加上本幀定義的差別,生成最終畫面。與I幀相比,P幀通常占用更少的數(shù)據(jù)位,但不足是,由于P幀對(duì)前面的P和I參考幀有著復(fù)雜的依耐性,因此對(duì)傳輸錯(cuò)誤非常敏感。
 B幀又稱雙向預(yù)測(cè)編碼幀,也就是B幀記錄的是本幀與前后幀的差別。也就是說要解碼B幀,不僅要取得之前的緩存畫面,還要解碼之后的畫面,通過前后畫面的與本幀數(shù)據(jù)的疊加取得最終的畫面。B幀壓縮率高,但是對(duì)解碼性能要求較高。
在MPEG編碼的過程中,部分視頻幀序列壓縮成為I幀;部分壓縮成P幀;還有部分壓縮成B幀。I幀法是幀內(nèi)壓縮法,也稱為“關(guān)鍵幀”壓縮法,I幀是關(guān)鍵幀視頻內(nèi)部壓縮方法的具體表現(xiàn)形式。I幀法是基于離散余弦變換DCT(Discrete Cosine Transform)的壓縮技術(shù),這種算法與JPEG壓縮算法類似。采用I幀壓縮可達(dá)到1/6的壓縮比而無明顯的壓縮痕跡。
2、視頻長(zhǎng)寬比
長(zhǎng)寬比(Aspectratio)是用來描述視頻畫面與畫面元素的比例。傳統(tǒng)的電視屏幕長(zhǎng)寬比為4:3(1.33:1),HDTV的長(zhǎng)寬比為16:9(1.78:1),而35mm膠卷底片的長(zhǎng)寬比約為1.37:1。
雖然電腦熒幕上的像素大多為正方形,但是數(shù)字視頻的像素通常并非如此。例如使用于PAL及NTSC訊號(hào)的數(shù)位保存格式CCIR 601,以及其相對(duì)應(yīng)的非等方寬螢?zāi)桓袷?。因此?20x480像素記錄的NTSC規(guī)格DV影像可能因?yàn)槭潜容^“瘦”的像素格式而在放映時(shí)成為長(zhǎng)寬比4:3的畫面,或反之由于像素格式較“胖”而變成16:9的畫面。
3、視頻分辨率
視頻的分辨率是指每一幀圖像的長(zhǎng)寬積,比如說1920×1080的圖像,說明它是由橫縱1920×1080個(gè)像素點(diǎn)構(gòu)成,產(chǎn)品規(guī)格有:720×480,1920×1080,1280×720,1920×1080等。視頻分辨率影響圖像大小,與圖像大小成正比:分辨率越高,圖像越大;分辨率越低,圖像越小。
嚴(yán)格意義上說,屏幕分辨率(像素密度)是指屏幕單位長(zhǎng)度內(nèi)顯示的有效像素值,即:每英寸所包含的像素?cái)?shù)目(Pixels Per Inch:PPI),常用規(guī)格有常見的有72,180和300等。PPI值越高,包含的像素越多,畫面能夠顯示的細(xì)節(jié)就會(huì)越豐富,PPI超過300時(shí),就可以算是視網(wǎng)膜屏了,肉眼已經(jīng)分辨不出像素點(diǎn)。
(X:長(zhǎng)度像素?cái)?shù);Y:寬度像素?cái)?shù);Z:屏幕大小)
而打印機(jī)的分辨率則為每一英寸長(zhǎng)度中取樣、可顯示或輸出點(diǎn)的像素值數(shù)目(Dots Per Inch:dpi),常用規(guī)格用150、300、600等。一般的激光打印機(jī)的輸出分辨率是300dpi-600dpi,印刷的照排機(jī)達(dá)到1200dpi-2400dpi,常見的沖印一般在150dpi到300dpi之間。
一般而言,視頻分辨率越高,表現(xiàn)的細(xì)節(jié)層次越豐富,其清晰度也就越高。應(yīng)當(dāng)注意的是,視頻傳輸?shù)斤@示器,顯示器需要對(duì)視頻數(shù)據(jù)進(jìn)行重采樣才能在屏幕上顯示。因此,清晰度還與播放器重采樣的數(shù)值和顯示屏本身的分辨率有關(guān),其對(duì)應(yīng)關(guān)系如下:
 ? ?  顯示器大小  最大分辨率
  ???14英寸    1024×768
 ? ? ? ? ?15英寸    1280×1024
   ? 17英寸    1600×1280
   ??21英寸    1600×1280
由于廠商制作顯示器工藝的不同,單位長(zhǎng)度內(nèi)顯示的有效像素值是不一樣的(即:PPI不同),那么像素與像素之間的點(diǎn)距也是不同的??梢酝普?#xff0c;不同廠商生產(chǎn)同樣尺寸的顯示器,能夠顯示的最大像素值也是不一樣的,理想的情況應(yīng)該是顯示器至少因該大于300PPI(即視網(wǎng)膜屏幕,人眼分辨不出像素值大小)。
假定視頻分辨率很低,然而顯示屏分辨率很高,重采樣的點(diǎn)數(shù)需要插值,用戶體驗(yàn)的清晰度依舊很低。
在顯示器本身已經(jīng)是高清、超高清的情況下,高分辨率的視頻意味著視頻的收縮性更大,視頻的分辨率需要大于等于顯示器的最大分辨率,才能達(dá)到顯示器高質(zhì)量的清晰效果。
廣播電視和流媒體視頻分辨率規(guī)格:(i-interlace隔行掃描,p-逐行掃描)
D1:480i(525i):720×480(水平480線,隔行掃描),和NTSC模擬電視清晰度相同,行頻為15.25kHz,相當(dāng)于我們所說的4CIF(720×576)
 D2:480P(525p):720×480(水平480線,逐行掃描),較D1隔行掃描要清晰不少,和逐行掃描DVD規(guī)格相同,行頻為31.5kHz
 D3:1080i(1125i):1920×1080(水平1080線,隔行掃描),高清方式采用最多的一種分辨率,分辨率為1920×1080i/60Hz,行頻為33.75kHz
 D4:720p(750p):1280×720(水平720線,逐行掃描),雖然分辨率較D3要低,但是因?yàn)橹鹦袙呙?#xff0c;市面上更多人感覺相對(duì)于1080I(實(shí)際逐次540線)視覺效果更加清晰。不過個(gè)人感覺來說,在最大分辨率達(dá)到1920×1080的情況下,D3要比D4感覺更加清晰,尤其是文字表現(xiàn)力上,分辨率為1280×720p/60Hz,行頻為45kHz
 D5:1080p(1125p):1920×1080(水平1080線,逐行掃描),目前民用高清視頻的最高標(biāo)準(zhǔn),分辨率為1920×1080P/60Hz,行頻為67.5KHZ。
電影院視頻分辨率規(guī)格:2K=2048x1080;4K=4096x2160;?8K=8192x4320。
4、視頻幀率(fps)
視頻的幀率是指每秒鐘刷新的圖片的幀數(shù),也可以理解為圖形處理器每秒鐘能夠刷新幾次。常見的幀率有24000/1001=23.976, 30000/1001=29.970, 60000/1001=59.940, 25.000, 50.000等等。這個(gè)數(shù)字是1秒鐘內(nèi)閃過的圖像數(shù)量。比如23.976,就是1001秒內(nèi),有24000張圖像。視頻的幀率可以是恒定的(cfr, Const Frame-Rate),也可以是變化的(vfr, Variable Frame-Rate),取決于是否對(duì)視頻采用了時(shí)域壓縮算法。
 ?
高的幀率可以得到更流暢、更逼真的動(dòng)畫。通常來說,越高的幀速率可以得到更流暢、更逼真的動(dòng)畫。每秒鐘幀數(shù)(FPS)越多,所顯示的動(dòng)作就會(huì)越流暢。一般來說30fps就是可以接受的,但是將性能提升至60fps則可以明顯提升交互感和逼真感,一般來說幀率超過75fps,就不容易察覺到有明顯的流暢度提升了。如果幀率超過屏幕刷新率只會(huì)浪費(fèi)圖形處理的能力,因?yàn)楸O(jiān)視器不能以這么快的速度更新,這樣超過刷新率的幀率就浪費(fèi)掉了。
5、視頻碼率
碼率(碼流、位元傳輸率、比特率、位元速率)是指視頻文件在單位時(shí)間內(nèi)使用的數(shù)據(jù)流量。單位一般是Kbps(Kbit/s)或者M(jìn)bps(Mbit/s)。視頻幀率和碼率的區(qū)別在于是否將圖像的傳輸數(shù)量轉(zhuǎn)換為圖像的傳輸容量。
注意1B(Byte)=8b(bit)。所以一個(gè)24分鐘,900MB的視頻:
體積:900MB = 900MByte = 7200Mbit
時(shí)間:24min = 1440s
碼率:7200/1440??= 5000 Kbps = 5Mbps
碼率是一種表現(xiàn)視頻串流中所含有的資訊量的方法。較高的位元傳輸率將可容納更高的視頻品質(zhì)。例如DVD格式的視頻(典型位元傳輸率為5Mbps)的畫質(zhì)高于VCD格式的視頻(典型位元傳輸率為1Mbps)。HDTV格式擁有更高的(約20Mbps)位元傳輸率,也因此比DVD有更高的畫質(zhì)。
固定比特率CBR(Constant Bitrate)指文件從頭到尾都是一種位速率。相對(duì)于VBR和ABR來講,它壓縮出來的文件體積很大,但是碼率恒定,對(duì)于傳送帶寬固定,需要即時(shí)傳送并且沒有暫存手段的視頻串流來說,固定位元速率(Constant bit rate,CBR)比VBR更為適合。
動(dòng)態(tài)比特率-VBR(Variable Bitrate)也就是沒有固定的比特率,壓縮軟件在壓縮時(shí)根據(jù)音頻數(shù)據(jù)即時(shí)確定使用什么比特率。采用VBR編碼的視頻在大動(dòng)態(tài)或復(fù)雜的畫面時(shí)段會(huì)自動(dòng)以較高的速率來記錄影像,而在靜止或簡(jiǎn)單的畫面時(shí)段則降低速率。這樣可以在保證畫面品質(zhì)恒定的前提下盡量減少傳輸率。;
平均比特率-ABR(Average Bitrate)是VBR的一種插值參數(shù)。LAME針對(duì)CBR不佳的文件體積比和VBR生成文件大小不定的特點(diǎn)獨(dú)創(chuàng)了這種編碼模式。ABR在指定的文件大小內(nèi),以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對(duì)低的流量,高頻和大動(dòng)態(tài)表現(xiàn)時(shí)使用高流量,可以做為VBR和CBR的一種折衷選擇。
當(dāng)視頻文件的時(shí)間基本相同的時(shí)候(比如現(xiàn)在一集番大概是24分鐘),碼率和體積基本上是等價(jià)的,都是用來描述視頻大小的參數(shù)。長(zhǎng)度分辨率都相同的文件,體積不同,實(shí)際上就是碼率不同。通常來說同樣視頻分辨率下,視頻文件的碼流越大,壓縮比就越小,畫面質(zhì)量就越高。碼流越大,說明單位時(shí)間內(nèi)取樣率越大,數(shù)據(jù)流精度就越高,處理出來的文件就越接近原始文件,圖像質(zhì)量越好,畫質(zhì)越清晰,要求播放設(shè)備的解碼能力也越高。
6、視頻色深(位深)
色深(bit-depth),就是我們通常說的8bit和10bit,是指每個(gè)通道的精度(R\G\B為圖像的三個(gè)通道)。8bit就是每個(gè)通道用一個(gè)8bit整數(shù)(0~255)代表,10bit就是用10bit整數(shù)(0~1023)來顯示,16bit則是0~65535。
假定顯示器是8bit的,那么它能顯示RGB每個(gè)通道0~255所有強(qiáng)度。但是視頻的色深是YUV的色深,播放的時(shí)候,YUV需要通過計(jì)算轉(zhuǎn)換到RGB。因此,10bit的高精度是間接的,它使得運(yùn)算過程中精度增加,從而讓最后的顏色更細(xì)膩。
如何理解8bit顯示器,播放10bit是有必要的呢:
一個(gè)圓的半徑是12.33m, 求它的面積,保留兩位小數(shù)。
半徑的精度給定兩位小數(shù),結(jié)果也要求兩位小數(shù),那么圓周率精度需要給多高呢?也只要兩位小數(shù)么?
 取pi=3.14, 面積算出來是477.37平方米
 取pi=3.1416,面積算出來是477.61平方米
 取pi精度足夠高,面積算出來是477.61平方米。所以取pi=3.1416是足夠的,但是3.14就不夠了。
換言之,即便最終輸出的精度要求較低,也不意味著參與運(yùn)算的數(shù)字,以及運(yùn)算過程,可以保持較低的精度。在最終輸出是8bit RGB的前提下,10bit YUV比起8bit YUV依舊具有精度優(yōu)勢(shì)的原因就在這里。事實(shí)上,8bit YUV轉(zhuǎn)換后,覆蓋的精度大概相當(dāng)于8bit RGB的26%,而10bit轉(zhuǎn)換后的精度大約可以覆蓋97%——你想讓你家8bit顯示器發(fā)揮97%的細(xì)膩度么?看10bit吧。
8bit精度不足,主要表現(xiàn)在亮度較低的區(qū)域,容易形成色帶:
更高的位深意味著更加精細(xì)的顯示精度,但是如果視頻本身是8比特位的,即便你用16比特位的播放參數(shù),效果也不會(huì)很好。
7、視頻重采樣
視頻采樣定義了從連續(xù)信號(hào)中提取并組成離散信號(hào)的采樣個(gè)數(shù)。視頻采樣率是指將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)時(shí)的采樣頻率,也就是單位時(shí)間內(nèi)采樣多少點(diǎn),用赫茲(Hz)來表示。
采樣率類似于動(dòng)態(tài)影像的幀數(shù),比如電影的采樣率是24赫茲,PAL制式的采樣率是25赫茲,NTSC制式的采樣率是30赫茲。當(dāng)我們把采樣到的一個(gè)個(gè)靜止畫面再以采樣率同樣的速度回放時(shí),看到的就是連續(xù)的畫面。同樣的道理,把以44.1kHZ采樣率記錄的CD以同樣的速率播放時(shí),就能聽到連續(xù)的聲音。顯然,這個(gè)采樣率越高,聽到的聲音和看到的圖像就越連貫。當(dāng)然,人的聽覺和視覺器官能分辨的采樣率是有限的,基本上高于44.1kHZ采樣的聲音,絕大部分人已經(jīng)覺察不到其中的分別了。
 而聲音的位數(shù)就相當(dāng)于畫面的顏色數(shù),表示每個(gè)取樣的數(shù)據(jù)量,當(dāng)然數(shù)據(jù)量越大,回放的聲音越準(zhǔn)確,不至于把開水壺的叫聲和火車的鳴笛混淆。同樣的道理,對(duì)于畫面來說就是更清晰和準(zhǔn)確,不至于把血和西紅柿醬混淆。不過受人的器官的機(jī)能限制,16位的聲音和24位的畫面基本已經(jīng)是普通人類的極限了,更高位數(shù)就只能靠?jī)x器才能分辨出來了。比如電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,所以CD就比電話更清楚。
重采樣是指將原始視頻重新進(jìn)行采樣的過程?,F(xiàn)行所有的視頻播放器都可以對(duì)原始視頻數(shù)據(jù)進(jìn)行重采樣,以實(shí)現(xiàn)用戶需要的播放效果。重采樣數(shù)值的高低直接影響著視頻質(zhì)量的好壞,這也是從事視頻數(shù)據(jù)生產(chǎn)人員較為困惑的地方,大部分人分不清采樣與重采樣之間還有一條溝壑。但是如果視頻本身的數(shù)據(jù)質(zhì)量不好,重采樣的效果也不會(huì)很好。視頻的碼率雖然是衡量視頻質(zhì)量高低的一個(gè)重要因素,但是播放器會(huì)重新對(duì)視頻進(jìn)行采樣,相當(dāng)于在原視頻基礎(chǔ)上又額外對(duì)視頻進(jìn)行了限制,即便視頻的分辨率、幀率、碼流很高,如果視頻重采樣的參數(shù)很低,也會(huì)拉低視頻的質(zhì)量。
8、色度半采樣
在YUV模型的應(yīng)用中,Y和UV的重要性是不等同的。圖像視頻的實(shí)際儲(chǔ)存和傳輸中,通常將Y以全分辨率記錄,UV以減半甚至1/4的分辨率記錄。這個(gè)手段被稱為色度半采樣(Chroma Sub-Sampling)。色度半采樣可以有效減少傳輸帶寬,和加大UV平面的壓縮率,但是不可避免的會(huì)損失UV平面的有效信息。
我們平常的視頻,最常見的是420采樣。配合YUV格式,常常被寫作yuv420。這種采樣是Y保留全部,UV只以(1/2) x (1/2)的分辨率記錄。比如說1920×1080的視頻,其實(shí)只有亮度平面是1920×1080。兩個(gè)色度平面都只有960×540的分辨率。
當(dāng)然了,你也可以選擇不做縮減。這種稱為444采樣,或者yuv444。YUV三個(gè)平面全是滿分辨率。
在做YUV->RGB的時(shí)候,首先需要將縮水的UV分辨率拉升到Y(jié)的分辨率(madVR中允許自定義算法,在Chroma Upscaling當(dāng)中),然后再轉(zhuǎn)換到RGB。做RGB->YUV的轉(zhuǎn)換,也是先轉(zhuǎn)換到444(YUV的分辨率相同),再將UV分辨率降低。
一般能拿到的片源,包括所有藍(lán)光原盤,都是420采樣的。所以成品一般也保留420采樣。所以yuv420就表示這個(gè)視頻是420采樣的yuv格式。
將420做成444格式,需要自己手動(dòng)將UV分辨率拉升2×2倍。在今天madVR等渲染器可以很好地拉升UV平面的情況下,這種做法無異于毫無必要的拉升DVD做成偽高清。
當(dāng)然了,有時(shí)候也需要在444/RGB平面下做處理和修復(fù),常見的比如視頻本身RGB平面不重疊(比如摩卡少女櫻),這種修復(fù)過程首先要將UV分辨率拉升,然后轉(zhuǎn)RGB,做完修復(fù)再轉(zhuǎn)回YUV。修復(fù)后的結(jié)果相當(dāng)于全新構(gòu)圖,這種情況下保留444格式就是有理由,有必要的。
H264格式編碼444格式,需要High 4:4:4 Predictive Profile(簡(jiǎn)稱Hi444pp)。所以看到Hi444pp/yuv444 之類的標(biāo)示,你就需要去找壓制者的陳述,為什么他要做這么個(gè)拉升。如果找不到有效的理由,你應(yīng)該默認(rèn)作者是在瞎做。
五、視頻的高低頻
空間上的低頻與高頻:平面,紋理和線條
在視頻處理中,空間(spatial)的概念指的是一幀圖片以內(nèi)(你可以認(rèn)為就是一張圖所呈現(xiàn)的二維空間/平面)。跟時(shí)間(temporal)相對(duì);時(shí)間的概念就強(qiáng)調(diào)幀與幀之間的變換。
于是我們重新來看這張亮度的圖:
亮度變化較快,變動(dòng)幅度大的區(qū)域,我們稱之為高頻區(qū)域。否則,亮度變化緩慢且不明顯的區(qū)域,我們稱為低頻區(qū)域。
圖中的藍(lán)圈就是一塊典型的低頻區(qū)域,或者就叫做平面(平坦的部分)。亮度幾乎沒有變化
綠圈中,亮度呈現(xiàn)跳躍式的突變,這種高頻區(qū)域我們稱之為線條。
紅圈中,亮度頻繁變化,幅度有高有低,這種高頻區(qū)域我們稱為紋理。
有時(shí)候,線條和紋理(高頻區(qū)域)統(tǒng)稱為線條,平面(低頻區(qū)域)又叫做非線條。
這是亮度平面。色度平面,高頻低頻,線條等概念也同樣適用,就是描述色度變化的快慢輕重。一般我們所謂的“細(xì)節(jié)”,就是指圖像中的高頻信息。
一般來說,一張圖的高頻信息越多,意味著這張圖信息量越大,所需要記錄的數(shù)據(jù)量就越多,編碼所需要的運(yùn)算量也越大。如果一個(gè)視頻包含的空間性高頻信息很多(通俗點(diǎn)說就是每一幀內(nèi)細(xì)節(jié)很多),意味著這個(gè)視頻的空間復(fù)雜度很高。
記錄一張圖片,編碼器需要決定給怎樣的部分多少碼率。碼率在一張圖內(nèi)不同部分的分配,叫做碼率的空間分配。分配較好的時(shí)候,往往整幅圖目視觀感比較統(tǒng)一;分配不好常見的后果,就是線條紋理尚可,背景平面區(qū)域出現(xiàn)大量色帶色塊(碼率被過分的分配給線條);或者背景顏色過渡自然,紋理模糊,線條爛掉(碼率被過分的分配給非線條)。
時(shí)間上的低頻與高頻:動(dòng)態(tài)
在視頻處理中,時(shí)間(temporal)的概念強(qiáng)調(diào)幀與幀之間的變換。跟空間(spatial)相對(duì)。
動(dòng)態(tài)的概念無需多解釋;就是幀與幀之間圖像變化的強(qiáng)弱,變化頻率的高低。一段視頻如果動(dòng)態(tài)很高,變化劇烈,我們稱為時(shí)間復(fù)雜度較高,時(shí)域上的高頻信息多。否則如果視頻本身舒緩多靜態(tài),我們稱為時(shí)間復(fù)雜度低,時(shí)域上的低頻信息多。
一般來說,一段視頻的時(shí)域高頻信息多,動(dòng)態(tài)的信息量就大,所需要記錄的數(shù)據(jù)量就越多,編碼所需要的運(yùn)算量也越大。但是另一方面,人眼對(duì)高速變化的場(chǎng)景,敏感度不如靜態(tài)的圖片來的高(你沒有時(shí)間去仔細(xì)觀察細(xì)節(jié)),所以動(dòng)態(tài)場(chǎng)景的優(yōu)先度可以低于靜態(tài)場(chǎng)景。如何權(quán)衡以上兩點(diǎn)去分配碼率,被稱為碼率的時(shí)間分配。分配較好的時(shí)候,看視頻無論動(dòng)態(tài)還是靜態(tài)效果都較好;分配不好的時(shí)候往往是靜態(tài)部分看著還行,動(dòng)態(tài)部分糊爛掉;或者動(dòng)態(tài)部分效果過分的好,浪費(fèi)了大量碼率,造成靜態(tài)部分欠碼,瑕疵明顯。
很多人喜歡看靜止的截圖對(duì)比,來判斷視頻的畫質(zhì)。從觀看的角度,這種做法其實(shí)并不完全科學(xué)——如果你覺得比較爛的一幀其實(shí)是取自高動(dòng)態(tài)場(chǎng)景,那么這一幀稍微爛點(diǎn)無可厚非,反正觀看的時(shí)候你注意不到,將碼率省下來給靜態(tài)部分會(huì)更好。
六、視頻編碼與格式
視頻信號(hào)數(shù)字化后數(shù)據(jù)帶寬很高,通常在20MB/秒以上,因此計(jì)算機(jī)很難對(duì)之進(jìn)行保存和處理。由于視頻連續(xù)幀之間相似性極高,為便于儲(chǔ)存?zhèn)鬏?#xff0c;我們需要對(duì)原始的視頻進(jìn)行壓縮(編碼),采用壓縮技術(shù)通常將數(shù)據(jù)帶寬降到1-10MB/秒,這樣就可以將視頻信號(hào)保存在計(jì)算機(jī)中并作相應(yīng)的處理。視頻壓縮技術(shù)就是將數(shù)據(jù)中的冗余信息去掉(去除數(shù)據(jù)之間的相關(guān)性),視頻圖像數(shù)據(jù)的冗余信息可分為空域冗余信息和時(shí)域冗余信息。視頻壓縮或者編碼就是視頻中的去除空間、時(shí)間維度冗余信息。壓縮技術(shù)包含幀內(nèi)圖像數(shù)據(jù)壓縮和熵編碼壓縮技術(shù)(空間域)、幀間圖像數(shù)據(jù)壓縮技術(shù)(時(shí)間域)。
總體而言,空間冗余性可以借由“只記錄單幀畫面的一部分與另一部分的差異性”來減低;這種技巧被稱為幀內(nèi)壓縮(intraframe compression),并且與圖像壓縮密切相關(guān)。而時(shí)間冗余性則可借由“只記錄兩幀不同畫面間的差異性”來減低;這種技巧被稱為幀間壓縮(interframe compression),包括運(yùn)動(dòng)補(bǔ)償以及其他技術(shù)。目前最常用的視頻壓縮技術(shù)為DVD與衛(wèi)星直播電視所采用的MPEG-2,以及因特網(wǎng)傳輸常用的MPEG-4。
空間域、時(shí)間域壓縮技術(shù)有:
1、去空域
 主要使用幀內(nèi)編碼技術(shù)和熵編碼技術(shù):
 變換編碼:幀內(nèi)圖像和預(yù)測(cè)差分信號(hào)都有很高的空域冗余信息。變換編碼將空域信號(hào)變換到另一正交矢量空間,使其相關(guān)性下降,數(shù)據(jù)冗余度減小。
 量化編碼:經(jīng)過變換編碼后,產(chǎn)生一批變換系數(shù),對(duì)這些系數(shù)進(jìn)行量化,使編碼器的輸出達(dá)到一定的位率。這一過程導(dǎo)致精度的降低。
 熵編碼:熵編碼是無損編碼。它對(duì)變換、量化后得到的系數(shù)和運(yùn)動(dòng)信息,進(jìn)行進(jìn)一步的壓縮。
2、去時(shí)域
 使用幀間編碼技術(shù)可去除時(shí)域冗余信息,它包括以下三部分:
 ?運(yùn)動(dòng)補(bǔ)償:運(yùn)動(dòng)補(bǔ)償是通過先前的局部圖像來預(yù)測(cè)、補(bǔ)償當(dāng)前的局部圖像,它是減少幀序列冗余信息的有效方法。
運(yùn)動(dòng)表示:不同區(qū)域的圖像需要使用不同的運(yùn)動(dòng)矢量來描述運(yùn)動(dòng)信息。運(yùn)動(dòng)矢量通過熵編碼進(jìn)行壓縮。
 運(yùn)動(dòng)估計(jì)是從視頻序列中抽取運(yùn)動(dòng)信息的一整套技術(shù)。
 注:通用的壓縮標(biāo)準(zhǔn)都使用基于塊的運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。
常用的視頻壓縮算法是由ISO制訂的,即JPEG和MPEG編碼。JPEG是靜態(tài)圖像壓縮標(biāo)準(zhǔn),適用于連續(xù)色調(diào)彩色或灰度圖像,它包括兩部分:一是基于DPCM(空間線性預(yù)測(cè))技術(shù)的無失真編碼,一是基于DCT(離散余弦變換)和哈夫曼編碼的有失真算法,前者壓縮比很小,主要應(yīng)用的是后一種算法。在非線性編輯中最常用的是MJPEG算法,即Motion JPEG。它是將視頻信號(hào)50幀/秒(PAL制式)變?yōu)?5幀/秒,然后按照25幀/秒的速度使用JPEG算法對(duì)每一幀壓縮。通常壓縮倍數(shù)在3.5-5倍時(shí)可以達(dá)到Betacam的圖像質(zhì)量。MPEG算法是適用于動(dòng)態(tài)視頻的壓縮算法,它除了對(duì)單幅圖像進(jìn)行編碼外還利用圖像序列中的相關(guān)原則,將冗余去掉,這樣可以大大提高視頻的壓縮比。MPEG-I用于VCD節(jié)目中,MPEG-II用于VOD、DVD節(jié)目中。
? ? ?Motion-JPEG是以提供序列JPEG圖像的方式來提供視頻。網(wǎng)絡(luò)攝像機(jī)就象是數(shù)字靜態(tài)圖片照相機(jī),捕捉單幅圖像并將其壓縮為JPEG格式。網(wǎng)絡(luò)攝 像機(jī)每秒捕捉和壓縮30張圖像,并以連續(xù)圖像流的方式通過網(wǎng)絡(luò)發(fā)送到客戶端。當(dāng)幀率達(dá)到或超過16fps時(shí),用戶就可以瀏覽到感覺比較實(shí)時(shí)的畫面。
??? H.263壓縮技術(shù)主要面對(duì)固定比特率的視頻傳輸應(yīng)用。但當(dāng)畫面中的物體移動(dòng)時(shí),仍使用固定比特率,圖像的質(zhì)量就會(huì)有所降低。由于H.263最初是為視頻會(huì)議應(yīng)用而開發(fā)的,因此對(duì)于要求更多圖像細(xì)節(jié)的監(jiān)視系統(tǒng)來講并不適合。
??? MPEG-2從MPEG-1壓縮技術(shù)擴(kuò)展而來,幀率被鎖定在25fps(PAL)/30fps(NTSC),主要針對(duì)高質(zhì)量數(shù)字視頻(DVD),數(shù)字高清 電視(digital high-definition TV,HDTV),交互式存儲(chǔ)媒體(interactive storage media,ISM),數(shù)字廣播視頻(digital broadc ast video,DBV),和有線電視(cable TV,CATV)。網(wǎng)絡(luò)傳輸MPEG-2編碼的視頻流需要較高的帶寬,在安防監(jiān)控行業(yè),很少有網(wǎng)絡(luò)攝像機(jī)采用MPEG-2編碼方案。
??? MPEG-4從MPEG-2發(fā)展而來,MPEG-4編碼方案內(nèi)建很多工具,可用來降低比特率,以滿足特定應(yīng)用或場(chǎng)景對(duì)圖像質(zhì)量的需求。而且MPEG-4幀 率沒有被鎖定25fps(PAL)/30(NTSC)fps。采用MPEG-4編碼方案的網(wǎng)絡(luò)攝像機(jī),往往在低帶寬的網(wǎng)絡(luò)環(huán)境下,通過降低幀率來完成視頻 傳輸。MPEG-4引入很多工具來降低比特率,但針對(duì)網(wǎng)絡(luò)視頻實(shí)時(shí)性沒有內(nèi)建優(yōu)化工具,編解碼時(shí)間消耗增加,視頻流傳輸往往表現(xiàn)出延遲,抖動(dòng)現(xiàn)象。
??? H.264編碼方案,也稱為MPEG-4(Part10)或高級(jí)視頻編碼(AVC),是H.263開發(fā)小組和MPEG-4開發(fā)小組合并后推出了新的下一代 視頻壓縮標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)只增加了有限的編碼復(fù)雜度,用于實(shí)現(xiàn)極高的數(shù)據(jù)壓縮,該標(biāo)準(zhǔn)在比原先壓縮標(biāo)準(zhǔn)的比特率小很多的條件下仍可提供高質(zhì)量的視頻。國(guó)內(nèi)市場(chǎng) 新推出的網(wǎng)絡(luò)攝像機(jī),很多都采用了H.264編碼方案,由于編解碼計(jì)算復(fù)雜度高,能提供實(shí)時(shí)視頻流的網(wǎng)絡(luò)攝像機(jī)很少。很多的網(wǎng)絡(luò)攝像機(jī)生產(chǎn)廠商都看好 H.264編碼方案,隨著各種優(yōu)化技術(shù)的成熟,H.264編碼方案將來可能會(huì)成為市場(chǎng)的主流。
有壓縮技術(shù)(編碼),就有解壓縮(解碼)技術(shù),編碼與解碼速度的快慢決定了播放器運(yùn)行效率的高低。
各個(gè)廠商按照以上數(shù)據(jù)編碼制作成的不同視頻格式:
視頻格式:H.264(可以細(xì)分為8bit/10bit),H.265,RealVideo(常見于早期rm/rmvb),VC-1(微軟主導(dǎo)的,常見于wmv)等等?;旧?#xff0c;H.264=AVC=AVC1, H.265=HEVC。
音頻的格式: FLAC/ALAC/TrueHD/DTS-HD MA無損和AAC/MP3/AC3/DTS(Core)有損。
以下列舉不同視頻數(shù)據(jù)格式說明:
1、MPEG/MPG/DAT
MPEG也是Motion Picture Experts Group 的縮寫。這類格式包括了MPEG-1, MPEG-2 和MPEG-4在內(nèi)的多種視頻格式。MPEG-1相信是大家接觸得最多的了,因?yàn)槠湔诒粡V泛地應(yīng)用在 VCD 的制作和一些視頻片段下載的網(wǎng)絡(luò)應(yīng)用上面,大部分的VCD 都是用MPEG1 格式壓縮的(刻錄軟件自動(dòng)將MPEG-1轉(zhuǎn)為.DAT格式 ) ,使用MPEG-1 的壓縮算法,可以把一部120 分鐘長(zhǎng)的電影壓縮到1.2 GB 左右大小。MPEG-2 則是應(yīng)用在DVD 的制作;同時(shí)在一些HDTV(高清晰電視廣播)和一些高要求視頻編輯、處理上面也有相當(dāng)多的應(yīng)用。使用MPEG-2 的壓縮算法壓縮一部120 分鐘長(zhǎng)的電影可以壓縮到5-8 GB 的大小(MPEG2的圖像質(zhì)量MPEG-1 與其無法比擬的)。
 2、AVI
AVI(Audio Video Interleaved,音頻視頻交錯(cuò)))由是Microsoft公司推出的視頻音頻交錯(cuò)格式(視頻和音頻交織在一起進(jìn)行同步播放),是一種桌面系統(tǒng)上的低成本、低分辨率的視頻格式。它的一個(gè)重要的特點(diǎn)是具有可伸縮性,性能依賴于硬件設(shè)備。它的優(yōu)點(diǎn)是可以跨多個(gè)平臺(tái)使用,缺點(diǎn)是占用空間大。
 3、RA/RM/RAM
RM,Real Networks?[1]??公司所制定的音頻/視頻壓縮規(guī)范Real Media中的一種,Real Player能做的就是利用Internet資源對(duì)這些符合Real Media技術(shù)規(guī)范的音頻/視頻進(jìn)行實(shí)況轉(zhuǎn)播。在Real Media規(guī)范中主要包括三類文件:RealAudio、Real Video和Real Flash (Real Networks公司與Macromedia公司合作推出的新一代高壓縮比動(dòng)畫格式)。REAL VIDEO (RA、RAM)格式由一開始就是定位就是在視頻流應(yīng)用方面的,也可以說是視頻流技術(shù)的始創(chuàng)者。它可以在用56K MODEM 撥號(hào)上網(wǎng)的條件實(shí)現(xiàn)不間斷的視頻播放,可是其圖像質(zhì)量比VCD差些,如果您看過那些RM壓縮的影碟就可以明顯對(duì)比出來了。
 4、MOV
使用過Mac機(jī)的朋友應(yīng)該多少接觸過QuickTime。QuickTime原本是Apple公司用于Mac計(jì)算機(jī)上的一種圖像視頻處理軟件。Quick-Time提供了兩種標(biāo)準(zhǔn)圖像和數(shù)字視頻格式, 即可以支持靜態(tài)的PIC和JPG圖像格式,動(dòng)態(tài)的基于Indeo壓縮法的MOV和基于MPEG壓縮法的MPG視頻格式。
 5、ASF
ASF (Advanced Streaming format高級(jí)流格式)。ASF 是MICROSOFT 為了和Real player 競(jìng)爭(zhēng)而發(fā)展出來的一種可以直接在網(wǎng)上觀看視頻節(jié)目的文件壓縮格式。ASF使用了MPEG4 的壓縮算法,壓縮率和圖像的質(zhì)量都很不錯(cuò)。因?yàn)锳SF 是以一個(gè)可以在網(wǎng)上即時(shí)觀賞的視頻“流”格式存在的,所以它的圖像質(zhì)量比VCD 差一點(diǎn)點(diǎn)并不出奇,但比同是視頻“流”格式的RAM 格式要好。
 6、WMV
一種獨(dú)立于編碼方式的在Internet上實(shí)時(shí)傳播多媒體的技術(shù)標(biāo)準(zhǔn),Microsoft公司希望用其取代QuickTime之類的技術(shù)標(biāo)準(zhǔn)以及WAV、AVI之類的文件擴(kuò)展名。WMV的主要優(yōu)點(diǎn)在于:可擴(kuò)充的媒體類型、本地或網(wǎng)絡(luò)回放、可伸縮的媒體類型、流的優(yōu)先級(jí)化、多語言支持、擴(kuò)展性等。
 7、n AVI
如果你發(fā)現(xiàn)原來的播放軟件突然打不開此類格式的AVI文件,那你就要考慮是不是碰到了n AVI。n AVI是New AVI 的縮寫,是一個(gè)名為Shadow Realm 的地下組織發(fā)展起來的一種新視頻格式。它是由Microsoft ASF 壓縮算法的修改而來的(并不是想象中的AVI),視頻格式追求的無非是壓縮率和圖像質(zhì)量,所以 NAVI 為了追求這個(gè)目標(biāo),改善了原始的ASF 格式的一些不足,讓NAVI 可以擁有更高的幀率。可以這樣說,NAVI 是一種去掉視頻流特性的改良型ASF 格式。
 8、DivX
這是由MPEG-4衍生出的另一種視頻編碼(壓縮)標(biāo)準(zhǔn),也即通常所說的DVDrip格式,它采用了MPEG4的壓縮算法同時(shí)又綜合了MPEG-4與MP3各方面的技術(shù),說白了就是使用DivX壓縮技術(shù)對(duì)DVD盤片的視頻圖像進(jìn)行高質(zhì)量壓縮,同時(shí)用MP3或AC3對(duì)音頻進(jìn)行壓縮,然后再將視頻與音頻合成并加上相應(yīng)的外掛字幕文件而形成的視頻格式。其畫質(zhì)直逼DVD并且體積只有DVD的數(shù)分之一。這種編碼對(duì)機(jī)器的要求也不高,所以DivX視頻編碼技術(shù)可以說是一種對(duì)DVD造成威脅最大的新生視頻壓縮格式,號(hào)稱DVD殺手或DVD終結(jié)者。
 9、RMVB
這是一種由RM視頻格式升級(jí)延伸出的新視頻格式,它的先進(jìn)之處在于RMVB視頻格式打破了原先RM格式那種平均壓縮采樣的方式,在保證平均壓縮比的基礎(chǔ)上合理利用比特率資源,就是說靜止和動(dòng)作場(chǎng)面少的畫面場(chǎng)景采用較低的編碼速率,這樣可以留出更多的帶寬空間,而這些帶寬會(huì)在出現(xiàn)快速運(yùn)動(dòng)的畫面場(chǎng)景時(shí)被利用。這樣在保證了靜止畫面質(zhì)量的前提下,大幅地提高了運(yùn)動(dòng)圖像的畫面質(zhì)量,從而圖像質(zhì)量和文件大小之間就達(dá)到了微妙的平衡。另外,相對(duì)于DVDrip格式,RMVB視頻也是有著較明顯的優(yōu)勢(shì),一部大小為700MB左右的DVD影片,如果將其轉(zhuǎn)錄成同樣視聽品質(zhì)的RMVB格式,其個(gè)頭最多也就400MB左右。不僅如此,這種視頻格式還具有內(nèi)置字幕和無需外掛插件支持等獨(dú)特優(yōu)點(diǎn)。要想播放這種視頻格式,可以使用RealOne Player2.0或RealPlayer8.0加RealVideo9.0以上版本的解碼器形式進(jìn)行播放。
 10、FLV
FLV就是隨著Flash MX的推出發(fā)展而來的新的視頻格式,其全稱為Flashvideo。是在sorenson公司的壓縮算法的基礎(chǔ)上開發(fā)出來的。
由于它形成的文件極小、加載速度極快,使得網(wǎng)絡(luò)觀看視頻文件成為可能,它的出現(xiàn)有效地解決了視頻文件導(dǎo)入Flash后,使導(dǎo)出的SWF文件體積龐大,不能在網(wǎng)絡(luò)上很好的使用等缺點(diǎn)。各在線視頻網(wǎng)站均采用此視頻格式。如新浪播客、56、優(yōu)酷、土豆、酷6、帝途、YouTuBe等,無一例外。
 11、F4V
F4V是Adobe公司為了迎接高清時(shí)代而推出繼FLV格式后的支持H.264的流媒體格式。它和FLV主要的區(qū)別在于,FLV格式采用的是H.263編碼,而F4V則支持H.264編碼的高清晰視頻,碼率最高可達(dá)50Mbps。
主流的視頻網(wǎng)站(如奇藝、土豆、酷6)等網(wǎng)站都開始用H.264編碼的F4V文件,H.264編碼的F4V文件,相同文件大小情況下,清晰度明顯比On2 VP6和H.263編碼的FLV要好。土豆和56發(fā)布的視頻大多數(shù)已為F4V,但下載后綴為FLV,這也是F4V特點(diǎn)之一。
 12、MP4
MP4(MPEG-4 Part 14)是一種常見的多媒體容器格式,它是在“ISO/IEC 14496-14”標(biāo)準(zhǔn)文件中定義的,屬于MPEG-4的一部分,是“ISO/IEC 14496-12(MPEG-4 Part 12 ISO base media file format)”標(biāo)準(zhǔn)中所定義的媒體格式的一種實(shí)現(xiàn),后者定義了一種通用的媒體文件結(jié)構(gòu)標(biāo)準(zhǔn)。MP4是一種描述較為全面的容器格式,被認(rèn)為可以在其中嵌入任何形式的數(shù)據(jù),各種編碼的視頻、音頻等都不在話下,不過我們常見的大部分的MP4文件存放的AVC(H.264)或MPEG-4(Part 2)編碼的視頻和AAC編碼的音頻。MP4格式的官方文件后綴名是“.mp4”,還有其他的以mp4為基礎(chǔ)進(jìn)行的擴(kuò)展或者是縮水版本的格式,包括:M4V,?3GP,?F4V等。
MP4 VS MKV
MP4+MKV是下載的視頻文件時(shí)最常見的視頻數(shù)據(jù)格式。這些文件類似一個(gè)包裹,它的后綴則是包裹的包裝方式。這些包裹里面,包含了視頻(只有圖像)、音頻(只有聲音)、字幕等。當(dāng)播放器在播放的時(shí)候,首先對(duì)這個(gè)包裹進(jìn)行拆包把其中的視頻、音頻等分離,按照時(shí)間線進(jìn)行播放。這些被分離的數(shù)據(jù)在視頻編輯軟件里被稱為為軌道(track):
視頻軌: 連續(xù)圖像數(shù)據(jù)集合。
音頻軌:連續(xù)聲音數(shù)據(jù)集合。
字幕軌:連續(xù)語句的集合。(中文字幕、英文字幕等)
每個(gè)軌道,都有自己的格式。比如大家常說的,視頻是H.264,音頻是AAC,字幕是srt,等等
? ? ? MKV與MP4主要的區(qū)別在于:
- MKV支持封裝FLAC作為音頻,MP4則不支持。但是MP4也可以封裝無損音軌(比如說ALAC,雖然普遍認(rèn)為ALAC的效率不如FLAC優(yōu)秀)
- MKV支持封裝ASS/SSA格式的字幕,MP4則不支持。一般字幕組制作的字幕是ASS格式,所以內(nèi)封字幕多見于MKV格式
- MP4作為工業(yè)標(biāo)準(zhǔn),在視頻編輯軟件和播放設(shè)備上的兼容性一般好于MKV。這也是vcb-s那些為移動(dòng)設(shè)備優(yōu)化的視頻基本上選擇MP4封裝的原因。
除此之外,這兩個(gè)格式很大程度上可以互相代替。比如它們都支持封裝AVC和HEVC,包括8bit/10bit的精度。所以MP4畫質(zhì)不如MKV好,這種論斷是非常無知的——它們完全可以封裝一樣的視頻。
MKV非官方制定,用于代替古老的AVI,從而更好地支持H264,開發(fā)和使用方式靈活,可以兼容flac/ass這類非工業(yè)標(biāo)準(zhǔn)的格式;而MP4為工業(yè)標(biāo)準(zhǔn),替代了更古老的MPG,作為新一代視頻/音頻封裝服務(wù)的。
七、視頻評(píng)價(jià)
視頻主觀評(píng)價(jià)
我們經(jīng)常討論,一個(gè)視頻清晰度如何,畫質(zhì)好不好,流暢度好不好。。。其實(shí),這些詞只是對(duì)視頻做了一個(gè)非常模糊的主觀評(píng)價(jià),但他們是確實(shí)反應(yīng)了用戶體驗(yàn)。
經(jīng)??吹降恼f法:“這個(gè)視頻清晰度是1080p的”。其實(shí)看過上文你就應(yīng)該知道,1080p只是視頻的分辨率,它不能直接代表清晰度——比如說,我可以把一個(gè)480p的dvd視頻重采樣到1080p,那又怎樣呢?它的清晰度難道就提高了么?
一個(gè)比較接近清晰度的概念,是上文所講述的,空間高頻信息量,就是一幀內(nèi)的細(xì)節(jié)。一張圖,一個(gè)視頻的細(xì)節(jié)多,它的清晰度就高。分辨率決定了高頻信息量的上限;就是它最清晰能到什么地步。1080p之所以比480p好,是因?yàn)樗梢栽试S圖像記錄的高頻信息多,因?yàn)橐曨l重采樣時(shí)使用了更多周圍的影像數(shù)據(jù),整幅影像的不同細(xì)節(jié)部分會(huì)過渡得更加平滑、細(xì)膩。這個(gè)說法看樣子很靠譜,但是,有反例:
右圖的高頻信息遠(yuǎn)比左圖多——它的線條很銳利,有大量致密的噪點(diǎn)(注意噪點(diǎn)完全符合高頻信息的定義;它使得圖像變化的非常快)
 但是你真的覺得右圖清晰度高么?
 事實(shí)上,右圖完全是通過左圖加工而來。通過過度銳化+強(qiáng)噪點(diǎn),人為的增加無效的高頻信息。
所以清晰度的定義我更傾向于這樣一個(gè)說法:圖像或視頻中,原生、有效的高頻信息。
 原生,強(qiáng)調(diào)這種清晰度是非人工添加的;有效;強(qiáng)調(diào)細(xì)節(jié)本身有意義,而不是毫無意義的噪點(diǎn)特效。
值得一提的是,人為增加的高頻信息不見得完全沒有幫助。有的時(shí)候適度銳化的確能夠起到不錯(cuò)的目視效果:
這是一幅適度銳化后的效果。如果有人覺得右圖更好,至少某些部分更好,相信我,你不是一個(gè)人。所以適度銳化依舊是視頻和圖像處理中,可以接受的一種主觀調(diào)整的手段,一定的場(chǎng)合下,它確實(shí)有助于提高目視效果。
以上是清晰度的概述。注意,清晰度只是空間方面(就是一幀以內(nèi)),以狹義的圖像分辨率區(qū)分。如果再考慮到動(dòng)態(tài)效果的優(yōu)秀與否,那么視頻的流暢度幀率則起了主導(dǎo)作用,視頻空間和時(shí)間上的觀看效果共同定義了視頻畫質(zhì)的好壞。所以我們說madVR/svp那些倍幀效果有助于提高畫質(zhì),實(shí)際上它們?cè)鰪?qiáng)了時(shí)間上的觀看效果。
好的畫質(zhì),是制作者和觀眾共同追求的。怎么樣的視頻會(huì)有好的畫質(zhì)呢?是不是碼率越高的視頻畫質(zhì)越好呢?真不見得。視頻的畫質(zhì),是由以下幾點(diǎn)共同決定的:
1、源的畫質(zhì)。
 如果源的畫質(zhì)本身很差,那么再如何折騰都別指望畫質(zhì)好到哪去。所以壓制者往往會(huì)選擇更好的源進(jìn)行壓制——舉個(gè)栗子,BDRip一般都比TVRip來的好,哪怕是720p。藍(lán)光也分銷售地區(qū),一般日本銷售的日版,畫質(zhì)上比美版、臺(tái)版、港版啥的都來得好,所以同樣是BDRip,選取更好的源,就能做到畫質(zhì)上優(yōu)先一步。
2、播放條件。
 觀眾是否用了足以支持高畫質(zhì)播放的硬件和軟件。這就是為啥我們?cè)诎l(fā)布Rip的同時(shí)大力普及好的播放器;有時(shí)候一個(gè)好的播放器勝過多少在制作方面的精力投入。
3、碼率投入vs編碼復(fù)雜度。
 視頻的時(shí)間和空間復(fù)雜度,并稱為編碼復(fù)雜度。編碼復(fù)雜度高的視頻,往往細(xì)節(jié)多,動(dòng)態(tài)高(比如《魔法少女小圓劇場(chǎng)版 叛逆的物語》),這樣的視頻天生需要較高的碼率去維持一個(gè)優(yōu)秀的觀看效果。
 相反,有些視頻編碼復(fù)雜度低(比如《請(qǐng)問今天要來點(diǎn)兔子么》,動(dòng)態(tài)少,線條細(xì)節(jié)柔和),這種視頻就是比較節(jié)省碼率的。
4、碼率分配的效率和合理度。
 同樣多的碼率,能起到怎樣好的效果,被稱為效率。比如H264就比之前的RealVideo效率高;10bit比8bit效率高;編碼器先進(jìn),參數(shù)設(shè)置的比較合理,編碼器各種高端參數(shù)全開(通常以編碼時(shí)間作為代價(jià)),碼率效率就高。
 合理度就是碼率在時(shí)空分配方面合理與否,合理的分配,給觀眾的觀看效果就比較統(tǒng)一協(xié)調(diào)。 碼率分配的效率和合理度,是對(duì)制作者的要求,要求制作者對(duì)片源分析,參數(shù)設(shè)置有比較到位的理解。
視頻客觀評(píng)價(jià)
由以上的討論可知,視頻的質(zhì)量由分辨率、幀率、碼率、信噪比(噪聲情況)、重采樣數(shù)值大小、編碼壓縮比、畫面抖動(dòng)等多種參數(shù)量決定。由于現(xiàn)行的視頻主要由連續(xù)圖像和音頻構(gòu)成,因此,評(píng)價(jià)視頻質(zhì)量還應(yīng)該從圖像和音頻兩個(gè)角度去衡量。圖像的質(zhì)量情況考慮的數(shù)值有:色彩失真情況(亮度異常、偏色異常、畫面細(xì)節(jié)層次較差)、分辨率、信噪比、幀率、幀連續(xù)性、畫面抖動(dòng)情況等等,音頻的質(zhì)量情況考慮的數(shù)值有:碼率、采樣率、通道數(shù)、幀率、編碼壓縮比(有損、無損)
視頻的分辨率、幀率、碼率是衡量視頻播放高低的基本數(shù)據(jù)量。分辨率越高、幀率越高、碼率越高,表現(xiàn)細(xì)節(jié)層次越豐富,視頻流暢度越高,那么視頻的質(zhì)量就越好。常常出現(xiàn)的矛盾情況是視頻的幀率很高,但是清晰度卻不夠,那是因?yàn)橐曨l的分辨率不高;視頻的分辨率很高、碼率很大,但是視頻卻像是在放PPT,那是因?yàn)橐曨l的幀率低。當(dāng)然,除去視頻本身的數(shù)據(jù)量影響,視頻還受網(wǎng)絡(luò)傳輸速率的影響,假定客戶端的網(wǎng)絡(luò)延遲很高或者視頻重采樣參數(shù)較低,即便有視頻碼率和分辨率都很高,客戶端的視頻體驗(yàn)效果依然會(huì)出現(xiàn)不理想的情況。
八、視頻開發(fā)庫(kù)
常見的視頻開發(fā)庫(kù)有:
FFMPEG:開源視頻開發(fā)庫(kù),支持視頻采集、播放、格式轉(zhuǎn)換、抓取、水印等功能。
CXDVA:全面支持上面提到的全部視頻格式,可以windows、linux、android、apple ios 等多個(gè)平臺(tái)進(jìn)行播放、抓圖、錄像等功能,開發(fā)接口統(tǒng)一,容易使用。
常見的音頻開發(fā)庫(kù)有:
openAL:開源音頻API
PortAudio
九、網(wǎng)絡(luò)視頻協(xié)議(流媒體)
RTP(Real time Transport Protocol:實(shí)時(shí)傳輸協(xié)議)
 RTCP(Real time Transport Control Protocol:實(shí)時(shí)控制傳輸協(xié)議)
 RTMP(Real Time Messaging Protocol:實(shí)時(shí)消息傳輸協(xié)議)
 RTSP(Real Time Streaming Protocol:實(shí)時(shí)流協(xié)議)
 HLS(HTTP Live Streaming:HTTP流協(xié)議)
 MMS(Microsoft Media Server Protocol:微軟媒體服務(wù)器協(xié)議)
搞直播的喜歡玩這些。
十、常用視頻編輯軟件
常用的視頻編輯軟件有:Adobe Premiere、會(huì)聲會(huì)影、威力導(dǎo)演、格式工廠等等。
常用的音頻編輯軟件有:Cool edit pro、Wavesufer等等。
附件:攝像機(jī)
總結(jié)
 
                            
                        - 上一篇: 自动填表浏览器
- 下一篇: 从BIM行业看中国工业软件的困境及出路
