MP3是如何骗过你耳朵的?
從愛迪生發(fā)明留聲機(jī)開始,人類保存和傳播聲音的歷史已經(jīng)有 140 多年。
但在最近的 20 年里,一種音頻格式的誕生卻改變了人們的音樂體驗(yàn)。那就是 MP3 。
作為世界上應(yīng)用最為廣泛的音頻格式,MP3 的誕生第一次讓音樂成為一種人人可以觸及的大眾消費(fèi)品。
應(yīng)該有不少小伙伴擁有的第一個(gè)音樂播放器,就是 MP3 Player 吧,甚至在當(dāng)年,大家都默認(rèn) MP3 就是音樂的代名詞。
但同樣是數(shù)字音頻, MP3 只有標(biāo)準(zhǔn) CD 大小的十二分之一,而對于人耳來說,這兩者的區(qū)別,有,但要比圖片壓縮之類的要難以察覺的多了,所以它對音樂做了什么? 又丟掉了什么呢?
大家好我是差評君,今天跟大家聊聊你最常見到的音頻格式——MP3。
如果我們想減少一個(gè)文件的體積,最直接的方法就是壓縮。
通常我們理解的壓縮,都是重復(fù)壓縮。比如你去超市買 5 瓶可口可樂,小票上不會寫 5 次可樂,只用寫“ 可口可樂*5 ”就行了。這個(gè)過程就相當(dāng)于把文件里重復(fù)的部分用更短的字節(jié)編碼。文件本身不會丟失數(shù)據(jù),解碼后也不會損耗任何信息,只是讓文件體積變小了。
這是一種無損壓損,實(shí)際上 MP3 的最后一步就是這么干的,它用一種叫Huffman Coding的算法來完成。但如果只用這種算法,MP3的體積并不會顯著縮小。
因?yàn)槁曇舯旧硎且环N極其混亂,信息熵非常高的數(shù)據(jù)。所以這種方式不可能讓它縮小到 CD 體積的 10 % 。
那既然無損壓縮這條路走不通了,干脆就丟掉一些信息好了。
那 MP3 到底丟了哪些聲音呢?
我們要想知道答案,最簡單的方式就是對比。
我們把同一段聲音的 MP3 和它的無損版本并列在兩條軌道上,把其中一軌反相,那如果它倆的聲音是一樣的,就會互相抵消,我們就應(yīng)該得到一個(gè)靜音效果。這也是降噪耳機(jī)的工作原理。
但因?yàn)?MP3 是有損壓縮,但只有這樣我們還說不出 MP3 和無損的區(qū)別。如果一段音樂就是在 MP3 和無損之間不斷切換的,你真的能區(qū)分的出來嗎?我相信你是聽不出來的。
這就是 MP3 算法的神奇之處,它的壓縮并不是簡單的丟掉聲音數(shù)據(jù),而是在丟掉數(shù)據(jù)的同時(shí),你卻察覺不到。
Brandenburg 和 Dieter Seitzer 的故事
70 年代末,有一個(gè)叫迪特·塞策( Dieter Seitzer )的德國教授突然冒出個(gè)超前的想法。他想讓大家可以坐在家里,用 ISDN 的電話線,打電話來點(diǎn)播音樂,就跟點(diǎn)唱機(jī)差不多。
ISDN 是當(dāng)時(shí)流行的數(shù)字線路,也叫“ 一線通 ”,你可以用它打電話、收發(fā)傳真之類的,但它的速率只有128kbps 。
所以當(dāng)?shù)咸匕堰@個(gè)想法申報(bào)專利的時(shí)候,專利局的工作人員告訴他這事兒沒戲。除非你能讓 ISDN 的網(wǎng)絡(luò)速率提高十二倍,那才夠傳輸 CD 的數(shù)據(jù)量。
迪特一聽,提網(wǎng)速這事兒估計(jì)自己干不了,但如果發(fā)明出一種只有 CD 1/12 大小 的音頻格式,不就可以搞這個(gè)“ 數(shù)字點(diǎn)唱機(jī) ”了嗎。于是他轉(zhuǎn)頭把這個(gè)發(fā)明工作交給了自己一個(gè)叫Karlheinz Brandenburg的學(xué)生。
Brandenburg 的碩士論文研究方向是一個(gè)叫 ATC 的語音壓縮算法,迪特也是看中了這點(diǎn)才找到他的。但 Brandenburg 接到這個(gè)任務(wù)的時(shí)候也很郁悶。
心想 tnnd 你一個(gè)教授都做不出來,我小小一博士生怎么做的出來,但導(dǎo)師交待的任務(wù)又不能不完成,所以他就打算用幾年的時(shí)間來證明這事兒不可能,然后論文一寫,把博士學(xué)位混到手算球!而就在他證明“ 不可能發(fā)明一個(gè)比 CD 小 12倍 的音頻文件 ”的過程中,他卻發(fā)現(xiàn),哎,這事還真是有可能的。
讓 Brandenburg 覺得這事兒有戲的關(guān)鍵,是一個(gè)極其冷門的學(xué)科,叫心理聲學(xué)( Psychoacoustics )。
這是一門心理物理學(xué)的分支研究,最早源于人們對音樂和樂器的探索,后來成為了研究人的生理感官和客觀聲音世界之間關(guān)系的學(xué)科。聽起來很復(fù)雜,其實(shí)很好理解,比如人耳的聲音定位,聽力范圍這類研究,都屬于心理聲學(xué)的范疇。
在心理聲學(xué)里有一個(gè)非常經(jīng)典的研究,就是等響曲線。這個(gè)曲線告訴我們,人耳對于不同頻率的聲音,感知相差極大。人類的聽覺范圍在20-20000Hz之間,而在這個(gè)范圍里的不同頻率下,我們聽到的響度是不一樣的。
低頻的聲音需要更大的聲壓才能和中頻較小的聲壓,所形成的聲音大小聽起來相等。
就比如貝斯就需要更大的音量,才能跟吉他聲聽起來差不多大。這也是為什么貝斯這類低音樂器的音箱要比其他音箱的體積大得多。
而圖中的最低點(diǎn)出現(xiàn)在3000Hz左右,所以說明人對這個(gè)頻率的聲音最敏感,只需要比較小的聲壓就能聽到。比如我們聽到的大部分的警報(bào)聲,基頻都在 1000-3000Hz ,這樣人耳才能更容易捕捉這些聲音,從而避免危險(xiǎn)。
有意思的是,隨著年齡增大,我們對于聲音的接收范圍也在變小,大多數(shù)成年人聽不到頻率在 16000Hz 以上的聲音。
沿著這個(gè)方向,等響曲線的發(fā)現(xiàn)者又研究出了一個(gè)更加神奇的事情,讓我們意識到我們的感官和客觀到底差距有多么巨大。
這個(gè)東西,就是“ 掩蔽 ”( Masking )。
1958 年的某天下午,一個(gè)叫 Licklider 的心理學(xué)家去看牙醫(yī),他跟醫(yī)生說,我不需要打麻藥。然后掏出了一副耳機(jī),開始聽震耳欲聾的音樂。在巨大的音樂聲中,牙醫(yī)幫他搞定了三顆齲齒,而他就像被打了麻醉劑一樣,竟然沒有感覺到疼。
Licklider 把這項(xiàng)技術(shù)命名為 Audiac ,之后他帶著這玩意和牙醫(yī)一起巡診拔牙,還幫助了不少婦女緩解了分娩時(shí)的疼痛。
Audiac 用了一種強(qiáng)烈的聽覺刺激來抑制疼痛,這就是一種跨感官的掩蔽效果。
在聽覺系統(tǒng)中,一種聲音也會被另一種同時(shí)發(fā)出的聲音所掩蓋。比如在一個(gè)樂隊(duì)里,往往是吉他聲在 C 位,但如果突然有相似頻率的樂器加入,比如小號。那吉他的聲音就會被短暫的淹沒。這一過程叫作同頻掩蔽。
我們用一個(gè)動畫來舉例子,當(dāng)一個(gè)頻率從低到高的噪音經(jīng)過一個(gè)正弦音的時(shí)候,這個(gè)聲音會被噪音掩蓋。
再比如你上課的時(shí)候,想用一聲咳嗽來掩蓋自己放屁的聲音,那你最好要滿足三個(gè)條件,一是咳嗽聲的時(shí)長大于等于屁聲,二是咳嗽聲的響度要大于等于屁聲。三是要保證二者的頻率接近。這三個(gè)條件都滿足,才是一次出色的掩蔽。
那這和 MP3 有什么關(guān)系呢?MP3 的算法就是利用了人耳的這種特性,將歌曲中不同頻率里被淹沒的聲音瞬間,給丟掉了。這樣就可以在減少文件體積的條件下,最小程度的損失音質(zhì)。
時(shí)間掩蔽 temporal masking
但這還不夠。
當(dāng)我們聽到一個(gè)噪音戛然而止的之后,實(shí)際上會有一個(gè) 100-200ms 的逐漸減弱的掩蔽效果。在噪音完全停止后的這段時(shí)間里,比他更小的聲音會被掩蔽,我們是完全聽不見的,就像我們的耳朵需要 200ms 的時(shí)間回復(fù)知覺一樣。
不光如此,噪音還會掩蔽在它之前的聲音,雖然只有 50ms,但對于感官來說已經(jīng)是相當(dāng)長的一段時(shí)間了,這意味著我們的大腦需要 50ms 的緩沖才能報(bào)告到意識里。
而這個(gè)前后過程,就叫作時(shí)間掩蔽。
MP3 壓縮算法的核心,就是利用一個(gè)精心迭代了許多年的人體聽覺心理學(xué)模型,把音樂里的每一個(gè)瞬間對應(yīng)在 MP3 文件格式里的每一幀( FRAME ),檢查這個(gè)幀內(nèi),上述兩種掩蔽作用所發(fā)生的頻率和時(shí)間段,把那些被掩蓋的,我們聽不到的音頻信息統(tǒng)統(tǒng)丟掉。
這個(gè)過程并不單純是精確地,機(jī)械式地判斷,它的底色其實(shí)是感官上的把控。
在 MP3 算法測試初期,測試人員需要在海量的歌曲中找出 MP3 壓縮算法的問題。它們要在各種歌曲的 MP3 和無損版本之間對比,而且每聽一首歌他們都要評級,一共有四個(gè)等級,分別是:聽不出區(qū)別、有一點(diǎn)區(qū)別、有點(diǎn)難聽和非常難聽。特別是最后兩個(gè)選項(xiàng),可以說是非常主觀的判斷了。
這意味著 MP3 算法的發(fā)明和改進(jìn),實(shí)際上把人的主觀評判作為考量的目標(biāo)之一。我們不能說這種算法是完全主觀的,它也不是絕對客觀的,所以它的效果也不可能在所有歌曲中都是平均的。
說到這,就不得不提 MP3 發(fā)明過程中的一個(gè)小故事。在 MP3 壓縮算法測試的最后階段曾遇到過一個(gè)大難題,當(dāng)時(shí) Brandenburg 和他的同事們覺得自己的算法已經(jīng)非常牛逼了,幾乎在所有的雙盲測試中都很難聽出區(qū)別。
有天他無意中看到雜志上說大家喜歡用 Suzanne Vega 的歌曲 Tom's Diner 來測試自己的音箱,而他正好在弗勞恩霍夫?qū)嶒?yàn)室( Fraunhofer )看到了這張 CD ,于是他就把這首歌上傳到了電腦上。
這首歌非常簡單,是一個(gè)純?nèi)寺暎瑳]有伴奏的歌曲。但當(dāng)他通過 MP3 的壓縮算法處理這首歌之后,卻得到這樣一個(gè)效果。
在 MP3 較低的比特率下,Vega 的聲音變得沙啞,不自然。于是在之后的一年時(shí)間里,研發(fā)團(tuán)隊(duì)又對 MP3 算法做了幾千次的微小調(diào)整, Brandenburg 說自己至少聽了三千遍這首歌,可能比地球上任何人聽得次數(shù)都多。
最后他們成功壓縮了這首 Tom's Diner ,也通過這首歌,真正完善了 MP3 的壓縮算法。
許多年之后,Brandenburg 真的遇到了 Vega ,而且還現(xiàn)場聽她唱了那首Tom's Diner。盡管已經(jīng)聽了無數(shù)遍,但他說,這首歌依然很好聽。
Brandenburg 終于在 1989 年發(fā)表了他的論文。下一步就是將這項(xiàng)技術(shù)推向世界。也就是在 90 年代初,業(yè)界突然出現(xiàn)好幾種新興技術(shù),它們正在尋找一種新的音頻編碼標(biāo)準(zhǔn)來使用,這其中包括我們熟悉的“ CD-ROM ”和“ DVD ”。
于是他和他的團(tuán)隊(duì)向動態(tài)影像專家組( MPEG )提交了參賽作品,他們要和另外 13 個(gè)團(tuán)隊(duì)競爭新的音頻編碼標(biāo)準(zhǔn)。而最大的競爭對手來自一個(gè)名為 MUSICAM 的組織,這個(gè)組織的背后是飛利浦,當(dāng)時(shí)飛利浦手握 CD 光盤的專利,可以說是如日中天。
所以盡管他們團(tuán)隊(duì)的技術(shù)數(shù)據(jù)量更小,音質(zhì)也更強(qiáng),但最后還是輸給了 MUSICAM 。
因?yàn)镸USICAM 的算法需要的處理能力更少。在當(dāng)時(shí)處理器普遍不太行的時(shí)代,確實(shí)更有優(yōu)勢。
因此在當(dāng)年,MP3 是一個(gè)妥妥的失敗品。連它的發(fā)明者也已經(jīng)開始著手研究新的音頻編碼。MP3 就這樣被扔進(jìn)了歷史的垃圾堆里。
直到 90 年代中期,兩種革命性技術(shù)的誕生,讓 MP3 這顆棄子重新活了過來,那就是萬維網(wǎng)和 Windows 95。
一個(gè)同樣來自德國的研發(fā)團(tuán)隊(duì),開發(fā)了一種用于 MP3 的軟件播放器,并且發(fā)布在了 Windows 系統(tǒng)上。
當(dāng)時(shí),1 GB 大小的硬盤剛剛開始普及,存儲空間非常珍貴,反而處理器有了巨大的提升。所以體積更小的 MP3 慢慢被大家接受,也意外的成為了新的音頻編碼標(biāo)準(zhǔn)。1995年7月14日是 MP3 的生日,Karlheinz Brandenburg 和他在弗勞恩霍夫研究所的同事們( Fraunhofer )決定把這個(gè)壓縮算法的文件擴(kuò)展名,根據(jù)行業(yè)標(biāo)準(zhǔn)的全稱 MPEG-2 Audio Layer III ,命名為 .MP3。
到了 90 年代后期,“ MP3 ”取代“ SEX ”成為搜索引擎上查詢最多的詞。某次 Brandenburg 在香港出差時(shí),看到櫥窗里擺著 30 種不同品牌的 MP3 播放器,他心想,“ 好吧,我們終于贏了。”
MP3 的誕生比我想象的要復(fù)雜的多,它是一個(gè)耗時(shí)多年,經(jīng)歷了無數(shù)迭代才得到的科研成果。這個(gè)成果可以說是重塑了人類音樂產(chǎn)業(yè)。也正是由 MP3 開始,音樂,成了一種人人可以觸及的大眾消費(fèi)品。
從黑膠、磁帶,再到 CD、MP3,每一次技術(shù)革新都在改變?nèi)藗兊囊魳敷w驗(yàn),也在改變大家消費(fèi)音樂的方式。而 MP3 在這段歷史中格外的與眾不同。推崇它的人認(rèn)為,MP3 無比偉大,它讓大家都能便捷地享受音樂;而反對它的人,視它如猛獸,因?yàn)樗淌闪顺举囈陨娴陌鏅?quán),以及唱片業(yè)曾經(jīng)的黃金時(shí)代。
今天,數(shù)字音樂留了下來,但 MP3 已經(jīng)走到了被時(shí)代淘汰的邊緣。我們再也不需要把音樂下載到播放器里,再用播放器來聽音樂,大家都是用手機(jī)在線聽歌,5G 通訊和幾百G內(nèi)存,讓音頻壓縮變得更沒必要,音樂平臺也漸漸轉(zhuǎn)向了FLAC等無損格式。
但我們都記住了那個(gè)聽 MP3 的時(shí)代,和那些陪伴過我們的音樂。
好了這就是今天的內(nèi)容,這期視頻跟平時(shí)有點(diǎn)不一樣,我們引用了重輕老師在小宇宙的播客,「 不在場 」節(jié)目的第二季第一集,感謝重輕老師的支持,也希望大家能去小宇宙收聽重輕老師的「 不在場 」節(jié)目。謝謝各位的觀看,如果你喜歡的話歡迎你一鍵三連,如果你有什么想說的,也歡迎你在評論區(qū)和彈幕里跟我們互動,最后最后拜托拜托關(guān)注一下我們,我們下次再見。
圖片、資料來源:
不在場 S2E1 MP3 -重輕
Equal-loudness contour
Karlheinz Brandenburg,Dieter Seitzer,Huffmancoding -Wikipedia
How MP3 Got Its Groove -Internet hall of fame
The History of MP3 Technology -ThoughtCo.
The Human Auditory System -ScienceDirect
The Music Industry Strikes Back | System Shock Ep 2 -Bloomberg Quicktake: Originals
How a Suzanne Vega Song Helped Create the MP3 - Great Big Story
Perceptual Coding: How Mp3 Compression Works -WaybackMachine
SOUND THAT KILLS PAIN - Will Stephenson
語音信號處理 -韓紀(jì)慶
聲學(xué)發(fā)展史之——心理聲學(xué)(Psychoacoustics) -知乎 子魚
MP3 走到了終點(diǎn),為電話和廣播而生的技術(shù),改變了整個(gè)音樂產(chǎn)業(yè) -好奇心日報(bào)
總結(jié)
以上是生活随笔為你收集整理的MP3是如何骗过你耳朵的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 董事长被举报空手套66亿!赛麟汽车被整体
- 下一篇: 雷军荐剧《极速车王》:真实故事改编 真正
