“噪音猎人”
今天,給各位介紹一群“不務正業”的騰訊人,他們在江湖上被稱作“噪音獵人”。
他們沉浸在實驗室,也穿梭在菜市場、游蕩在馬路邊。
噪音是他們的獵物,被狙擊、捕獲、并銷毀。
高超的獵取技巧,正在讓一群特殊的人告別噪音,讓他們“聽清”這個世界。
主筆:罐子
編輯:叉叉
聯合出品:騰訊產業互聯網公眾號?騰訊新聞
“豬肉鋪的老板開始剁肉末了,走!”
?
王燕南兩眼發光,如同餓虎撲食一般沖過去。他的好搭檔手里舉著電腦,差點沒跟上。
?
一根收音棒伸到了桌子前,聽著砍刀和砧板激烈碰撞的聲音,王燕南如獲珍寶。
?
“小伙子,我看你好幾天啦。不來兩斤五花肉嗎?”肉鋪老板瞅了一眼身穿襯衫、文質彬彬的王燕南,調侃道。
?
這是一個普通工作日的下午,王燕南穿梭在菜市場的第五天,這些天他已經捕捉到大量吆喝聲、剁肉聲、腳步聲以及它們交融在一起的聲音。
但是這些還遠遠不夠,他馬上還要去深南大道旁捕捉汽車的轟鳴聲。
?
?
這群“帶薪買菜”的工程師,來自騰訊多媒體實驗室一支研究AI降噪技術的團隊。他們的日常工作就是和噪音打交道——采集它,并消滅它。
同事戲稱他們是“噪音獵人”。
?
?
和噪音作戰!
為什么要死磕噪音?
?
“電話早在一百多年前就發明了,但是人類卻一直沒有解決通話噪音的問題?!蓖跹嗄蠐u著頭說道。
?
王燕南是AI降噪團隊中的成員,一名來自中科大的博士。從本科到碩士再到博士,多年的音頻領域研究讓他對聲音極其敏感,深知噪音的影響,也篤定降噪技術能給人們生活帶來改變。
?
放眼人類一百多年的語音通話史,其實也是一段對抗噪音的歷史。
通話設備不斷更新迭代,我們能在路上、在人群中隨時隨地通話,甚至希望距離麥克風數米遠也能正常對話,這些場景對降噪技術提出了更高的要求。
?
王燕南舉了一個例子,“在菜市場,之所以能清晰地聽到豬肉鋪老板說話,是因為耳朵選擇性屏蔽了剁肉聲。而我們團隊要做的,就是讓機器設備也能像人一樣。”
?
因此,想要消除噪音,只需要識別噪音,再進行主動干預。
?
這個看似簡單的答案卻困擾了技術人員上百年,因為其難點在于識別哪些是噪音。王燕南和團隊早已意識到,聲音處理是最難的——聲音數據是一維、圖像是二維、視頻是三維,維度越少難度越高。
?
他們找來了AI的加持。
?
“我們會采集大量的聲音數據,做裁剪和清洗、提取特征,再加入模型訓練,如果模型準確率達不到99%,我們會持續收集,一直做到標準為止?!?/p>
?
這才有了本文開篇,王燕南在菜市場捕捉聲音、采集樣本的畫面。
?
只不過,在捕捉菜市場這些“高級”噪音之前,他們更多是在辦公室試驗。
?
項目初期,同事們每天都會看到王燕南拿著收音棒四處游蕩。
捕捉同事的鍵盤聲、制造關門碰撞聲、來回放杯子的聲音、抽紙巾的聲音,他幾乎把辦公室里能想到的噪音都采集了。
?
通過海量的采集和應用,基于機器學習的AI降噪模型,團隊將識別率提升到了96.2%,超越了大多數開源模型。
?
此時的他們,還不知道一場席卷全球的疫情即將到來,遠程辦公需求催生了一款億級用戶產品——騰訊會議的誕生,而幕后的核心技術正是這群工程師們研發的AI降噪技術。??
也正因為這群“不務正業”的工程師,在距離他們200公里外的佛山,一個重度聽障小女孩曉婷的生活發生了巨大變化。
?
?
只為喚醒“沉睡的耳朵”
時間回到十五年前,一個佛山普通家庭的小女孩出生,她叫曉婷。
?
曉婷一出生就聽不見聲音,但沒有人發現。她喜歡跳舞,一歲多就會跟著外面商店的音樂聲跳舞。媽媽后來才知道,她聽不見,是看著音箱上的燈光閃爍舞動。
?
直到兩歲,她還不會說話。去醫院檢查才發現,她是先天失聰。
?
鼓聲成為她和舞蹈世界唯一的連接方式。
?
她聽不見音樂,只能通過腳尖感覺音樂鼓點的震動,努力記憶動作。有時候,連音樂的震動聲都感覺不到,她就在心里默默數拍子,跟上節奏。
?
盡管如此,她們很快得知一個更艱難的事實:隨著曉婷長大,聽力將繼續衰減,這僅有的鼓聲,也將從她的聽覺里消失。
?
?
2018年,轉機出現了。
?
廣東把人工耳蝸納入社保,曉婷拿到其中一個寶貴的免費名額。手術一個月后,曉婷的人工耳蝸開機了。她第一次從媽媽翕動的嘴唇里,聽到了自己的名字,“你叫宋曉婷”。
?
戴上耳蝸后的曉婷,第一次自己下樓去超市、過馬路、坐公交……一個有聲的世界,在她面前徐徐展開。
?
那一年,曉婷登上了中央電視臺少兒春節聯歡晚會的舞臺。曉婷穿著碧綠長裙,在舞臺中央露出了燦爛笑容。
?
外界看來,戴上人工耳蝸,聽見聲音似乎已經改變了這個女孩的命運。她變得自信,未來開始充滿無限可能。但是事實并非如此。
?
“我能聽到,但我聽不懂?!?/strong>
?
實際上,就像曉婷跟媽媽說的,“聽得見”不意味著“聽得清”。她聽到的聲音,仍然與正常人有著很大差距。人工耳蝸傳到她耳朵里的聲音,大部分都是噪音,沒有細節。
?
你可以想想一個霧氣朦朧的澡堂里,一切都是煙霧繚繞的,你看不清、摸不透。這種像隔著一層布被阻隔、無法確定的聲音就是聽障人群聽到的世界。
?
?
2020年,曉婷離開佛山,前往廣州念高中。
?
同一年,這個小女孩的命運和一群工程師發生了交匯。
?
?
施展魔法的噪音獵人
?
“對我們健全人來說,一直在霧氣彌漫的場景里看東西,可以想象多么痛苦。對于聽障人士而言,他們一輩子,每天24小時,都被困在了這樣的環境里。如果我們的技術能夠為他們提供一些幫助,讓他們聽的更清楚,那真是一件非常有意義的事情?!?/p>
因為工作需要,常年和噪聲打交道的商世東接觸到“聽障人群”后,萌生了這個想法。
?
商世東是騰訊多媒體實驗室AI降噪技術研究的負責人,25年來一直扎根音頻領域研究。目睹了音頻技術迭代的歷史。“科技可以改善生活 ,也可以彌補缺陷”,這一次,他將目光投向了聽障人士。
?
“公開資料顯示中國有8500多萬殘疾人,但在生活中,你很少感知到他們的存在,就像你很少見到盲道上有盲人行走”,商世東認為,“這是因為我們的‘無障礙建設’做得還不夠好”。
?
萌生了這個想法之后,商世東和團隊針對聽障人群做了大量調研,也分析了國內外很多關于降噪技術在聽障方面的應用的研究,發現“噪聲”確實是困擾聽障人群的一大障礙。
商世東很快找到了國內人工耳蝸廠商諾爾康,雙方一拍即合,決定研發由AI降噪技術加持的新一代的人工耳蝸。
?
曉婷,成為了新一代人工耳蝸的早期試用者。
?
“她非常興奮、非常高興,整個人的狀態非常好。她本身就是一個蠻活潑的小姑娘?!鄙淌罇|回憶起看到曉婷戴上新一代人工耳蝸之后的場景。
?
用上AI降噪技術之后,曉婷不僅能夠聽清鳥叫,風的聲音、甚至能透過嘈雜的環境聲聽到媽媽的聲音。
AI降噪技術,喚醒了曉婷沉睡的耳朵,更加細膩鮮活的聲音細節涌入了她的世界。她說,“好像施展了魔法,我耳中的噪音被獵人帶走了。”
?
然而,施展魔法的噪音獵人,一開始的研發并不順利。
從IDEA提出到算法驗證及產品DEMO落地,商世東和諾爾康的技術團隊,用了近一年時間,期間經歷無數次版本迭代。
?
人工耳蝸芯片體積有限,兼容差、計算能力弱,不足以承載大量的運算。經歷了反復探討和驗證,他們找到了解決方案——手機伴侶加人工耳蝸。
?
簡而言之,就是將計算處理過程轉移到手機上,由手機對信號進行處理、過濾,再通過藍牙設備,將信號發送到人工耳蝸。
?
而手機伴侶的解決方案,對延遲要求極高,一旦超過200毫秒人將會感到不適。就像看電影一樣,聲音如果延遲視頻畫面,觀眾就能明顯地感到不舒服。
面對巨大的挑戰,商世東帶領團隊連續熬夜攻堅,試圖找到一種更快速的AI算法。最終,結合騰訊會議上的經驗和配置數據,將延遲控制到150毫秒以內。
?
?
2020年9月27日,正值國際聾人日,新一代人工耳蝸的試戴者曉婷和爸爸媽媽一起來到了深圳,終于見到了捉走她耳朵中噪聲的“獵人”——商世東和他的團隊。
?
當天,騰訊多媒體實驗室宣布聯合深圳市無障礙信息研究會、騰訊公益基金會等機構,面向行業開放天籟音頻AI降噪技術,發起”天籟行動“,希望更多像諾爾康這樣的廠商和開發者加入到關注聽障人群行業。
?
“過去我們的工作更聚焦在技術算法突破和產品研發方面,沒有想到我們的技術還可以給聽障人群的生活帶來一些改變,這讓我和團隊受到非常大的鼓舞?!鄙淌罇|從曉婷身上看到了技術的無限可能性。
“接下來我們希望把算法做得更好,在幫助更多聽障人士聽得更清楚的同時,也可以探索AI降噪技術的更多應用場景,比如五六十歲的老年人,他們的聽力退化之后,也可以通過我們的技術提升?!?/p>
?
這群噪音獵人,也是騰訊“不務正業”產業人的一個縮影,他們在街巷之間捕獲噪音,也狙擊噪音,喚醒沉睡的耳朵。
他們正在用技術不斷改善這個世界,讓世界的邊角細節,更加清晰。
1月7日晚19:30
騰訊程序員視頻號直播
掃碼預約明晚直播
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
- 上一篇: 收藏 | 2020年腾讯技术工程十大热门
- 下一篇: 技术创作101训练营:从0到1教你搭建自