【LiveVideoStack采访】李备:音视频技术的难点与未来
網易云信資深音頻算法工程師李備日前接受LiveVideoStack采訪,對于音頻技術的未來,他給出了自己的觀點。
LiveVideoStack:李備你好,能否向讀者介紹下自己,以及目前主要的工作和關注的技術方向?
李備:我叫李備,中科大碩士畢業,先后入職Cisco WebEx,網易云信。在軟件實時音頻領域工作5年多,從事過語音前處理算法,音頻引擎框架搭建,音頻編碼器優化,移動端的移植解決方案,音頻測試框架搭建等工作。目前在網易主要負責網易云信的音頻算法的優化,音頻框架的設計,以及不同場景下的解決方案的制定等工作。主要關注業界的音頻解決方案框架,音頻算法與音頻的機器學習方法等方向。
LiveVideoStack:能否介紹下網易云信在教育和實時通訊領域有哪些特色技術和產品,未來有哪些發展規劃?
李備:網易云信一直都關注在線教育行業,已經推出的在線教育解決方案覆蓋大型直播教學、大班互動教學、小班輔導教學全系列的在線課堂模式,幫助開發者能夠快速地搭建和上線在線教育產品。網易云信深知在不同的在線教育垂直行業有著不同的教學特點,接下來網易云信將秉承場景化解決方案的思路,為在線教育行業推出特點鮮明更加契合場景需求的解決方案。舉例來講,今年早些時候網易云信推出的在線音樂教學解決方案,針對在線音樂教學對于聲音的音質與高還原要求,首創定制研發了高清音樂模式,創新性得將音頻處理的專業領域與具體的行業場景緊密結合,這也是接下來網易云信會堅持的道路與價值。
LiveVideoStack:展望整個多媒體通訊領域,你認為哪些(開源)技術棧將會快速發展?
李備:隨著AI算法的成熟,終端硬件的計算能力的提升,一些AI算法在多媒體通訊領域的應用以前只能在實驗室實現的方法有了落地的可能,甚至在實時音視頻領域。比如視頻的超分技術,音頻的基于深度學習的降噪等技術可能在算法優化與硬件升級的某個臨界值下實現大規模的落地。
LiveVideoStack:一種觀點認為,現在做多媒體開發比十年前容易很多,因為有許多強大的開源框架、工具(如WebRTC、FFmpeg、x.264)以及像網易云信這樣的多媒體PaaS平臺,你怎么看這種觀點?
李備:現在不管是多媒體的應用開發還是做多媒體的底層平臺開發和十年前相比確實容易很多了。主要體現兩個方面,第一,多媒體的大環境越來越成熟,包括終端設備的性能,網絡的帶寬,系統的相關API的支持,國內相關人才數量等十年內都有了天翻地覆的變化。十年前基本只有巨頭公司才能玩得起多媒體,現在多媒體開發已經是大部分的基本功能了。第二,有越來越多的開源架構,算法等開源(如WebRTC、FFmpeg等),同時又有越來越多的專業的多媒體服務平臺(如 網易云信等),會提供端到端的多媒體的解決方案,場景的覆蓋也非常廣,從大型會議模式,到點對點,直播,轉播,從低功耗設備方案到大屏方案等,使得開發多媒體的開發成本及周期都大大縮短。
LiveVideoStack:實時音視頻已成為許多應用的剛需性配置,但在這一領域,因為較高的技術開發和資源投入門檻,也為云技術服務企業帶來了嚴峻挑戰。具體講一下NRTC工業級的音視頻技術框架和開源的框架有什么區別?
李備:首先,技術全面。NRTC全面的技術開發支持包括:各種媒體服務器、信令服務器、認證與管理服務器、混音轉碼錄制等服務、各種SDK等。此外,NRTC既支持UDP也支持TCP,既支持實時也支持準實時通話,這是對WebRTC作為客戶端框架只支持UDP的實時通話的一種完善和補充。
其次,功能全面。
1) NRTC可以提供實時音視頻通話功能,這一方案是基于UDP的,時延低于400ms;
2) NRTC可以提供直播功能,這一方案是基于TCP的,可以提供高質量的準實時的直播能力,時延1~3s;
3) NRTC也可以將實時音視頻通話和直播能力相結合,提供互動直播功能,通過上麥下麥控制用戶在連麥和觀眾模式間切換;
4) NRTC可以提供點播功能,通過NCDN實現海量分發;
5) NRTC可以提供短視頻功能,短視頻SDK也一并俱全。
第三,場景全面。NRTC具備高效落地多元化場景應用的能力。NRTC可以提供實時音視頻通話功能、直播功能。此外,NRTC還支撐了網易內外部各個客戶的海量應用,譬如網易云音樂、網易新聞、有道、云課堂等。
第四:靈活。NRTC傳輸層采用私有協議的方式,確保RTC實時通信功能可靈活實現,改善了WebRTC因標準化為個性化開發帶來的困難。基于傳輸層私有協議,用戶可以很容易的擴展媒體包,這大大提升了開發的便捷性,改變了過去在WebRTC開發環境下,JavaScript 無法修改和訪問RTP數據包和RTCP控制包的局限性。
第五,NRTC對于WebRTC的優化。NRTC是同時適應于Web和Server開發的完整的音視頻技術解決方案,改善了WebRTC只能針對Web進行點對點實時通信功能開發的狀況。NRTC在現有的VoIP系統里通過WebRTC Gateway來兼容WebRTC,最終目的是讓音視頻技術走出實驗室,實現We b音視頻的工程化開發及應用。同時,NRTC根據自己的業務需要實現了很多libwebrtc里沒有的功能,并做了優化。
第六,易用。用戶只要接入SDK即可完成多元化功能實現:
1) Web端的音視頻通話,無需自行再寫服務器、信令。
2) 實現Web端和其它移動端、PC端的互通,改善WebRTC只針對Web端的局限性。
3) 實現雙人點對點和多人會議,改善WebRTC只支持點對點的狀況。
4) 實現Web端的互動直播。
5) 實現IM+Web音視頻+聊天室+互動直播+拉流播放器。
LiveVideoStack:搞多媒體開發需要學習大量的基礎知識,而且需要在實際工作中摸爬滾打。對于學習多媒體開發,您有哪些建議?能否推薦一些多媒體開發相關的學習資料或書籍。
李備:多媒體開發的門檻相對于其他開發確實高一些,如果是做多媒體的應用的開發,需要熟悉多媒體的一些基本概念,以及多種開源算法,或者框架的主要作用和影響,比如采樣率,通道數,編碼碼率等基本概念,音頻不同編碼器(如AAC 、MP3、OPUS等)的適用范圍,AEC、NS都是什么算法有什么作用等等。如果是開發多媒體底層算法或者框架的同學就需要有更加扎實的基礎,推薦可以看下《離散時間語音信號處理》和《語音增強的理論與實踐》的電子版本,除此之外可以看看開源框架的設計,RFC的一些行業標準。
LiveVideoStack:音視頻領域還有哪些學界、工業界公認的難點?未來今年,哪些難點有可能取得突破?
李備:說說音頻的吧,回聲消除一直就是工業界里面的難點,難在終端設備的采集播放設備的多樣性,應用場景的復雜性,終端性能有限等方面,軟件層很難有完美的落地方案。未來,可能像計算量非常大的非線性自適應濾波器也可以落地移動端。而對于音樂內容,學術界都沒有很好的回聲消除方案,未來也許會出現一些與AI技術的結合可以在音樂內容的回聲消除方案。
LiveVideoStack:說說你將在LiveVideoStackCon 2018分享的內容吧。
李備:這次在LiveVideoStackCon分享的主題是“音樂場景下的實時音頻解決方案”,主要會講下普通場景的音頻解決方案的框架,每個模塊的主要作用,可能會遇到的挑戰和問題,再來分析下,音樂場景的新的挑戰,以及普通解決方案在音樂場景下的不足,以及網易云信在音樂教學下的一些思考。
10月11日 19:30,網易云信資深音頻算法工程師李備將進行LiveVideoStackCon講師熱身分享。本次李備將與大家分享教育場景下的實時音視頻解決方案,討論在線教育的音頻需求,一般軟件音頻框架,以及行業的挑戰。
報名方式:掃碼添加MCtalk小助手,小助手將于10月10日統一發送報名鏈接
此外,10月19日大會第一天 ,在教育專場中,網易云信資深音頻算法工程師李備老師將與您分享《音樂場景下的實時音頻解決方案》相關話題,歡迎特別關注!
點擊【閱讀原文】進入官網了解詳情。
總結
以上是生活随笔為你收集整理的【LiveVideoStack采访】李备:音视频技术的难点与未来的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视频直播技术之iOS端推流
- 下一篇: 互联网1分钟 | 1009