时永方:做到这三点,你就是多媒体内行了
騰訊多媒體內核中心高級研究員時永方接受了LiveVideoStack的郵件采訪,談及了個人成長中的關鍵時刻,學習多媒體開發的三點核心,以及在5G和高清時代下,微信多媒體團隊面臨的挑戰。
策劃 / LiveVideoStack
LiveVideoStack:時永方你好,能否簡要介紹下自己,包括目前的主要工作及關注領域?
時永方:我是來自騰訊微信多媒體內核中心的時永方,本科畢業于南京大學,研究生畢業于香港科技大學MTREC實驗室,研究生畢業之后加入微信,從事微信視頻通話的相關技術研發,目前的工作主要在提升微信視頻通話的QoS/QoE(Quality of Experience),包括清晰度、流暢度提升,流量控制,抗丟包策略,多編碼器協同編碼等,近期也有關注運用深度學習方法進行在視頻、圖片主觀質量的提升。
LiveVideoStack:是哪些原因或機緣巧合讓你選擇騰訊,并專注在多媒體技術?
時永方:我進騰訊應該說是一個巧合,當時我在香港科大還有一年MPhil畢業,還在準備ICME會議的paper,沒有全力找工作。我的一個博士師兄去微信面試了,當時是小龍給他面試的,小龍給他展示了剛推出不久的微信音視頻通話功能(2012年微信4.2版本)。我通過師兄得知微信在招視頻編解碼相關的人才,在體驗過微信清爽的視頻聊天之后有些心動。師兄拿到了offer,但最終因為個人原因去了美國高通,我“撿漏”通過師兄投遞了簡歷,很幸運通過了面試來到了微信事業群的前身廣州研發部。
LiveVideoStack:多媒體技術涉及許多基礎科學,需要足夠的耐心潛心研究,初學者入門不易。您對此有哪些體會或經驗分享?
時永方:多媒體技術確實涉及很多基礎學科,如高等數學,數字信號處理,通信原理,信息論等。通過我本人的學習經歷,有三點建議:
第一,初學者需要掌握數字信號處理及信息論等基本知識,這些知識是我們進入這個行業的敲門磚;
第二,需要了解技術的演進過程以及解決的“痛點”。具體到視頻編解碼上,我建議初學者需要了解視頻編碼標準的演進過程,從早期的H .261/263,MPEG1/2/4,到現在的H.264/H.265/H.266,熟悉每一項標準的差異點,以及在技術進步過程中想解決的問題,這樣不僅知其然還能知其所以然;
第三,最后一點,知行合一!通過對各標準的測試模型或開源軟件的代碼閱讀,加深對技術細節的理解,通過部分模塊的優化,提高自身的實踐能力。如果能做到這三點,恭喜你就已經是內行人了。
LiveVideoStack:能否推薦一些學習多媒體開發的書籍或資料?
時永方:基礎知識方面推薦崗薩雷斯的《數字信號處理》,東南大學的《信息論與編碼》,編碼基礎方面推薦Wiley的《THE H.264 ADVANCED VIDEO COMPRESSION STANDARD》或國內畢厚杰老師的《新一代視頻壓縮編碼標準H.264》,最新的標準可以看相關的標準文檔。
LiveVideoStack:過去這五年是微信經歷了快速發展,能否介紹下你所做的對微信音視頻的優化與改進?
時永方:過去五年,微信取得了高速發展,成為一款“國民APP”,我所在的微信多媒體中心的音視頻通話業務也取得了極大的發展。我的優化工作主要在微信視頻通話的QoE提升上,主要分以下幾個方面:
1. “三高”(高幀率、高分辨率、高質量)優化
高幀率、高分辨率優化簡單來說就是提高視頻通話的幀率和分辨率。為了解決各終端性能的“長尾”效應,我們對各終端的性能進行統一評估,根據不同的能力來決定其最高編碼幀率和分辨率。另外,針對軟編碼的性能瓶頸(速度、發熱),我們對高分辨率視頻的編碼采用硬件加速,以此提高視頻通話的高清體驗。為了提高視頻的主觀質量,我們還做了編碼器的壓縮效率和視覺質量優化,減輕低碼率時的塊效應。
2.流量控制優化
為了能盡可能準確描述信道的狀態,除了一般流控系統里用到的丟包和延時參數外,我們還估計端到端的可用帶寬,根據這些信息來綜合調節,減少超帶寬的概率。
3. 弱網優化
在流暢度保證方面,除了傳統的加FEC冗余數據包保護外,我們還進行了多方面的優化: 我們改進了編碼器的參考幀結構,降低某幀丟失導致的誤差傳播概率,我們還優化了FEC冗余數據包保護策略,將冗余數據包優先分配給重要的幀;對于高丟包但RTT較低的網絡,我們會提前判斷是否需要I幀請求,降低卡頓時長。
LiveVideoStack:隨著手機更新換代,硬件性能不斷提升,對于微信音視頻的QoS/QoE是不是更容易保障了?在網絡條件不斷改進,終端硬件性能提升的情況下,對底層技術的研發是不是不再重要呢?
時永方:硬件性能的提升,確實有助于我們提高微信視頻的QoS/QoE,只有硬件性能足夠,我們才有可能進行更復雜、更高效率的視頻編碼,提升分辨率,用復雜度trade-off一些壓縮效率上的提升。但其實,從整個系統來看,硬件終端只是整個VOIP端到端系統里起點和終點,我們面臨最大的不確定性在網絡途中。我們的IP網絡是一個best-effort的數據網絡,是一個大黑盒,突發丟包、隨機丟包、抖動這些未知因素會極大地影響我們的視頻通話體驗,QoS/QoE保障仍然是一個艱巨的任務。
底層技術研發的重要性是不言而喻的,我們對技術的極致追求也是持續的。我們都知道,網絡再好也有“抽風”的時候,手機再強但仍有用戶使用較差的手機。對微信團隊而言,我們有強烈的用戶導向,我們重視每一個用戶的反饋,重視每一個異常的場景。如果說現在的微信視頻通話已經解決了80%場景下的QoS/QoE問題,剩下的20%仍需要我們不斷地一點點打磨、優化。
LiveVideoStack:接下來微信多媒體服務的挑戰還有哪些?改進和研發重點方向是什么?
時永方:隨著業務的擴大,我們的帶寬成本在不斷地提升,為了控制成本,同時又能保證用戶的視頻質量體驗,我們還要不斷地提升我們編碼器的編碼效率,優化視頻的主觀質量;隨著騰訊“連接一切”戰略的深入,可以預見,以后將會有各式各樣的設備接入微信的多媒體服務,如何給眾多異構設備提供高標準的服務,無論對我們的WAVE引擎(Wechat Audio & Video Engine)還是后臺,都有相當的挑戰。為此,我們不僅要提高WAVE引擎的通用性,還要提升后臺的處理能力和穩定性。
LiveVideoStack:能否介紹下在微信上的軟/硬件協同編碼,以及多Codec協同的業務場景和實踐?
時永方:上面也提到了,我們在視頻通話上根據不同分辨率、不同的網絡特點、設備性能選擇合適的軟/硬件編碼器協同工作。簡要來說,在網絡較差、分辨率較低時,我們采用自研軟件編碼器,具有更強的傳輸適應性,在較差網絡中降低卡頓;在網絡較好、硬件編碼性能良好的設備上進行高分辨率視頻編碼時,我們采用硬件編碼器編碼,可以降低高清視頻編碼的延時以及減少手機的發熱。
LiveVideoStack:在5G、4K時代到來之后,對多媒體技術帶來哪些挑戰?對于開發而言,有哪些機遇?
時永方:5G、4K高清時代的到來會對我們帶來很多挑戰。
首先,最直觀的是,視頻類業務量的激增和用戶對視頻質量的要求不斷提高,對我們而言意味著視頻帶寬成本更大,因此,我們需要提高壓縮效率;
第二,對于移動設備而言,運算更加復雜更加耗時,因此我們要優化編解碼器,提高編解碼速度;
第三,可以預見,路越修越寬,車越開越多,網絡擁塞狀態并不一定會隨著5G的使用而徹底好轉,不確定性仍然很多,我們的流控響應的動態范圍還要繼續擴大以適應新的網絡特性。
新的時代孕育新的機會,我們期待在5G、4K到來時展現我們的硬實力,包括編解碼器壓縮效率、速度,智能流控等。
LiveVideoStack:在今年的CVPR大會上,看到中國來自國內的AI相關的企業。參與此次CVPR,你是聽眾身份參會嗎,還是有其他任務?參與大會觀察到哪些現象,有何體會?
時永方:我主要是去學習最新的學術成果,了解最新的工業界關注方向。這次參會,我看到自動駕駛、AI醫療很火熱,很多國內國外的大公司都有相應的人工智能實驗室,在頂會上吸引頂尖的學生、研究人員。我印象最深的是,AI教主——NVIDIA CEO黃仁勛親自趕到會場,和眾多使用NVIDIA芯片研究自動駕駛、AI醫療解決方案的小創企業交流,了解他們的實際需求以及業務發展狀況。另外,大會的一個tutorial中提到,一個PhD學生用深度學習只花了1周時間就可以媲美資深天體物理學家幾十年搜索到的宇宙暗物質。(https://obamawhitehouse.archives.gov/blog/2011/06/27/competition-shines-light-dark-matter)對我們多媒體技術而言,如果能借助人工智能提升我們在QoE提升方面的一些主觀的、人為的決策也是極好的。
總結
以上是生活随笔為你收集整理的时永方:做到这三点,你就是多媒体内行了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStackCon讲师热
- 下一篇: 周正宁:未来五年属于WebRTC+AV1