音视频技术的高光时刻: LiveVideoStackCon 2019上海 音视频技术大会
Mux 流媒體專家Phil Cluff在4月19、20日舉辦的LiveVideoStackCon 2019上海音視頻技術大會中發表了主題演講,并根據自己在大會中的所見所聞,對其它部分精彩內容進行了詳細的分析與總結。
文 / Phil Cluff
譯 / John
原文?
https://mux.com/blog/highlights-livevideostackcon-shanghai-2019/
上個月,我很榮幸地被邀請參加在上海舉辦的LiveVideoStackCon 2019 音視頻技術大會并就如何設計出色的視頻API進行了主題演講。不得不說,這是一場由LiveVideoStack組織的專注于在線流媒體等音視頻技術、服務與解決方案的饕餮盛宴。
LiveVideoStackCon 2019對我們——Mux與Demuxed會議的運營者來說是一個不錯的能與音視頻行業的優秀同仁溝通交流機會,因此我決定跨越大半個地球來到令人驚嘆的上海參加這場技術大會。
為期兩天的LiveVideoStackCon 2019 上海吸引了400-500名中國最優秀、最具創新力的音視頻工程師。在這場大會中我不僅發表了主題演講,還參與了多場講座與圓桌會議,內容包括但不限于AI+多媒體、視頻編解碼、開源技術棧與多媒體傳輸網絡。雖然我的中文不算出色,但憑借在音視頻領域的多年耕耘與谷歌翻譯的良好協助,我完全體會到了與會嘉賓和觀眾的熱情以及音視頻技術不斷發展的澎湃動力。
?
中國正在成為機器學習的領導者
盡管在Mux,我們認為自己是將機器學習應用在音視頻領域的行業領導者——例如我們的基于機器學習的Per-Title編碼解決方案與和自適應編碼相關的產品等;但讓我們感到震驚的是,我們在LiveVideoStackCon上看到的大量基于機器學習的解決方案與商業應用,從TCP的選擇到圖像識別優化,都是借助神經網絡得以實現。我們十分期待能在Demuxed 2019看到這樣機器學習的行業應用百花齊放的局面。
來自中興微電子的人工智能首席科學家徐科借主題演講,深入淺出地分享了如何將機器學習運用于視頻傳輸與分析當中;除此之外徐科還談到了機器學習在計算機視覺領域的一些挑戰并提供了一系列應用實例,讓我倍感驚訝的是在這場演講上,徐科對去年十月在“自然”雜志上發表的一篇題為《基于倫理學的機器學習實驗(“The Moral Machine experiment” )》的論文進行了可視化分析。此實驗旨在分析危險發生時人們的主觀選擇對于機器學習算法的影響,并揭露了不同國家與地區文化和社會的差異——例如當危機發生時,英國人相對于美國人更愿意把更多生存的機會留給年輕人。
?
我最喜歡的基于機器學習的解決方案之一是用于選擇由智能手機拍攝的照片,其最佳曝光后處理設置參數的機器學習訓練算法,該算法由同濟大學開發并逐漸落地。除了執行所有我們已知的傳統方法,此解決方案還執行了Google的“Auto Awesome”特性。
為什么中國會成為機器學習領域的領導者?從一些研究機構給出的結果我們不難找到答案——首先,中國擁有全球規模最大的消費電子市場,這不僅僅是因為中國擁有全世界最多的人口數量,還因為中國擁有一個以技術為導向的社會與市場。與西方相比,中國的移動支付技術正經歷著爆炸式增長。據觀察,中國政府對人工智能研究的投入大大高于其他任何西方國家,尤其對于圖像分析和面部識別的研究更是頗為重視,西方國家需要花費很大資源與時間才能趕上中國現在取得的技術水平。
中國仍在繼續推進自己的視頻編解碼器
在之前的很長一段時間內,我并沒有在維基百科等渠道聽說過AVS(Audio Video Standard)——一個幾乎只在中國開發與使用的音視頻多媒體編解碼器。AVS的第一個版本實現了足以比肩MPEG 2與H.264的壓縮比,其中編解碼器的更新版本AVS +壓縮效果大致與H.264相當。AVS解碼器通常位于機頂盒中以接收有線和衛星廣播,在一些Android電視或機頂盒中我們可以發現AVS系編解碼器的存在。而自亞馬遜宣布推出Alexa語音服務以來,依賴Google Android的AVS發展面臨重重阻力,特別是因為Alexa現在開始越來越多地出現在家庭智能影音設備之中。
但出乎我意料的是AVS協議仍處于積極的開發狀態中且最新的標準版本AVS2聲稱其壓縮性能已優于HEVC。令人遺憾的是,由于未能實現桌面瀏覽器或iOS設備的支持,AVS2似乎不太可能在中國以外的其他地區取得商業成功,盡管與HEVC相比,AVS2具有更明智的專利池結構。
基于AV1的商用編碼器不斷涌現
?
雖然諸多中國公司繼續對AVS2等本土編解碼器追加投資,但開源編解碼器特別是AV1仍為大家關注的重點。來自騰訊的劉杉借主題演講對當前編解碼器的總體發展進行了精彩的闡述,而Zoe Liu則以AV1的更新為主題,詳細介紹了rav1e與dav1d的最新改進;除此之外,Zoe Liu的公司Visionular構建了一套基于機器學習的增強型視頻編碼器,她展示了這套全新開發的AV1編碼器Aurora的一些參數與數據。從質量和性能的角度來看,目前Aurora的綜合性能優于libaom;而某些測試序列的VMAF得分則提高了30%以上,在質量和編碼性能方面Aurora也優于lib-x265。值得注意的是,libaom并未針對性能進行特別優化,而是被設計成參考級編碼器。
盡管Zoe并沒有比較Aurora與rav1e或SVT-AV1,盡管兩者都可在許可證下免費獲得,但我們相信,為了與免費產品競爭,Aurora必須表現出足夠的速度或質量改進。然而Visionular宣稱即將推出一款軟件實時編碼器,這在商業市場上還屬首例。
在Mux,我們將繼續研究、開發和測試AV1生態系統中的商業與免費軟件。我們堅信開放的編解碼器生態系統適合每一個參與音視頻行業建設的開發者,我們希望為此生態系統的良性發展作出貢獻。
備用TCP堆棧逐漸普及
TCP的舉足輕重有目共睹。盡管在大多數互聯網設備與服務中被使用,但TCP并非為互聯網而生。現代網絡架構與CDN并不一定需要TCP中存在的積極擁塞與流量控制機制。
很長一段時間以來,企業為了提高數據吞吐量,減少延遲并增強數據鏈路的可靠性,一直在嘗試實現兼容TCP的網絡堆棧。其中嘗試的一些方法依賴于在已經接收到先前有效載荷的TCP ACK之前搶先發送的后續數據序列,其目的是有效調整擁塞控制算法。但此類型技術需要被微調以減少阻礙正常帶寬的風險, TCP應當與同一網絡上更傳統的TCP實現共存。
來自Akamai的Will Law在LiveVideoStackCon上借主題演講詳細闡述了Akamai如何通過兼容各種不同的TCP以提供最佳性能的TCP協議加速技術,包括FastTCP(2012年被Akamai收購)、BBR(Google的TCP替代方案,被Fastly與Spotify使用)、RENO與CUBIC等。與此同時,Akamai正致力于訓練神經網絡,該網絡可以識別出在每個HTTP請求中使用何種擁塞控制算法以達到最佳效果。不得不說這真的很新穎!
在中國的這段時間我也有幸與Cascade Range Networks的Sean進行了交談,并了解一些他們正嘗試使用兼容性TCP替代Linux網絡堆棧的探索。讓我印象深刻的是,他們借軟件部署設備之間的差異,實現從10美元的閉路電視攝像機到10,000美元的核心網絡服務器都顯示出性能的顯著提升。
我們將密切關注這一領域的發展。我們對Cascade Range Network的產品以及即將推出的谷歌BBR V2感到非常期待。
摘要
如果你有機會來到中國,那么LiveVideoStackCon將是一場不容錯過的絕佳技術盛宴。我非常享受在上海的時光,更多是因為這里有著與歐美等國家截然不同的技術發展理念,讓我們學會了掌握核心技術的特別奧義。
LiveVideoStack? 招募
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒及技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
LiveVideoStackCon 2019北京正在招募講師,無論你是技術派還是學術派,亦或是行業專家,無論你的團隊有多小、有多新,都可以來申請成為LiveVideoStackCon的講師。點擊【閱讀原文】了解更多大會相關信息。
總結
以上是生活随笔為你收集整理的音视频技术的高光时刻: LiveVideoStackCon 2019上海 音视频技术大会的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何构建高并发高可用的剧场直播云端混流服
- 下一篇: Twitch未来五年的视频编码战略:从H