音视频技术开发周刊 58期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第58期內容,祝您閱讀愉快。
架構
WebRTC服務器架構
WebRTC在構建瀏覽器視頻會話的時候,肯定少不了服務器的支持。目前,WebRTC主要有三種網絡架構:Mesh(P2P)、MCU(Multi-point Control Unit)、SFU(Selective Forwarding Unit)。
時永方:做到這三點,你就是多媒體內行了
騰訊多媒體內核中心高級研究員時永方接受了LiveVideoStack的郵件采訪,談及了個人成長中的關鍵時刻,學習多媒體開發的三點核心,以及在5G和高清時代下,微信多媒體團隊面臨的挑戰。
演進中視頻流媒體容器格式與傳輸協議
本文將介紹視頻封裝打包(Format, Packaging)和分發協議(delivery protocol)方面近期的標準化技術,并討論如何將新技術整合到視頻流服務系統中,同時盡量保持與現有技術的兼容性。
網易工業級WebRTC應用實踐深度解析
本文來自網易云信CTO趙加雨在LiveVideoStackCon2017上的分享,并由LiveVideoStack整理而成。趙加雨闡述了網易在WebRTC上的探索和改進,以及如何與WebRTC進行互通。
AV1:下一代視頻標準—約束定向增強濾波器
本文來自Xiph.org的創始人Christopher Montgomery在Mozilla博客上的分享,他也是Mozilla Daala的貢獻者。Christopher Montgomery是多媒體圈的傳奇人物,Xiph.org于2000年推出Ogg Vorbis,2013年加入Mozilla,有興趣的同學可以去Google他的Wiki頁面。本文由LiveVideoStack摘譯,并由專業的多媒體工程師進行審校。
音頻/視頻技術
Android音視頻開發之-WebRTC技術實踐 何俊林
Android應用也可以植入WebRTC。好處是什么?簡單來說就是你可以用很簡潔的代碼,在手機上實現點對點的音視頻通話或者數據傳輸,點對點,也就是P2P。
多長的企業視頻最受歡迎?小于60秒
資深多媒體技術咨詢師Jan Ozer撰文,對企業視頻托管服務商Vidyard的視頻報告進行了解讀,報告涉及用戶喜歡觀看視頻的類型、喜歡視頻的長度等。LiveVideoStack對文章進行摘譯。
洞察 video 超能力系列——玩轉 mp4
點播領域里 Mp4 是最普遍、兼容性最好的視頻容器,不過 Mp4 也有它的局限性,比如常見的清晰度切換,我們是無法像YouTube那樣做到無縫切換的。
PCS2018:360度全景視頻流媒體傳輸系統
PCS2018:紐約大學工學院的Yao Wang教授做了關于360度全景視頻流媒體傳輸系統:Two-Tier Streaming(TTS)的主題報告,介紹了360度全景視頻流媒體的特點,TTS方案的技術要點,目前的實驗結果以及研究展望。
編解碼
WebRTC中的Opus編碼揭秘 老衲不出家
WebRTC中默認是采用Opus編碼,Opus編碼是由silk編碼和celt編碼合并在一起,silk編碼是由skype公司開源的一種語音編碼,特別適合人聲,適合于Voip語音通信。celt和mp3,aac類似,適合于傳輸音樂。
RealNetworks CTO:我們追求低復雜度的軟解碼
上個世紀末,家庭寬帶還處在“KB”量級,RealNetworks通過其高壓縮比的Real格式在國內曾經獲得了大量終端用戶。光陰荏苒,RealNetworks在國內的研發團隊帶來了面向高清畫質的Codec,并獲得了CIBN這樣的用戶的認可。在NAB大會上,資深多媒體技術咨詢師Jan Ozer對RealNetworks CTO Reza Rassool進行了訪談,談及了與HEVC的競爭以及國內的市場格局。
RDO (率失真優化): 可用于mode選擇等 ?FlyingPenguin
RDO用于視頻壓縮時提供視頻質量。通過名稱就可以看出,它涉及了以下兩方面的優化:失真(視頻質量損失)的大小和編碼視頻(碼率)的大小。
PCS2018:下一代視頻編碼標準——Versatile Video Coding (VVC)
PCS2018:本次會議旨在為視覺壓縮領域提供一些突破性的先進技術以及提供高水平的學術報告。在會上,JVET的兩位聯合主席Jens-Rainer Ohm和Gary J. Sullivan做了關于下一代視頻編碼標準VVC的主題報告,介紹了上一輪提案征集結束后的測試結果、當前VVC測試軟件的情況以及后續的工作計劃。
AI智能
超實用的圖像超分辨率重建技術原理和介紹
本文簡單介紹了圖像超分辨率重建技術的概念與實踐,以及傳統和基于深度學習的圖像超分辨率重建技術的原理和應用方案。
解密美圖大規模多媒體數據檢索技術DeepHash
美圖是一家擁有海量多媒體數據的公司,如何有效分析理解這些數據內容并從中挖掘出有效信息,對我們提出了重大挑戰。本文以美拍業務為例,介紹我們在海量短視頻數據的內容分析理解和大規模檢索技術方向的探索和實踐。
下一個GAN?OpenAI提出可逆生成模型Glow
目前,生成對抗網絡 GAN 被認為是在圖像生成等任務上最為有效的方法,越來越多的學者正朝著這一方向努力:在計算機視覺頂會 CVPR 2018 上甚至有 8% 的論文標題中包含 GAN。近日來自 OpenAI 的研究科學家 Diederik Kingma 與 Prafulla Dhariwal 卻另辟蹊徑,提出了基于流的生成模型 Glow。據介紹,該模型不同于 GAN 與 VAE,而在生成圖像任務上也達到了令人驚艷的效果。
普通視頻轉高清:10個基于深度學習的超分辨率神經網絡
本文主要分享用于超分辨率的深度學習基本框架,以及衍生出的各種網絡模型,其中有些網絡在滿足實時性方面也有不錯的表現。
IRGAN Tutorial:上交張偉楠老師-GAN在信息檢索的應用
生成對抗網絡(GAN)已經在深度學習和無監督學習中有廣泛的應用。利用對抗訓練機制,GAN的生成模型生成以適應潛在的未知實際數據分布,判別模型估計數據實例是真實的還是生成的。在本教程中,作者將重點討論GAN技術以及各種信息檢索場景中離散數據擬合的變體。?
圖像
HDR關鍵技術:色調映射(一)
HDR關鍵技術:色調映射(二)
HDR技術近年來發展迅猛,在未來將會成為圖像與視頻領域的主流。如何讓HDR圖像與視頻也能夠同時兼容地在現有的SDR顯示設備上顯示,是非常重要的技術挑戰。本系列將會詳細地總結色調映射技術的相關問題,并介紹經典的色調映射算法。將分為三個部分:(一)是色調映射技術的綜合介紹;(二)是圖像色調映射算法的總結與經典算法介紹;(三)將介紹視頻色調映射算法。
終端圖像處理實踐-實時唇彩效果優化
使用常規的三角貼合的方式給唇部上色,在大多數情況下都表現良好。但是在唇部形態較之正常形態發生較大變化時,比如在嘟嘴,張嘴與抿嘴的場景下唇彩的貼合程度就會降低許多。于是我們嘗試使用LUT+唇部mask的濾鏡技術對唇部區域進行色彩變換來實現各種唇彩的效果。根據這樣的實現思路,我們設計實現了MCLipFilter來嘗試解決所遇到的唇彩貼合不準的問題。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 58期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AV1:下一代视频标准—约束定向增强滤波
- 下一篇: 沉浸式媒体