音视频技术开发周刊 | 138
每周一期,縱覽音視頻技術領域的干貨和新聞投稿:contribute@livevideostack.com。
架構
用FFmpeg搭建基于CNN的視頻分析方案
FFmpeg作為一個集錄制、轉換、音/視頻編碼解碼功能為一體的開源框架,自然也需要考慮怎樣去和當下流行的視頻分析技術融合。本文來自英特爾網絡平臺部軟件工程師謝林在LiveVideoStack線上分享中的演講,詳細解析了如何用FFmpeg搭建基于CNN的視頻分析方案。?
https://mp.weixin.qq.com/s/mDOsse-1Hs61cSVNZjsVdQ
使用 KITE 進行 WebRTC 自動化測試
KITE 整合了 Selenium 和 Allure。Selenium 是一個開源的瀏覽器自動化框架,支持集群化(grids),不同的節點可以運行不同的操作系統類型/版本、瀏覽器類型/版本,這樣我們就可以在各種操作系統和瀏覽器的組合下自動化測試 Web 應用了。Allure 則是一個開源的測試報告工具,用來展示測試結果。
https://blog.piasy.com/2020/03/28/KITE/index.html
iOS音視頻(音視頻的編解碼)
利用VideoToolbox和AudioToolbox去實現音視頻的編解碼。研究的視頻流格式是H264,音頻流格式是AAC。
https://juejin.im/post/5e7c764fe51d455c3a0ae95d#heading-1
OWT Server 集群部署和擴縮容
一轉眼 OWT Server 快速入門已經快一年了,最近終于遇到了單臺機器無法支撐用戶規模的情況,原本我樂觀地認為 OWT 自動擴縮容是一件很簡單的事情,但實際上這事一點也不簡單。
https://blog.piasy.com/2020/04/01/OWT-Server-Cluster-Scaling/index.html?from=groupmessage
傳輸網絡
騰訊視頻P2P帶寬節省率持續提升之路
要想提升P2P帶寬節省率,最直接的方式當然是壓縮CDN帶寬,但簡單粗暴的減少CDN下載勢必會帶來播放體驗問題。騰訊視頻數據傳輸研發高級工程師嚴華梁在LiveVideoStackCon 2019深圳的演講中詳細介紹了騰訊視頻針對P2P帶寬節省的最新探索與實踐。
https://mp.weixin.qq.com/s/gJBPwzaX4xJWy4av-_tJgw
DVB-I服務的編碼和打包
本次網絡研討會探討了關于DVB-I規范為線性電視服務提供的以Internet為中心的解決方案。盡管DVB-I服務列表可以參考通過寬帶和/或廣播提供的服務,但該規范的主要開發目的是為寬帶觀眾帶來傳統數字電視的用戶友好性和魯棒性。該網絡研討會考慮了線性電視內容的寬帶傳輸的關鍵技術。
https://mp.weixin.qq.com/s/pQ9Ekt0FSmV1fvotfLnnqQ
編解碼
Xilinx FPGA,“加速”視頻質量提升
本文內容來自Xilinx 張吉帥在LiveVideoStackCon2019深圳站上的精彩分享,他將重點討論異構計算中非常具有潛力的一部分 —— FPGA,并詳細介紹賽靈思以及其技術生態合作伙伴在有關視頻加速,圖片轉碼等方面的解決方案。
https://mp.weixin.qq.com/s/9LJUD_4D5sSx2Vr_Q0INEA
?
探究一下iSize的編碼預處理魔法
iSize BitSave是一種視頻預處理技術,旨在提高制作的視頻的質量。本文將從摘要開始,然后進行深入的探討。
https://mp.weixin.qq.com/s/PyOZi3ElflunGqYupwyVDg
視頻技術
金山“云”上音樂節 —— 一文帶你看懂如何支持一場線上演出
疫情當下,線上演藝活動受到巨大沖擊,娛樂行業展開一場自救大行動,把演出從線下搬到了線上。
轉到線上的演出目前主要是以直播形式出現在各大直播平臺,比如最近迅速躥火的One Third(OT)云蹦迪、“宅草莓不是音樂節”、”SNH48 云公演”、音樂人的“宅現場”、“云相聲”等。豐富的在線演藝內容讓無法去現場的觀眾感到欣喜和安慰,同時也讓重創中的演藝行業依然保持著活力,并且催生出新的希望。
https://mp.weixin.qq.com/s/P5r71NNnv26sIkjae-78Iw
解決FFmpeg獲取aac音頻文件duration不準
這個問題是這樣產生的,一同事反應會隨機出現ijk獲取到的aac文件的duration不準,發來一看,確實不準,在AE或者系統mediaplayer中得到的都是8.4秒(準確時間是MtkAACExtractor: ADTS: duration = 8448000 us),ijk得到的是9.3秒,在播放的時候,在8秒的時候流就結束了,放到編譯的ffmpeg中,一看也是9.3秒。
https://juejin.im/post/5e7ec5706fb9a03c6568cf5b
5G+AI時代的高效視頻處理
當前互聯網上大于75%的流量都來自于視頻,據估計5G時代視頻流量更是高達90%以上。如何壓縮、傳輸以及分析視頻內容成為5G部署及大規模應用的關鍵。雖然傳統的5G部署也有一定市場,但經過AI加持的智能終端/邊緣/云計算可以為5G帶來更大的收益及降低其部署成本。本次報告主要探索了在硬件層面如何利用傳統方法及深度學習方法對視頻進行壓縮和分析,以及如何在5G信道中傳輸壓縮后的碼流。
https://mp.weixin.qq.com/s/3w5IDMOTS_619wC0OEU_ng
Around 推出了浮動圓形頭像視頻多人聊天應用
Around 推出了其新的視頻聊天軟件,該軟件可以將與會人員縮小為漂浮在屏幕上的圓圈,從而為其他應用程序騰出空間。Around是專為筆記本電腦設計的,可使用自動縮放和降噪功能使面部和聲音保持清晰。最多可以讓15個人從自己的筆記本電腦撥打電話而不會產生回聲,甚至可以彼此相鄰,而不必圍著一臺計算機或堆放在一個大屏幕會議室中。
https://techcrunch.com/2020/03/18/around-video-calling/
Decode the week
Pornhub采用Mediasorp用于WebRTC SFU、Zoom 向FB回傳數據
https://mp.weixin.qq.com/s/fLFz_I9Gsf6kSWKha4GJUA
HDR視頻中的膠片顆粒噪聲和掃描儀噪聲
本文是來自SMPTE2019的演講,演講者是Michael D. Smith。演講的主要內容是:HDR視頻中的膠片顆粒噪聲和掃描儀噪聲。
https://mp.weixin.qq.com/s/jKjNXS09S6n_AW3XyW7N1Q
日本的4K/8K UHDTV 衛星廣播系統
本文來自SMPTE2019的演講,演講者是來自NHK的Katsuya Hayashi,演講題目是“Development of New 4K_8K UHDTV Satellite Broadcasting System in Japan”。
https://mp.weixin.qq.com/s/2Pvu6_DQubbAHaO0CQxG8g
AI智能
你今天怎么這么好看——基于深度學習的大型現場實時美顏
美顏是當下直播甚至是所有形式對外展示的一個必備條件。手機端的美顏就像私人化妝師,能夠幫助我們實現各種心儀的效果。而大型娛樂節目一般都是提前進行錄制,然后進行后期制作,在視頻質量和美顏方向也會在后期也會進行諸多的處理。但對于實時直播的節目和晚會,沒有后期制作的存在。這種大型娛樂現場(和手機端前的直播相比)的場景非常復雜,燈光、背景、機位、多人等都對傳統的基于人臉檢測和跟蹤的美顏提出了巨大挑戰。
https://mp.weixin.qq.com/s/hL5nEQs2TDgTeW3j1wQ1EA
AI對廣播和OTT內容分發中視頻壓縮的改善
本文來自SMPTE2019的演講,演講者是來自harmonic的高級產品銷售經理Jean-Louis Diascorn。演講主題是AI技術對廣播和OTT內容分發中視頻壓縮的改善。
https://mp.weixin.qq.com/s/iIlodP314lAhYMQTWacRzw
低耗時、高精度,微軟提出基于半監督學習的神經網絡結構搜索算法 SemiNAS
近年來,神經網絡結構搜索(Neural Architecture Search, NAS)取得了較大的突破,但仍然面臨搜索耗時及搜索結果不穩定的挑戰。為此,微軟亞洲研究院機器學習組提出了基于半監督學習的神經網絡結構搜索算法 SemiNAS ,能在相同的搜索耗時下提高搜索精度,以及在相同的搜索精度下減少搜索耗時。SemiNAS 可在 ImageNet(mobile setting) 上達到23.5%的 top-1 錯誤率和6.8%的 top-5 錯誤率。同時,SemiNAS 第一次將神經網絡結構搜索引入文本到語音合成任務(Text to Speech, TTS)上,在低資源和魯棒性兩個場景下取得了效果提升。
https://mp.weixin.qq.com/s/V9OL7thhOk7m75g86WLRZA
圖像
抖音包大小優化-資源優化
隨著業務的快速迭代,抖音 Android 端的包大小爆發式增長。包大小直接影響到下載轉化率、推廣成本、運行內存和安裝時間等因素,因此對 apk 進行瘦身是一件很有必要且收益很大的事情。apk 主要由 dex、resource、asserts、native libraries 和 meta-data 組成,針對每一部分,都可以專項去做包大小優化。
抖音 Android 端經過一段時間努力,包大小優化已經取得了階段性的成果。目前仍在持續的優化中。
https://mp.weixin.qq.com/s/xxrvRKXXDquJaezjrOlLwA
HDR Imaging--Digital Overlap
Digital Overlap是目前比較流行的sensor HDR 技術,在監控與車載相機等領域的應用非常廣泛。Sony于2012年在監控相機市場首先推出基于DOL(digital overlap) HDR技術的圖像傳感器,之后OV與Onsemi也都推出了與DOL類似的HDR技術的圖像傳感器,而且應用領域不局限于監控這種傳統HDR imaging的市場,而且擴展到了Automotive camera市場?,F在Sony已經推出了第二代支持虛擬通道DOL HDR技術的sensor。
https://mp.weixin.qq.com/s/NuJYejYJ1kKdD2pRo5Wxlw
資源推薦
基于輪廓調整的SOTA實例分割方法,速度達32.3fps
實例分割是許多計算機視覺任務中的重要手段,目前大多數的算法都采用在給定的bbox中進行pixel-wise分割的方法。受snake算法和Curve-GCN的啟發,論文采用基于輪廓的逐步調整策略,提出了Deep snake算法進行實時實例分割,該算法將初始輪廓逐漸優化為目標的邊界,達到很好的性能且依然保持很高的實時性(32.3fps)? 。?
論文地址:https://arxiv.org/abs/2001.01629
論文代碼:https://github.com/zju3dv/snake/
點擊“閱讀原文”可查看更多詳細信息,請大家科學上網。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 138的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Duo采用WaveNetE
- 下一篇: Zoom并非端到端加密、TikTok第一