音视频技术开发周刊 81期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第81期內容,祝您閱讀愉快。
架構
舞臺現場直播技術實踐
舞臺現場直播由于場景復雜度高,對各環節的可靠性要求也非常高。YY音視頻技術專家朱明亮在LiveVideoStack線上交流分享中結合YY直播實踐詳細解析了直播中涉及的視頻采集卡編程,軟硬件編碼,視頻濾鏡處理等內容。本文由LiveVideoStack整理而成。
愛奇藝視頻版權保護技術與維權實踐
隨著海量多媒體應用內容的產生,對內容的安全性要求也相應提高.愛奇藝技術產品中心高級經理 陳赫從多個方面介紹了愛奇藝在版權保護上的技術探索與維權實踐.本文來自陳赫在LiveVideoStack線上交流分享,并由LiveVideoStack整理而成。
DASH && Nginx 源碼解析 && WebRTC學習資料收集
自適應流媒體傳輸(四)——深入理解MPD
在MPEG-DASH中將一組不同編碼參數的媒體內容和相應的描述集合定義為媒體展示(presentation)。這里的媒體內容是由單個或多個時間上連續的媒體時段(period)組成的,這些媒體時段的內容相互之間可能完全獨立。
SIP筆記-----語音質量分析
目前比較常用的對語音的主觀評定方法是使用MOS方法。根據P.830建議的要求,特定的發話者與聽話者在特定的環境下,通過收集測試者在各種不同情景下的主觀感受,根據P.830的分析法則得出該語音的品質。
音頻/視頻技術
語音識別技術之關鍵詞檢索
語音關鍵詞檢索也叫spoken term detection, 或keyword spotting。有別于大家熟知的文本搜索的最大特點是語音關鍵詞檢索是對語音文件的搜索。
視頻云肖長杰:視頻AI科技助力短視頻生態
人工智能技術已經應用到了視頻的生產、傳輸、消費等各個階段。比如,在用戶創作階段,基于人臉識別及跟蹤技術實現瘦臉、大眼、美白功能已經相當常見;當視頻上傳到服務端之后,我們會對視頻內容進行審核、去重、溯源等處理,并進一步對視頻的打標、分類,同時采用AI技術去定義最有美學感的封面,便于完成用戶個性化搜索、智能推薦等動作,提升用戶的點擊率和體驗。
搭建直播平臺過程中Android端直播APP源碼是如何實現連麥功能的?
直播平臺強大的變現能力是大家有目共睹的,很多開發商在搭建直播平臺時為了增加用戶黏性,紛紛將直播中加入連麥功能。
目前市場上通用的有兩種連麥方案:本地混流和云端混流。
Windows 下視頻采集技術
在 Windows 下主要有兩種方法來采集視頻: 一種是通過 Media Foundation,另一種是通過 DirectShow。Meida Foundation 是 Windows 從 vista 之后推出的一套全新的 多媒體SDK,簡單方便,從 Win7 開始成熟起來。另一種是 DirectShow,它主要用于 win7 之前的采集視頻。
編解碼
MPEG V-PCC項目啟航
本文參考Adrian Pennington近期發表在IBC的文章MPEG heads to the holograph,重點介紹了MPEG正在推廣的基于視頻的點云壓縮技術 (V-PCC)。V-PCC解決了3D點云(空間中的一組數據點)的編碼,以及相關的例如顏色的屬性。其目的是啟用包括人物角色表示在內的新應用。換句話說,人形化身或全息圖作為沉浸式擴展現實的一部分在不久的將來就會實現。
幀間預測編碼的基本原理
在H.264中,預測編碼與變換/量化編碼、熵編碼并列的重要組成部分,對編解碼器的性能具有重大影響。預測編碼主要包括兩部分:幀內預測和幀間預測。
Netflix:我們是如何評估Codec性能的?
Netflix會定期評估現有和即將推出的視頻編解碼器,不斷優化視頻編碼技術以提供更高質量的服務。本文介紹了視頻編碼器性能評估中的幾項重要元素以及如何從傳統與自適應流媒體兩種視角進行編解碼器性能對比。本文來自Netflix技術博客,LiveVideoStack進行了翻譯。
H264視頻與pcm音頻合成MP4視頻格式
H.264是壓縮過的數據,PCM是原始數據,MP4是一種視頻封裝格式。實際H.264與PCM不能直接合成MP4格式,因為音頻格式不對。這里需要中間對音頻做一次壓縮處理。基本流程為:將PCM音頻數據壓縮成AAC格式音頻數據,再將AAC與H.264合成MP4視頻格式。
AI智能
褲子換裙子,就問你GAN的這波操作秀不秀
把照片里的綿羊換成長頸鹿、牛仔長褲換成短裙。聽起來有點不可思議,但韓國科學技術院和浦項科技大學的研究人員目前已實現了這一騷操作。他們開發的一種機器學習算法可在多個圖像數據集上實現這種操作。其論文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。
中科院發布了目標追蹤數據集,1萬多條視頻,150萬個邊界框
中科院發布了一個目標追蹤數據集,叫做Got-10k。很大,很精致。它包含了超過10,000條視頻,主角都是在現實世界里移動的物體,分成560多個類別。物體的邊界框全部是手動標記,總計超過150萬個。
谷歌新研究用深度學習合成運動模糊效果,手抖也能拍出攝影師級照片
谷歌的研究人員最近開發了一種新技術,使用連續拍攝的一對非模糊圖像,能夠合成運動模糊圖像。在發表在arXiv上的預印版論文中,研究人員概述了他們的方法,并與幾種基線方法對比,對其進行了評估。
干掉高速攝像頭!神經網絡生成極慢視頻,突破人類肉眼極限(PyTorch實現)
英偉達團隊CVPR-18論文Super SloMo使用深度學習,能將任意視頻變為“高清慢速播放”模式,從此不再錯過任何細節。今天有人開源了PyTorch實現,趕緊來試試吧!
圖像
深度學習AI美顏系列----人像靜態/動態貼紙特效算法實現
人像靜態/動態貼紙特效幾乎已經是所有圖像視頻處理類/直播類app的必需品了,這個功能看起來復雜,實際上很簡單,本文將給大家做個詳細的講解。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 81期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 舞台现场直播技术实践
- 下一篇: 百度媒体云智能编码技术实践