音视频技术开发周刊 | 233
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
數據抓包工具:看看競品的協議都做了哪些優化丨音視頻工具
據抓包是我們做業務測試、競品分析的常用方法,在直播、短視頻等常見的音視頻業務場景能有好的數據抓包工具幫助,很多時候也能事半功倍,這里我們就介紹兩款常見的數據抓包工具。
可視化音視頻分析工具:好用工具大集錦,快轉發給你兄弟看看丨音視頻工具
工欲善其事,必先利其器。在音視頻開發中,為了方便、快捷、直觀的分析音視頻數據,最好能有一些可視化的分析工具來幫助我們,這篇文章就來介紹一下常見的可視化音視頻分析工具。
采用姿態傳感器信息的深度在線視頻穩像
本文介紹我們最新發表在IEEE Transaction on Multimedia(TMM)的工作,采用姿態傳感器信息的深度在線視頻穩像。在該論文中,我們構建了含有7種典型拍攝場景的數據集。并且設計了一種自適應地濾波模型,僅使用3或者10幀的緩存,高效地進行路徑優化。
1.5K star量,上古老番變4K,B站開源超分辨率算法
最近,GitHub 上一個圖像超分辨率的項目火了,一個叫做 Real-CUGAN 的工具可以把動畫圖像的質量提升 2 到 4 倍,qq 上斗圖的表情包也能給你腦補成 4k 品質。
聲網Agora Lipsync 技術揭秘:通過實時語音驅動人像模擬真人說話
今天我們來聊聊聲網自研的 Agora Lipsync(唇音同步) 技術是如何實現無需打開攝像頭,無需面部捕捉技術,只需上傳一張/多張人臉頭像就可以通過說話人的語音音頻信號,就能驅動靜態人臉頭像的嘴部運動。
2021聲學熱點全知道——實時通信中的音頻技術
2021聲學行業大總結系列文章第二期,21dB聲學人來和大家聊一聊實時通信中的音頻技術。音視頻實時通訊產品發展至今,其產品功能趨于智能化、多樣化、人性化。以廣泛使用的線上會議產品為例,聲學場景分類作為近年大熱的技術,極大地提升了線上溝通質量。
詳解低延時高音質:丟包、抖動與 last mile 優化那些事兒
本篇是「詳解低延時高音質系列」的第三篇技術分享。我們這次要將視角放大,從整個音頻引擎鏈路的角度,來講講在時變的網絡下,針對不同的應用場景,如何權衡音質和互動的實時性。
視頻編解碼芯片設計原理----01 概論
本系列主要介紹視頻編解碼芯片的設計,以HEVC視頻編碼標準為基礎,簡要介紹編解碼芯片的整體硬件架構設計以及各核心模塊的算法優化與硬件流水線設計。本文為概論部分,將簡單介紹圖像視頻的基本信息和視頻編碼的基礎知識。
使用OpenCV校準魚眼鏡頭
當我們使用的魚眼鏡頭視角大于160°時,OpenCV中用于校準鏡頭“經典”方法的效果可能就不是和理想了。如果小伙伴也遇到了類似情況,那么這篇文章可能會對大家有一定的幫助。
一個神奇的開源項目:讓照片快速 3D 化!
近日,弗吉尼亞理工等機構開發出了一種語境感知分層深度修復技術,它利用基于學習的修復模型來迭代地合成新的顏色和深度信息,并借助標準圖形引擎將這些老照片渲染成 3D 照片。
最新發布!SMOKE 單目3D目標檢測,代碼開源!
SMOKE是一個one-stage的單目視覺障礙物檢測模型,它認為2D檢測對于單目3D檢測任務來說是冗余的,且會引入噪聲影響3D檢測性能,所以直接用關鍵點預測和3D框回歸的方式。最近發布的百度Apollo 7.0中,攝像頭障礙物感知也是基于這個模型改進的;它能實現實時推理,代碼開源,值得學習一下。
FFMpeg 源碼分析-命令行總結
前面四篇文章已經把 ffmpeg_parse_options() 的內部邏輯以及內部函數分析完畢,下面畫一張整體的流程圖做為總結。
https://juejin.cn/post/7052335797558575117
WebRTC社區頭部開源項目介紹
最近WebRTC相關的開源項目非常活躍,作者搜集了一部分,包括在github上star超過1k的開源項目,排名不分先后。
https://zhuanlan.zhihu.com/p/466992446
通過文本實現人臉通話視頻的超低比特率壓縮
我們是否可以將音視頻轉化為文本傳輸并將文本還原回視頻,在跟標準編碼器比較的情況下,使用更少的帶寬達到相同的 QoE 呢?答案是可以。本次演講中,Pulkit 介紹了一個通過文本實現人臉通話視頻的超低比特率壓縮的流程,給出了 demo 展示并分析了目前存在的缺陷。
WebRTC 如何發展至今?
疫情期間,WebRTC 發揮了至關重要的作用,讓所有人都保持聯系,許多人對它的工作原理和所做的技術決定感到驚訝和困惑。這次演講旨在為這些決定提供一些歷史背景,希望能減少關于這些決定的困惑。
出發,去東南亞市場搞AI
在科技圈提起人工智能,人們會更多地把目光瞄準中美,卻忽略增長勢頭最為迅猛的東南亞。這里有超過 6.6 億的人口,快速增長的經濟,以及不斷完善的基礎設施。隨著消費水平的提升和疫情的推動,當地的技術和人才無法跟上迅速增長的業務量,帶來了很多新需求。
騰訊發布國內首份可解釋 AI 報告:詳解打開算法黑箱的理念與實踐|附報告下載
隨著各界對 AI 倫理的日益重視,AI 系統的可解釋性也逐漸成為熱點,甚至上升到立法和監管的要求。許多人工智能領域的專家都把 2021 年視為“AI 可解釋元年”,在這一年,不僅政府出臺相應的監管要求,國內外許多科技公司,譬如谷歌、微軟、IBM、美團、微博、騰訊等,也都推出了相應的舉措。?
深度學習目標檢測在實際場景中的應用(附源代碼)
目標檢測是現在最熱門的研究課題,目前最流行的還是Yolo系列框架,最近我們計算機視覺研究院也分享了很對目標檢測干活及實踐,都是Yolo-Base框架,今天我們分享一個經過修改后的Yolov5,實時檢測的效果!
虛擬現實耳機中的“竊聽風云”
研究表明,黑客可以使用內置運動傳感器的流行虛擬現實(AR/VR)頭盔,記錄與語音相關的微妙面部動態,竊取通過語音命令交流的敏感信息,包括信用卡數據和密碼。
分類器可視化解釋StylEx:谷歌、MIT等找到了影響圖像分類的關鍵屬性
本文中,來自谷歌、 希伯來大學、 MIT 等機構的研究者提出了一種新的分類器可視化解釋方法 StylEx,該方法能以不同方式修改圖像屬性來更改其分類器輸出。
推薦 | Pair,醫學圖像標注神器
在AI新基建時代,智能化醫療成為一種潮流趨勢,其中醫學影像標注為智能化醫療研究提供了基礎金標準。但現有軟件無法滿足標注項目的復雜需求。因此,本文為大家推薦一款一站式醫學圖像標注軟件Pair,解決所有“不可以”。
Adobe提出自動生成高質量合成圖像新方法
近日,Adobe 聯合約翰霍普金斯大學的研究者提出了一種無需用戶輸入即可生成高質量合成圖像的新方法。該方法能夠進行端到端的訓練,以優化對前景和背景圖像上下文和顏色信息的利用,其中在優化過程中考慮了合成質量。
DMV 2021自動駕駛報告:Waymo平均接管里程驟跌,數據價值仍遭質疑
2月10日,加州交通管理局(DMV)發布了2021年全年自動駕駛數據。根據規定,DMV頒發的自動駕駛測試許可證持有公司每年1月1日都要提交年度報告,包括車隊數量、車輛細節、測試總里程、脫管總數及情況等。加州作為世界上最受矚目的自動駕駛路測地區,這份報告也被認為是全球自動駕駛企業的成績單。
為了自動駕駛,谷歌用NeRF在虛擬世界中重建了舊金山市
訓練自動駕駛系統需要高精地圖,海量的數據和虛擬環境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自動駕駛出租車隊,英偉達創建了用于大規模訓練的虛擬環境 NVIDIA DRIVE Sim 平臺。近日,來自 Google AI 和谷歌自家自動駕駛公司 Waymo 的研究人員實踐了一個新思路,他們嘗試用 280 萬張街景照片重建出整片舊金山市區的 3D 環境。
基于單目攝像頭的BEV實例預測(ICCV 2021)
駕駛需要與道路智體互動并預測他們未來的行為,以便安全導航。FIERY是一種單目攝像頭中BEV未來概率預測模型。其預測動態智體的未來實例分割和運動,轉換為非參數未來軌跡。結合傳統自動駕駛棧的感知、融合和預測組件,直接從RGB 單目相機輸入估計BEV預測。
低速自動駕駛技術:APA
自動泊車系統(APA)主要是利用遍布車輛自身和周邊環境里的傳感器,測量車輛自身與周邊物體之間的相對距離、速度和角度,然后通過車載計算平臺或云計算平臺計算出操作流程,并控制車輛的轉向和加減速,以實現自動泊入、泊出及部分行駛功能。
閱讀推薦
探秘冬奧開幕式背后的播控系統
2022年2月4日晚8點,一場美輪美奐的冬奧開幕式如約而至,當我們正在電視機前觀看這場視覺盛宴的時候,瀾景科技的工作人員們正在后臺辛苦地忙碌著,作為本次冬奧開幕式的播控系統,該公司旗下的Hirender全媒體總控系統為全世界觀眾呈現出了最完美的視覺效果。
Meta 2022博士獎學金計劃公布,華人學者占四成
近日,Meta(Facebook)博士研究獎學金計劃結果公布,多位來自海外高校的華人青年學者入選。該獎項旨在獎勵在 AI 系統硬件 / 軟件協同設計、區塊鏈和加密經濟學、人機交互、編程語言、AR/VR 等計算機科學和工程領域做前沿研究的博士生。
對話OTTVerse創始人Krishna Rao Vijayanagar:創業之初,挑戰與機遇并存
最近,OTTVerse的創始人Krishna接受了LiveVideoStack的采訪,在采訪中,他暢談了創立OTTVerse的原因,寫作視頻技術科普文章的初心、以及運營OTTVerse過程中所遇到的挑戰與機遇。最后,他還向我們介紹了印度視頻技術的發展情況。
活動推薦
火山引擎視頻云科技原力峰會即將開啟,一起乘云 · 瞰世界
2月25日,火山引擎視頻云科技原力峰會將在北京舉行。本次峰會聚焦視頻云行業進化及需求變化,火山引擎將首次系統分享行業視頻化趨勢以及核心場景的觀察與思考,并正式發布面向體驗的視頻云全新產品矩陣,結合熱門行業頂尖案例實踐方法論,與行業伙伴共探超視頻時代視頻云商業場景的未來增長方向。
點擊「閱讀原文」,立即預約火山引擎視頻云科技原力峰會直播。
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 233的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【公开课预告】:白板与开源
- 下一篇: Easy Tech:什么是MPEG-DA