音视频技术开发周刊 | 238
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
整個世界都是你的綠幕:這個視頻摳圖換背景的方法著實真假難辨
綠幕是影視劇中摳圖、換背景的利器,但如果不在綠幕前拍攝,我們還能完美地轉換背景嗎?華盛頓大學的研究者最近就上傳了這樣一份論文,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。
使用邊緣計算來增強流傳輸
本次演講將深入探討跨多個供應商使用邊緣計算平臺的細節,以通過即時和全球可擴展的方法為現有媒體流實施新功能。
我們如何建立一套無參考視頻質量評價體系?
在實時互動無處不在的今天,視頻質量是反映終端用戶體驗的重要指標。單純依賴人工實施大規模的實時評估是不現實的,因此視頻質量自動化評估體系的搭建與推廣是大勢所趨。
H264 視頻文件如何縮放分辨率?
前幾天在知識星球里面有位朋友請教問題:如何將 H264 視頻縮放分辨率?將 800x600 的 H264 文件縮放成 400x300 的,大概的流程是先解碼,得到 AVFrame 后對其做縮放操作,然后再編碼,得到 AVPacket 后寫入文件即可。
基于頻域卷積傳遞函數的盲源分離研究獲得進展
音頻信號的盲源分離最初是為解決“雞尾酒會問題”發展起來,它在人機語音交互、自動會議紀要、人聲和配樂分離等方面有潛在的重要應用價值。
音視頻開發之旅(二)AudioRecord錄制PCM音頻
AndroidSDK提供了兩套音頻錄制的API,AudioRecord和MediaRecorder。其中MediaRecorder是更加上層的API,他可以直接對手機麥克風錄入的音頻數據進行壓縮編碼(比如 mp3),并存儲為文件。
移動端高性能、低延遲音頻庫
移動端上的很多音頻場景都會有低延遲的要求,比如k歌應用,會有耳返需求。耳返主要實現監聽的功能,在低延時的情況下可以給主播一個比較真實音頻的反饋,技術實現上來說就是要實時地把錄制進的音頻數據立刻播放出去,當然這個過程要低延遲。
視頻編解碼芯片設計原理----06 分像素運動估計
本系列主要介紹視頻編解碼芯片的設計,以HEVC視頻編碼標準為基礎,簡要介紹編解碼芯片的整體硬件架構設計以及各核心模塊的算法優化與硬件流水線設計。
iOS AVDemo(5):音頻解碼,免費獲得源碼丨音視頻工程示例
在音視頻工程示例這個欄目,我們將通過拆解采集 → 編碼 → 封裝 → 解封裝 → 解碼 → 渲染流程并實現 Demo 來向大家介紹如何在 iOS/Android 平臺上手音視頻開發。這里是第五篇:iOS 音頻解碼 Demo。
大廠白嫖拖垮開源!開源屆碼農:用戶脾氣大需求多還不給錢
現在,開源軟件界或即將到達必須變革的臨界點:被大廠白嫖的既有模式不可持續,開源碼農必須得到相應尊重和報償。
龍芯FFmpeg進入5.0時代,全力支持LoongArch生態
2022年1月,FFmpeg社區正式對外發布FFmpeg 5.0版本,新版本集成了對LoongArch的生態支持和優化。本文就龍芯中科FFmpeg 5.0版本工作及規劃進行系統介紹。
FFmpeg 中 AVPacket 與 AVFrame 中數據的傳遞與釋放
這里我理解在AVFrame與AVPacket傳遞流轉的過程中并不會去每次創建和拷貝音視頻數據,音視頻數據被存儲在AVBuffer中,而AVFrame與AVPacket在流轉時進行淺拷貝,只有調用其對應unref時,會減少AVBuffer中的引用計數,最終釋放內部存儲音視頻數據的buffer。
一文簡述FFmpeg
FFmpeg是一款開源軟件,用于生成處理多媒體數據的各類庫和程序。FFmpeg可以轉碼、處理視頻和圖片(調整視頻、圖片大小,去噪等)、打包、傳輸及播放視頻。
FFmpeg 源碼分析-轉碼5
本系列 以 FFmpeg4.2 源碼為準,FFmpeg 源碼分析系列以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv,分析其內部邏輯。本文主要分析 process_input_packet() 的內部邏輯。
https://juejin.cn/post/7052338639715434526
WebRTC系列分享 | WebRTC視頻QoS全局技術棧
WebRTC真是一套讓人既愛又恨的開源代碼。一方面,WebRTC里面有一套很完善很系統的QoS策略。但另一方面,WebRTC代碼龐大且版本更新迭代特別快,代碼的閱讀和學習難度很大。為了方便大家學習了解,我們在這里對WebRTC的QoS思想及算法實現做了一些梳理總結,以系列分享的方式呈現給大家,供大家參考。
WebRTC 教程(1)
本文是 Engineering Semester 的 WebRTC 教程第一部分,主要介紹了 WebRTC 是什么,其和 Websocket 的異同,WebRTC 信令,架構和 API 入門。
只用一張訓練圖像進行圖像的恢復
計算機視覺的深度學習應用往往需要大量的圖像數據集,現在我告訴你,只有一張圖像也可以訓練,是不是非常神奇?
AI靠語意理解把照片變抽象畫,無需相應數據集,只畫4筆也保留神韻,有畢加索內味兒了
只用幾筆,如何勾勒一只動物的簡筆畫,很多人從小都沒整明白的問題——,如今AI也能實現了。其實AI畫抽象簡筆畫比人更難。既要準確地理解語義,又要在幾何上相似,才能讓抽象畫看起來有“像”的感覺。
CVPR 2022 | 驚呆了!只用一張圖+相機走位,AI就能腦補周圍環境!
讓AI根據一個畫面,就推測出后面的內容,這個感覺是不是和讓AI寫文章有點類似?實際上,研究人員這次用到的正是NLP領域常用的Transformer。
AR導航背后的秘密,你知道多少?
自打用過AR駕車導航/AR步行導航,很多小伙伴直呼黑科技真香!今天小德帶大伙兒一塊拆解AR導航,看看這款黑科技背后的秘密~
構建呈現二手車VR體驗(上篇)
VR技術日趨成熟,元宇宙概念的大熱又重新將VR相關話題搬上臺面來討論,這種新的看空間類商品方式相比傳統方式更具沉浸感和互動性。58集團旗下的臨感品牌作為全國領先的3D空間數字化平臺自2017年起開始布局VR相關領域,今年在二手車領域中的探索得以落地。
虛擬現實技術在帕金森病凍結步態康復中的應用進展
在平衡和協調康復方面,Ding等結合強制性運動療法原理對Nintendo Wii Fit游戲系統進行改造,構建一款基于虛擬現實的下肢平衡康復訓練系統:患者雙腳站在兩塊平衡板上,通過雙腳用力,動態控制壓力中心,操控虛擬人的運動。
淺談單圖像三維重建算法
本文簡單帶大家看一下單圖像三維重建相關的論文。寫這篇文章算是對之前的一點總結。在開始討論之前先說一下為什么要做單圖像三維重建,原因其實很直觀。總結起來就是兩個字,“需要”。
從4K到16K僅用一張圖像訓練,首個單樣本超高分辨率圖像合成框架來了
在這篇論文中,研究者提出了 OUR-GAN,這是首個單樣本(one-shot)超高分辨率(UHR)圖像合成框架,能夠從單個訓練圖像生成具有 4K 甚至更高分辨率的非重復圖像。
自動駕駛汽車如何解決復雜交互問題?清華聯合MIT提出M2I方案
來自清華、MIT的研究團隊提出了一種基于自監督學習的方法,讓自動駕駛模型從已有的軌跡預測數據集中學會正確判斷沖突中的禮讓關系。
自動駕駛感知中的深度學習
自動駕駛是一種自主決策系統,它處理來自不同車載來源的觀測流,如照相機、雷達、激光雷達、超聲波傳感器、GPS裝置和/或慣性傳感器。這些觀察結果被汽車的計算機用來做駕駛決定。
萬字解讀自動駕駛系統中視覺感知模塊的安全測試
由于深度學習系統的行為缺乏可解釋性,測試基于深度學習的自動駕駛系統的安全性極具挑戰性。針對基于視覺感知的自動駕駛系統,設計開發了一種場景驅動的、可解釋強的、運行高效的安全性測試系統。
一文解析自動駕駛汽車決策控制系統技術
自動駕駛系統是一個集環境感知、決策控制和動作執行等功能于一體的綜合系統,是充分考慮車輛與交通環境協調規劃的系統,也是未來智能交通系統的重要組成部分。本文著重分析自動駕駛決策控制的相關技術,探索未來的發展方向。
閱讀推薦
剛剛,釘釘宣布買下拍樂云
3月18日,資本市場傳來一則重磅消息:釘釘已完成對音視頻平臺服務公司拍樂云的全資收購,拍樂云核心團隊整體加入釘釘,創始人趙加雨還將擔任釘釘音視頻事業部一號位。
扎克伯格眼中的Meta,和他的元宇宙野望丨深度
馬克·扎克伯格作為Meta的首席執行官,他第一次在公眾面前談到元宇宙的時候就說過:“(元宇宙)這可能看起來像一個笑話或者是騙局,但不得不說,這一定是未來這個世界的形態。”可以說馬克·扎克伯格就是元宇宙的開發者先驅之一。
對話美攝科技侯康:提升技術,拓展場景 美攝智能汽車視頻處理方案已就位
來自美攝科技的算法工程師侯康,他向我們介紹了過去的一年美攝科技在音視頻領域關注的重點、在美攝汽車智能剪輯方案開發過程中所做的工作、研發過程中遇到的“坑”以及最近推出的桌面端深度視頻編輯解決方案“美映PC版”等。
流媒體“外卷”
音視頻行業的機會在哪里?也許本文能提供一些視角和思路。本文由LiveVideoStack與騰訊云副總裁李郁韜的對話整理而成,在不影響原意的前提下部分內容有所刪改。
眾說元宇宙及其實現
本篇文章不會去過多地討論現在圍繞元宇宙的諸多活動(科技巨頭想要通過它們來占有我們更多的數據、金錢以及精神世界)。但我們也必須承認:下一代互聯網框架之戰已經開始了。
活動推薦
【公開課預告】:愛奇藝DRM探索之路
隨著當下版權意識的提升,行業內對版權保護的重視程度越來越高。自從2016年加入ChinaDRM后,愛奇藝一直積極推動DRM標準的實施,并且不斷探索版權保護技術的創新開發。3月29日晚七點半,我們邀請到了愛奇藝資深研發工程師 劉姍,將詳細介紹DRM技術發展現狀,DRM主要技術組成,以及愛奇藝的版權保護相關技術應用現狀。
活動時間:2022年3月29日? 19:30
活動形式:線上直播
報名地址:點擊「閱讀原文」立即報名。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 238的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【今晚七点半】:多媒体开源PI
- 下一篇: 【今晚七点半】:爱奇艺DRM探索之路