音视频技术开发周刊 | 234
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
視頻圖像色彩增強的主要方法與落地實踐
色彩增強作為視頻后處理中畫質增強技術的一部分,配合視頻降噪,暗光增強,對比度調整,邊緣增強等技術,可以對視頻畫質起到較大的提升作用。
26 fps 的視頻超分辨率模型 DAP!在線輸出720P視頻
不同于現階段VSR的兩大熱點研究方向:真實世界/盲VSR、VSR與傳輸,本文作者在實時在線領域超分方向實現突破,這與IPRRN一文的出發點類似。本文DAP的效果堪比EDVR,但是時間縮短了三倍,180P視頻在線可達26FPS!
Seek 策略以及在有 B 幀情況下的處理
最近在做 Seek 相關功能時遇到的問題排查,順便也學到了一些新的東西,和大家分享下。
音視頻開發入門:音頻基礎
什么是聲音?介質振動在聽覺系統中產生的反應。是一種波。因為是一種波,所以我們可以用頻率、振幅等描述。有兩個基本的物理屬性:頻率與振幅。
https://blog.jianchihu.net/av-develop-audio-basis.html
Apple又獲空間音頻新專利,揭秘AirPods Max設計的空間音頻渲染處理器背后的技術特性
美國專利商標局公布了Apple的一項專利申請,該專利申請涉及用于AirPods Max的空間音頻渲染處理器,該處理器可校準音頻波束成形陣列處理算法,以響應可穿戴音頻設備物理形狀的變化。
iOS AVDemo(1):音頻采集,免費獲取全部源碼丨音視頻工程示例
這個 Demo 里包含以下內容:1)實現一個音頻采集模塊;2)實現音頻采集邏輯并將采集的音頻存儲為 PCM 數據;3)詳盡的代碼注釋,幫你理解代碼邏輯和原理。
視頻編解碼芯片設計原理--02 視頻編碼技術框架與標準
本系列主要介紹視頻編解碼芯片的設計,以HEVC視頻編碼標準為基礎,簡要介紹編解碼芯片的整體硬件架構設計以及各核心模塊的算法優化與硬件流水線設計。本文將介紹視頻編碼技術的混合編碼框架和國內外主流編碼標準的發展歷程與特點。
小型深度學習框架 | TinyGrad,不到1K行代碼(附代碼下載)
最近,天才黑客 George Hotz 開源了一個小型深度學習框架 tinygrad,兼具 PyTorch 和 micrograd 的功能。tinygrad 的代碼數量不到 1000 行,目前該項目獲得了 GitHub 1400 星。
目標檢測算法終結篇-YOLOv7正式開源
請注意,這里的7,不是下一代YOLO,而是一個幸運數字,姑且可以看作是一個代號。它的目的是讓YOLO全面開花,不僅僅只是做目標檢測。也不是簡單的加一個semantic head做分割,而是做一個體系的目標檢測積木模塊,即插即用,使之能夠更簡單的做復雜的上層任務,比如多個分類head,實例分割,甚至是加上姿態檢測等等。
https://zhuanlan.zhihu.com/p/464007111
FFmpeg 音視頻倍速控制
本文除了會講到通過命令行處理倍速,還會講到通過FFmpeg api的方式去處理音頻倍速和視頻倍速,進而合并成支持倍速的音視頻發布成rtmp或者存成flv文件。
FFmpeg 源碼分析-轉碼1
本系列主要分析 transcode() 轉碼的內部邏輯。本文主要分析 transcode_init() 的內部邏輯。
https://juejin.cn/post/7052334621618831390
喧喧音視頻遷移到 SRS 的總結
喧喧是一款具備音視頻會議功能的私有部署的聊天協同辦公軟件。近期,我們集成了SRS作為喧喧中可選的音視頻后端,讓部署使用更加方便。
WHIPping:基于 WebRTC 的實時交互式傳輸
本次會議主要由 Ryan 介紹了 WebRTC 對于當前的工業界的意義、應用方向以及對傳統廣播所帶來的影響,并對 WebRTC 的未來進行了一些展望。
實現計算機視覺——人臉檢測
概述:計算視覺是人工智能的一部分,旨在設計能夠像人類視覺一樣進行觀察的智能算法。在本文中,我們將介紹下面幾個主要范圍:人臉檢測、物體檢測、面部識別、對象跟蹤。
Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊
為了讓廣大視頻通話用戶體驗更佳,也讓更多AR、VR用戶青睞元宇宙,Meta的AI研發團隊最近開發了能更好處理虛擬背景的AI模型。
如何區分你所看到的視覺特效是AR、全息投影,還是影視后期特效?
如何分辨電視畫面是AR技術實現的,還是全息投影,又或者是影視后期特效?本文我們就來看看AR、全息投影與影視后期特效的區別,相信看完這篇科普,你將學會如何分辨電視節目中的虛擬特效是通過什么技術實現的。
扎克伯格有望打造更了解用戶的語音助手,用以分析聲音、眼球運動和肢體語言
Meta的主要目標之一是開發先進的語音助手AI技術——類似Alexa或Siri,但更智能——該公司計劃在其AR/VR產品中使用,比如它的Quest頭顯(以前是Oculus)、Portal智能顯示屏和Ray-Ban智能眼鏡。
AAAI 2022 Oral | 無需人工標注,清華、快手提出基于參考圖像的單張生成圖像質量評價方法
這是一篇來自清華大學黃高團隊和快手 Y-tech 團隊合作的論文,該工作探究了如何在基于參考圖像的生成任務中實現對于單張生成圖像質量的評價。文中設計的 RISA 模型無需人工標注的訓練數據,其評價結果能夠與人的主觀感受具有高度一致性。
OCR身份證識別簡單算法流程
做OCR身份證識別的調研,正好整理一下從基礎的圖像處理角度的算法流程。
常見的圖像處理技術
本期文章中,讓我們一起來學習以下內容。通過PIL和OpenCV來使用一些常見的圖像處理技術,例如將RGB圖像轉換為灰度圖像、旋轉圖像、對圖像進行消噪、檢測圖像中的邊緣以及裁剪圖像中的感興趣區域。
如何在自動駕駛的視覺感知中檢測極端情況?
極端情況(corner cases)是自動駕駛中很重要的一個問題,本文討論視覺感知(不包括雷達和激光雷達)如何檢測這些corner cases,即出現的未期望或者未知情況。
自動駕駛多模態傳感器融合的綜述
本文對現有的基于多模態自動駕駛感知任務方法進行了文獻綜述。分析超過50篇論文,包括攝像頭和激光雷達,試圖解決目標檢測和語義分割任務。
自動駕駛的安全-緊要場景生成方法綜述
本篇綜述主要關注安全-緊要場景生成算法。首先對現有算法進行全面分類,即數據驅動生成、對抗生成和基于知識的生成。然后,文章討論場景生成的有用工具,包括仿真平臺和軟件包。最后,討論擴展到當前工作的五大挑戰——準確性、效率、多樣性、可遷移性、可控性,以及這些挑戰帶來的研究機遇。
閱讀推薦
《2021 中國開源開發者報告》發布
放眼國內,今年中國的開源生態葳蕤蓊郁,中國的開源在不同層面勢起。為了更好地從開發者與行業角度展現當前國內開源的發展趨勢,OSCHINA 發布此《2021 中國開源開發者年度報告》。
Easy Tech:什么是MPEG-DASH協議
MPEG-DASH是最流行的視頻流協議之一,它廣泛用于點播和直播,將媒體傳輸給各種終端設備,包括手機、平板、智能電視、游戲機等。MPEG-DASH是一種基于HTTP的流媒體傳輸協議,負責將視頻從HTTP服務器傳輸給終端用戶。
大話WebRTC
整理歸納寫過的WebRTC系列研究文章(未給出鏈接的文章等合適時候再公開)。本系列文章專注WebRTC底層技術研究。
https://blog.jianchihu.net/big-talk-webrtc.html
活動推薦
LiveVideoStack開年福利周來啦!
玩法介紹:
①公眾號精選留言:在2月25日公眾號文章評論區留下您以往參與LiveVideoStack活動的感悟或者建議,我們將評選三位“最真情實感”用戶并送上禮物;
②朋友圈贊贊贊:將2月28日LiveVideoStack公眾號內容轉發到自己的朋友圈,截圖反饋至公眾號后臺,3月1日統計出點贊數最多的五位為中獎用戶;
③微博話題轉發:關注@LiveVideoStack音視頻技術社區并帶話題#共創音視頻無限可能#,轉發LiveVideoStack2月28日微博送上祝福,我們將在3月2日抽取三位中獎用戶;
④社群踩樓:2月28日,將在【LVS線上交流分享群】內發起踩樓活動,踩中指定樓層為中獎用戶,獲得禮品一份。
獎項設置:
①中獎用戶將會獲得精美禮品一份及LiveVideoStackCon 2022上海站大會八折購票機會一次;
②凡參與本次福利周活動并在此期間購票的用戶,均可獲得LiveVideoStack福袋一份。
點擊「閱讀原文」,查看活動詳情。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 234的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术下一个风口在哪里——LiveV
- 下一篇: 【日程发布】LiveVideoStack