音视频技术开发周刊 | 207
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉(zhuǎn)僅支持公眾號相關(guān)鏈接
OWT在企業(yè)遠程智能視頻服務(wù)場景中的應(yīng)用
本文來自峰暢科技聯(lián)合創(chuàng)始人&CTO 段先德在LiveVideoStack2021上海站的演講內(nèi)容,以峰暢科技采用OWT開源媒體服務(wù)器在金融行業(yè)的應(yīng)用為實際案例,詳細解析如何用平臺化方法破解場景碎片化、定制化的難題,達到圖形化編輯工作流的方式支持業(yè)務(wù)流程創(chuàng)新的目的。
美攝智能生產(chǎn)平臺,輕松搞定視頻制作——對話美攝科技研發(fā)總監(jiān)黃裔
如今,視頻已經(jīng)逐漸成為人與人之間的一種交流方式,大家越來越愛用視頻表達自己的想法,分享自己的心情,所以如何更輕松地制作出畫面精美、吸引眼球的視頻,成為視頻制作者們迫切想要解決的問題。美攝科技是一家智能視音頻整體解決方案服務(wù)商,專注于視音頻領(lǐng)域開發(fā)超過20年。LiveVideoStack近期采訪了美攝科技的研發(fā)總監(jiān)黃裔,和他一起討論了如何降低視頻制作難度、提升視頻制作質(zhì)量,以及應(yīng)對客戶需求變化等問題。
萬人連麥的幕后技術(shù)詳解
7月29日-7月30日,由青云科技舉辦的 CIC2021 云計算峰會在北京成功舉辦,拍樂云服務(wù)端專家沈偉鋒受邀出席峰會,并在音視頻技術(shù)論壇上以《大規(guī)模實時音視頻技術(shù)架構(gòu)的實踐和演進》為演講主題,分享了實時音視頻通訊的幾種常見架構(gòu)和網(wǎng)絡(luò)拓撲,構(gòu)建實時音視頻實際場景的復(fù)雜性和多樣性,以及拍樂云在超大規(guī)模實時音視頻系統(tǒng)的一些實踐。
8K VVC 編解碼演示 Demo
在德國 Fraunhofer HHI 旗下的 3IT 沉浸式成像技術(shù)創(chuàng)新中心進行的一次演示中,Spin Digital 與 Fraunhofer HHI 合作,展示了 8K 內(nèi)容可以使用 MPEG/ITU 的 VVC 標(biāo)準(zhǔn)進行高效編碼和解碼。VVC 是 HEVC 的下一代編解碼器,在類似的質(zhì)量下,最終應(yīng)實現(xiàn)比 HEVC 降低 50% 的比特率。VVC 能支持的不僅僅是 8K 內(nèi)容,它被設(shè)計成也可以對 360 度內(nèi)容進行編碼,并提供空間可擴展性(即增加層次以建立高分辨率幀)。
NETINT的商用硬件AV1視頻編碼器
本文來自thevideoinsiders,NETINT技術(shù)公司的聯(lián)合創(chuàng)始人兼首席運營官Alex Liu談到在數(shù)據(jù)中心使用ASIC進行視頻編碼的優(yōu)勢,并獨家預(yù)覽了他們支持AV1編碼和AI加速的第二代芯片。
ICME2021:基于機器視覺的RD模型
本文針對VVC幀內(nèi)編碼提出了一個面向視覺分析的RD模型,該模型包括碼率控制策略和失真度量模型。
音視頻、AI和5G等技術(shù)在東京奧運會中的應(yīng)用
OBS(奧林匹克廣播服務(wù)公司)一直不斷嘗試將新的數(shù)字科技應(yīng)用到奧運賽事中。今年的東京奧運會,它將展示大部分科技。OBS承諾為全球觀眾呈現(xiàn)一場擁有豐富數(shù)據(jù)的視覺盛宴,其中IP、云、5G和人工智能都打破了廣播制作的傳統(tǒng)框架,改變了內(nèi)容交付和觀眾體驗的基礎(chǔ),讓觀眾即使不親臨現(xiàn)場觀看比賽也能獲得最逼真的體驗。
漫聊快直播
隨著直播行業(yè)的快速發(fā)展,直播帶貨秒殺和在線教育答題等應(yīng)用場景對直播延時的需求越來越苛刻,為了應(yīng)對這種需求,騰訊云推出了快直播。
直播時各種背景是怎么實現(xiàn)的?聊一聊虛擬背景背后的技術(shù)
2020 年一場突如其來的疫情闖進了我們的生活,上網(wǎng)課、在家辦公逐漸成為了一種常態(tài),為了更好地保護用戶隱私、提升用戶體驗,各大在線辦公軟件相繼推出了虛擬背景功能,營造學(xué)習(xí)、辦公氛圍的同時,又能避免家中環(huán)境不夠正式的窘境。那么今天我們就來說道說道虛擬背景的相關(guān)技術(shù)。
網(wǎng)易云信變聲技術(shù)之變調(diào)不變速算法
本文先介紹了常用的變聲技術(shù),讓讀者對變聲技術(shù)的原理和效果有一定的了解,進而引入了網(wǎng)易云信在變聲技術(shù)上的創(chuàng)新與實踐,如機器人聲、男聲變女聲和保護隱私方面的音效;最后著重介紹了網(wǎng)易云信如何結(jié)合變調(diào)不變速算法的實踐成果。
論文推介:Glow-WaveGAN—學(xué)習(xí)一種用于高質(zhì)量語音合成的語音表征
論文提出了使用 VAE (Variational Auto-Encoder)結(jié)合 GAN(Generative Adversarial Network) 直接從語音中學(xué)習(xí)中間表示,然后利用基于Flow 的聲學(xué)模型對潛在中間表示的分布進行建模。
OSA 3D圖像獲取和顯示 技術(shù)分享兩則
本文展示來自 OSA Publishing 的 “3D 圖像? ? 獲取? ? 和? ? 顯示? ? :技術(shù)、感知和應(yīng)用”的兩則技術(shù)分享,主題分別是“針對基于學(xué)習(xí)的圖像修復(fù)任務(wù)進行孔徑設(shè)計”和“探索減少 ToF 深度相機中運動誤差的機器學(xué)習(xí)方案”。
CVPR 2021 | 這3D人臉追蹤的穩(wěn)定性、貼合度、真實程度,簡直了
本文作者來自 Facebook 和美國羅徹斯特大學(xué),作者提出了一個基于深度學(xué)習(xí)的光照模型 (Lighting Model),改進當(dāng)前 3D 人臉追蹤對光照條件不夠魯棒的問題,從而捕捉更加細微的面部表情,提高 3D 人臉捕捉的穩(wěn)定性、貼合度和真實感。
如何入門多視角3D目標(biāo)識別?超詳細最新綜述來襲!
本文將重點對近年來基于深度學(xué)習(xí)的多視角3D目標(biāo)識別方法的主要進展和部分具有代表性的研究成果進行介紹,通過詳細的對比分析,以及匯總現(xiàn)有的絕大多數(shù)方法的實驗性能,總結(jié)了多視角3D目標(biāo)識別研究中的難點和熱點,以及可能的發(fā)展趨勢。
Facebook全息超短焦AR/VR光學(xué)突破,或可實現(xiàn)量產(chǎn)
去年6月,Facebook曾重磅公布一款基于全息光學(xué)的超短焦VR眼鏡方案,其特點是體積輕便、外觀小巧,而且支持激光光源,具備視網(wǎng)膜級分辨率效果。據(jù)悉,利用該方案開發(fā)的VR眼鏡原型看起來如墨鏡大小,讓我們仿佛看到了未來理想的VR形態(tài)。近期,Facebook Reality Labs再次公布關(guān)于該技術(shù)的更多細節(jié),并重點解釋該光學(xué)方案所采用的LCPH顯示技術(shù)(全名為液晶偏振全息),以及相關(guān)的量產(chǎn)方案。
【測評】有了這款腰部VR觸覺反饋設(shè)備,皮膚都可以“聽音樂”了?
你可曾體驗過在皮膚上直接感受來自四面八方的音樂節(jié)拍,或游戲效果帶來的震動反饋?德國技術(shù)公司Feelbelt的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Benjamin Heath表示:“我們開發(fā)了獨特的脈沖發(fā)生器系統(tǒng),創(chuàng)造你從未體驗過的感覺。這為游戲增加了一個提高性能和體驗的全新維度。”MIXED的記者對其產(chǎn)品進行了簡單測試。
F-LOAM:基于激光雷達的快速里程計和建圖
同時定位與建圖(SLAM)在機器人領(lǐng)域有著廣泛的應(yīng)用,如自動駕駛和無人駕駛等領(lǐng)域。一個好的SLAM系統(tǒng)其計算效率和定位精度是至關(guān)重要。現(xiàn)有的基于激光雷達的SLAM研究通常將問題描述為兩個模塊:點云幀到點云幀匹配和點云幀到地圖匹配。這兩個模塊都是通過迭代計算來解決的,計算量很大。
插圖源自Pexels
活動推薦
詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 207的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QUIC协议的演进之路
- 下一篇: 【免费活动】字节跳动背后的音视频技术揭秘