音视频技术开发周刊 78期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第78期內(nèi)容,祝您閱讀愉快。
架構(gòu)
HDR視頻生態(tài)系統(tǒng)縱覽
Flatpanels作者Yoeri Geutskens對HDR視頻生態(tài)系統(tǒng)進(jìn)行了調(diào)查并以圖表的形式展示。HDR視頻圖表根據(jù)公司業(yè)務(wù)類型進(jìn)行分類并通過所使用HDR的格式進(jìn)行了更詳細(xì)的劃分。LiveVideoStack對描述文章進(jìn)行了翻譯。
跨國實(shí)時網(wǎng)絡(luò)調(diào)度系統(tǒng)設(shè)計
跨國應(yīng)用場景下網(wǎng)絡(luò)的復(fù)雜性、不穩(wěn)定和高丟包率對網(wǎng)絡(luò)的實(shí)時性和流暢性提出了更高的挑戰(zhàn)。本文是即構(gòu)科技技術(shù)副總裁冼牛在LiveVideoStackCon 2018大會上的分享,深入探討了實(shí)時網(wǎng)絡(luò)調(diào)度系統(tǒng)的部署、架構(gòu)設(shè)計、挑戰(zhàn)和應(yīng)對策略。由LiveVdeoStack整理而成。
Netflix數(shù)據(jù)庫架構(gòu)變革:縮放時間序列的數(shù)據(jù)存儲
Netflix分析了其數(shù)據(jù)集的訪問模式,對查看數(shù)據(jù)存儲架構(gòu)進(jìn)行了重新設(shè)計,并采用群集分片的數(shù)據(jù)分類方式,實(shí)時和壓縮數(shù)據(jù)并行的讀取模式。以尋求滿足更多的獨(dú)特需求與成本,效率的改進(jìn)。本文來自Netflix技術(shù)博客,LiveVideoStack對文章進(jìn)行了翻譯。
WebSocket 和 DWR 做 Web 端即時通信
WebSocket是HTML5出的東西(協(xié)議),也就是說HTTP協(xié)議沒有變化,或者說沒關(guān)系,但HTTP是不支持持久連接的(長連接,循環(huán)連接的不算)。
GPU和FPGA優(yōu)缺點(diǎn)的對比
從峰值性能來說,GPU(10Tflops)遠(yuǎn)遠(yuǎn)高于FPGA(<1TFlops)。GPU上面成千上萬個core同時跑在GHz的頻率上還是非常壯觀的,最新的GPU峰值性能可達(dá)10TFlops以上。
音頻/視頻技術(shù)
短視頻秒播優(yōu)化實(shí)踐(一)
在短視頻的體驗(yàn)中,起播速度無疑是最影響體驗(yàn)的指標(biāo)之一,因?yàn)槎桃曨l很短,十幾秒到幾分鐘不等,如果一個十幾秒的視頻,加載時間都要3秒,肯定是一個很壞的體驗(yàn);所以在產(chǎn)品定義之初,起播速度就設(shè)定了控制在1秒左右,大部分在1秒內(nèi),也就是業(yè)內(nèi)說的“秒播”,這需要對播放流程進(jìn)行優(yōu)化。
短視頻秒播優(yōu)化實(shí)踐(二)
之前我們介紹了在線短視頻秒播優(yōu)化的方方面面,從服務(wù)器,cdn部署接入,數(shù)據(jù)連接/獲取,客戶端緩存,出幀策略,到視頻文件I幀位置等。本文從視頻文件格式的另外一個角度介紹,MP4文件的box排列順序是如何影響,在線短視頻的播放以及秒播優(yōu)化的。
播放器技術(shù)分享(3):音畫同步
第一期文章要推出的內(nèi)容主要涉及到播放器比較核心的幾個技術(shù)點(diǎn),本篇是系列文章的第三篇,主要聊一聊播放器的音畫同步。
pydub庫---語音增強(qiáng)
最近使用Python調(diào)用百度的REST API實(shí)現(xiàn)語音識別,但是百度要求音頻文件的壓縮方式只能是pcm(不壓縮)、wav、opus、speex、amr,這里面也就wav還常見一點(diǎn),但是一般設(shè)備錄音得到的文件都是mp3,這就要把mp3轉(zhuǎn)換為wav。
基于Web Audio API實(shí)現(xiàn)音頻可視化效果
網(wǎng)頁音頻接口最有趣的特性之一它就是可以獲取頻率、波形和其它來自聲源的數(shù)據(jù),這些數(shù)據(jù)可以被用作音頻可視化。這篇文章將解釋如何做到可視化,并提供了一些基礎(chǔ)使用案例。
遠(yuǎn)場語音技術(shù)簡介
遠(yuǎn)場語音是一種人與機(jī)器間的交互方式,相對與近場語音來說,區(qū)別是它的作用距離通常會在1米到10米之間,主要的技術(shù)難點(diǎn)在于對于多徑反射、混響效應(yīng)及背景噪音干擾的處理。
編解碼
基于QoE的實(shí)時視頻編碼優(yōu)化:低功耗,低延時,高質(zhì)量
在實(shí)時通信領(lǐng)域,只有當(dāng)Codec的優(yōu)化適應(yīng)了當(dāng)前的網(wǎng)絡(luò)狀況,設(shè)備平臺及應(yīng)用場景,用戶才能得到最佳的體驗(yàn)。在LiveVideoStackCon2018大會中聲網(wǎng)Agora視頻工程師吳曉然詳細(xì)介紹了如何設(shè)計與實(shí)現(xiàn)基于QoE的實(shí)時視頻編碼優(yōu)化。本文由LiveVideoStack整理而成。
HEVC CABAC解碼
解碼slice segment data過程中,每碰到1個syntax element需要解析時,需參考Table 9-48等表格組合解析,整理整個流程解碼如下。
Android MediaCodec圖片合成視頻
利用MediaCodec可以錄制視頻,可是可以將圖片合成視頻嗎?之前使用FFmpeg來實(shí)現(xiàn)。但是,FFmpeg卻是c++寫的,而且非常占用內(nèi)存,雖然它是非常棒的音視頻處理庫,但是殺雞焉用牛刀,所以今天就講一下:如何利用Android API中的MediaCodec來實(shí)現(xiàn)圖片合成視頻。
FAAD解碼AAC音頻
在使用FAAD解碼前我們首先導(dǎo)入faad庫,相關(guān)庫及源碼可從https://www.audiocoding.com/faad2.html下載。使用FAAD解碼AAC數(shù)據(jù)為PCM時,主要分為4個步驟:1、創(chuàng)建解碼器;2、配置解碼器;3、解碼AAC數(shù)據(jù)為PCM數(shù)據(jù);4、解碼完畢,關(guān)閉解碼器
AI智能
快慢結(jié)合效果好:FAIR何愷明等人提出視頻識別SlowFast網(wǎng)絡(luò)
在本文中,FAIR與何愷明等人介紹了用于視頻識別的 SlowFast 網(wǎng)絡(luò),提出要分開處理空間結(jié)構(gòu)和時間事件。該模型在視頻動作分類及檢測方面性能強(qiáng)大:在沒有使用任何預(yù)訓(xùn)練的情況下,在 Kinetics 數(shù)據(jù)集上實(shí)現(xiàn)了當(dāng)前最佳水平;在 AVA 動作檢測數(shù)據(jù)集上也實(shí)現(xiàn)了 28.3 mAP 的當(dāng)前最佳水準(zhǔn)。
對象檢測(object detection)算法圖解
本文簡要介紹圖像檢測中常用的深度學(xué)習(xí)方法——RCNN家族系列算法,以圖像講解形式,便于理解。
視頻語義分割介紹
隨著深度學(xué)習(xí)的發(fā)展,圖像語義分割任務(wù)取得了很大的突破,然而視頻語義分割仍然是一個十分具有挑戰(zhàn)性的任務(wù),本文將會介紹視頻語義分割最近幾年頂會上的一些工作。
語音合成的速度如何提升400%?或許你可以了解下深度前饋序列記憶網(wǎng)絡(luò)(附帶英文論文)
循環(huán)神經(jīng)網(wǎng)絡(luò)雖然具有很強(qiáng)的建模能力,但是其訓(xùn)練通常采用 BPTT 算法,存在訓(xùn)練速度緩慢和梯度消失問題。我們之前的工作,提出了一種新穎的非遞歸的網(wǎng)絡(luò)結(jié)構(gòu),稱之為前饋序列記憶神經(jīng)網(wǎng)絡(luò)(feedforward sequential memory networks, FSMN),可以有效的對信號中的長時相關(guān)性進(jìn)行建模。相比于循環(huán)神經(jīng)網(wǎng)絡(luò),FSMN 訓(xùn)練更加高效,而且可以獲得更好的性能。?
圖像
K-Means聚類進(jìn)行圖像處理實(shí)戰(zhàn)
在K-Means聚類算法原理中,我們對K-Means的原理做了總結(jié),本文我們就來討論用scikit-learn來學(xué)習(xí)K-Means聚類。重點(diǎn)講述如何選擇合適的k值。
圖像灰度拉伸
圖像灰度拉伸是改變圖像對比度的一種方法,通過灰度映射,將原圖中某一區(qū)段中的灰度值映射到另一灰度值,從而拉伸或壓縮整個圖像的灰度分布范圍。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 78期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 编码压缩新思路:面向QoE的感知视频编码
- 下一篇: 收官蓉城,展望2019多媒体技术新方向(