當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 78期

發(fā)布時間：2024/4/11 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 78期小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品，專注在音視頻技術(shù)領(lǐng)域，縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿，每周一期。點(diǎn)擊『閱讀原文』，瀏覽第78期內(nèi)容，祝您閱讀愉快。

架構(gòu)

HDR視頻生態(tài)系統(tǒng)縱覽

Flatpanels作者Yoeri Geutskens對HDR視頻生態(tài)系統(tǒng)進(jìn)行了調(diào)查并以圖表的形式展示。HDR視頻圖表根據(jù)公司業(yè)務(wù)類型進(jìn)行分類并通過所使用HDR的格式進(jìn)行了更詳細(xì)的劃分。LiveVideoStack對描述文章進(jìn)行了翻譯。

跨國實(shí)時網(wǎng)絡(luò)調(diào)度系統(tǒng)設(shè)計

跨國應(yīng)用場景下網(wǎng)絡(luò)的復(fù)雜性、不穩(wěn)定和高丟包率對網(wǎng)絡(luò)的實(shí)時性和流暢性提出了更高的挑戰(zhàn)。本文是即構(gòu)科技技術(shù)副總裁冼牛在LiveVideoStackCon 2018大會上的分享，深入探討了實(shí)時網(wǎng)絡(luò)調(diào)度系統(tǒng)的部署、架構(gòu)設(shè)計、挑戰(zhàn)和應(yīng)對策略。由LiveVdeoStack整理而成。

Netflix數(shù)據(jù)庫架構(gòu)變革：縮放時間序列的數(shù)據(jù)存儲

Netflix分析了其數(shù)據(jù)集的訪問模式，對查看數(shù)據(jù)存儲架構(gòu)進(jìn)行了重新設(shè)計，并采用群集分片的數(shù)據(jù)分類方式，實(shí)時和壓縮數(shù)據(jù)并行的讀取模式。以尋求滿足更多的獨(dú)特需求與成本，效率的改進(jìn)。本文來自Netflix技術(shù)博客，LiveVideoStack對文章進(jìn)行了翻譯。

WebSocket 和 DWR 做 Web 端即時通信

WebSocket是HTML5出的東西（協(xié)議），也就是說HTTP協(xié)議沒有變化，或者說沒關(guān)系，但HTTP是不支持持久連接的（長連接，循環(huán)連接的不算）。

GPU和FPGA優(yōu)缺點(diǎn)的對比

從峰值性能來說，GPU（10Tflops)遠(yuǎn)遠(yuǎn)高于FPGA(<1TFlops)。GPU上面成千上萬個core同時跑在GHz的頻率上還是非常壯觀的，最新的GPU峰值性能可達(dá)10TFlops以上。

音頻/視頻技術(shù)

短視頻秒播優(yōu)化實(shí)踐（一）

在短視頻的體驗(yàn)中，起播速度無疑是最影響體驗(yàn)的指標(biāo)之一，因?yàn)槎桃曨l很短，十幾秒到幾分鐘不等，如果一個十幾秒的視頻，加載時間都要3秒，肯定是一個很壞的體驗(yàn)；所以在產(chǎn)品定義之初，起播速度就設(shè)定了控制在1秒左右，大部分在1秒內(nèi)，也就是業(yè)內(nèi)說的“秒播”，這需要對播放流程進(jìn)行優(yōu)化。

短視頻秒播優(yōu)化實(shí)踐（二）

之前我們介紹了在線短視頻秒播優(yōu)化的方方面面，從服務(wù)器，cdn部署接入，數(shù)據(jù)連接/獲取，客戶端緩存，出幀策略，到視頻文件I幀位置等。本文從視頻文件格式的另外一個角度介紹，MP4文件的box排列順序是如何影響，在線短視頻的播放以及秒播優(yōu)化的。

播放器技術(shù)分享（3）：音畫同步

第一期文章要推出的內(nèi)容主要涉及到播放器比較核心的幾個技術(shù)點(diǎn)，本篇是系列文章的第三篇，主要聊一聊播放器的音畫同步。

pydub庫---語音增強(qiáng)

最近使用Python調(diào)用百度的REST API實(shí)現(xiàn)語音識別，但是百度要求音頻文件的壓縮方式只能是pcm（不壓縮）、wav、opus、speex、amr，這里面也就wav還常見一點(diǎn)，但是一般設(shè)備錄音得到的文件都是mp3，這就要把mp3轉(zhuǎn)換為wav。

基于Web Audio API實(shí)現(xiàn)音頻可視化效果

網(wǎng)頁音頻接口最有趣的特性之一它就是可以獲取頻率、波形和其它來自聲源的數(shù)據(jù)，這些數(shù)據(jù)可以被用作音頻可視化。這篇文章將解釋如何做到可視化，并提供了一些基礎(chǔ)使用案例。

遠(yuǎn)場語音技術(shù)簡介

遠(yuǎn)場語音是一種人與機(jī)器間的交互方式，相對與近場語音來說，區(qū)別是它的作用距離通常會在1米到10米之間，主要的技術(shù)難點(diǎn)在于對于多徑反射、混響效應(yīng)及背景噪音干擾的處理。

編解碼

基于QoE的實(shí)時視頻編碼優(yōu)化：低功耗，低延時，高質(zhì)量

在實(shí)時通信領(lǐng)域，只有當(dāng)Codec的優(yōu)化適應(yīng)了當(dāng)前的網(wǎng)絡(luò)狀況，設(shè)備平臺及應(yīng)用場景，用戶才能得到最佳的體驗(yàn)。在LiveVideoStackCon2018大會中聲網(wǎng)Agora視頻工程師吳曉然詳細(xì)介紹了如何設(shè)計與實(shí)現(xiàn)基于QoE的實(shí)時視頻編碼優(yōu)化。本文由LiveVideoStack整理而成。

HEVC CABAC解碼

解碼slice segment data過程中，每碰到1個syntax element需要解析時，需參考Table 9-48等表格組合解析，整理整個流程解碼如下。

Android MediaCodec圖片合成視頻

利用MediaCodec可以錄制視頻，可是可以將圖片合成視頻嗎？之前使用FFmpeg來實(shí)現(xiàn)。但是，FFmpeg卻是c++寫的，而且非常占用內(nèi)存，雖然它是非常棒的音視頻處理庫，但是殺雞焉用牛刀，所以今天就講一下：如何利用Android API中的MediaCodec來實(shí)現(xiàn)圖片合成視頻。

FAAD解碼AAC音頻

在使用FAAD解碼前我們首先導(dǎo)入faad庫，相關(guān)庫及源碼可從https://www.audiocoding.com/faad2.html下載。使用FAAD解碼AAC數(shù)據(jù)為PCM時，主要分為4個步驟：1、創(chuàng)建解碼器；2、配置解碼器；3、解碼AAC數(shù)據(jù)為PCM數(shù)據(jù)；4、解碼完畢，關(guān)閉解碼器

AI智能

快慢結(jié)合效果好：FAIR何愷明等人提出視頻識別SlowFast網(wǎng)絡(luò)

在本文中，FAIR與何愷明等人介紹了用于視頻識別的 SlowFast 網(wǎng)絡(luò)，提出要分開處理空間結(jié)構(gòu)和時間事件。該模型在視頻動作分類及檢測方面性能強(qiáng)大：在沒有使用任何預(yù)訓(xùn)練的情況下，在 Kinetics 數(shù)據(jù)集上實(shí)現(xiàn)了當(dāng)前最佳水平；在 AVA 動作檢測數(shù)據(jù)集上也實(shí)現(xiàn)了 28.3 mAP 的當(dāng)前最佳水準(zhǔn)。

對象檢測（object detection）算法圖解

本文簡要介紹圖像檢測中常用的深度學(xué)習(xí)方法——RCNN家族系列算法，以圖像講解形式，便于理解。

視頻語義分割介紹

隨著深度學(xué)習(xí)的發(fā)展，圖像語義分割任務(wù)取得了很大的突破，然而視頻語義分割仍然是一個十分具有挑戰(zhàn)性的任務(wù)，本文將會介紹視頻語義分割最近幾年頂會上的一些工作。

語音合成的速度如何提升400％？或許你可以了解下深度前饋序列記憶網(wǎng)絡(luò)（附帶英文論文）

循環(huán)神經(jīng)網(wǎng)絡(luò)雖然具有很強(qiáng)的建模能力，但是其訓(xùn)練通常采用 BPTT 算法，存在訓(xùn)練速度緩慢和梯度消失問題。我們之前的工作，提出了一種新穎的非遞歸的網(wǎng)絡(luò)結(jié)構(gòu)，稱之為前饋序列記憶神經(jīng)網(wǎng)絡(luò)（feedforward sequential memory networks， FSMN），可以有效的對信號中的長時相關(guān)性進(jìn)行建模。相比于循環(huán)神經(jīng)網(wǎng)絡(luò)，FSMN 訓(xùn)練更加高效，而且可以獲得更好的性能。?

圖像

K-Means聚類進(jìn)行圖像處理實(shí)戰(zhàn)

在K-Means聚類算法原理中，我們對K-Means的原理做了總結(jié)，本文我們就來討論用scikit-learn來學(xué)習(xí)K-Means聚類。重點(diǎn)講述如何選擇合適的k值。

圖像灰度拉伸

圖像灰度拉伸是改變圖像對比度的一種方法，通過灰度映射，將原圖中某一區(qū)段中的灰度值映射到另一灰度值，從而拉伸或壓縮整個圖像的灰度分布范圍。

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 78期的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：编码压缩新思路:面向QoE的感知视频编码
下一篇：收官蓉城，展望2019多媒体技术新方向（

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

音视频技术开发周刊 78期

總結(jié)