AI在实时音视频互动中应用的 n 种姿势
在場景需求的推動下,以及背后算法、算力、數據的支撐下,AI 已經慢慢走出實驗室,開始擁抱產業,這其中也包括 RTC 行業。在實時的視頻、實時音頻、實時傳輸、視頻內容檢索與推薦、實時交互等層面,都已經出現了與 AI 結合的落地應用。
從實時的視頻來講,超分辨率就是最典型的應用之一。在深度學習的幫助下,我們可以在視頻接收端提高原有圖像的分辨率,得到高分辨率的圖像,這個過程就是超分辨率重建。我們以前也分享過一些知名的算法模型。實時音頻方面,我們可以看到很多 AI 的應用。例如帶寬擴展,在我們通話的過程中,對方的聲音聽起來有些悶,這是因為語音信號中的高頻區域被移除掉了。而基于DNN的頻帶擴展則可將高頻區域恢復出來,就像下圖這樣。經過頻帶擴展后的信號增加了很多高頻信息,實際的聽感也會更加明亮、清晰。除此之外,AI 在實時語音上的應用還包括語音增強、基于 RNN 的丟包恢復、語音音樂分類器等。AI的發展使得音頻領域有了更多的可能性去解決之前難以處理的問題。對于實時音頻而言,AI是一把全面提升質量的利刃,但實時音頻所必須的低復雜度、低延時特性注定全面AI化引擎還有很長的路要走。另外,除了實時音視頻,AI 還可以用于改善實時傳輸質量,也可以用于視頻內容的檢索與推薦,或進行音視頻內容審核。以上這些相關話題,你都可以在今年的 RTC 實時互聯網大會上聽到。在 RTC 2019 實時互聯網大會的「AI 與 RTC 技術專場」,來自聲網Agora、Hulu、依圖科技、南京大學的演講人們將從分享 AI 在移動端實時視頻超分辨率、音頻優化、傳輸優化、視頻內容推薦、音頻內容審核等角度分享實踐經驗。細數下來,今年幾十個演講中,有近 1/3 的演講都與深度學習、神經網絡相關。同時,在大會第一天上午的主會中,聲網Agora 首席科學家鐘聲、搜狗公司AI交互事業部高級總監、語音技術部負責人陳偉,也將圍繞 AI 與 RTC 深入分享更多技術實踐與趨勢。大會門票限時免費截止到 9 月 30 日,掃碼報名
部分演講議題
Topic:Deep Learning based Super Resolution for mobile RTC
Speaker:周世付 聲網Agora AI 算法工程師
近幾年,超分辨率技術一直是計算機視覺領域的一個熱門話題,其應用前景廣泛,比如RTC。然后,超分辨率技術在移動端落地的過程中,面臨著模型過大、運算復雜、設備發熱過大的問題。本次演講內容將重點分享超分辨技術在移動端落地的探索和實踐經驗,內容包括對抗神經網絡、模型剪枝壓縮等。
Topic:基于內容的視頻推薦和實踐
Speaker:謝曉輝 Hulu 首席研發經理
視頻網站面臨的技術挑戰之一是如何對視頻做精準的用戶分發,理解用戶、環境和視頻內容是解決問題的核心和關鍵。以頭部視頻為主的視頻網站由于用戶選擇成本更高、消費行為稀疏、復雜而且感性,因此對視頻進行精確、細致與豐富的理解和刻畫顯得更為重要。相比傳統的基于用戶行為的推薦系統,如何借助于視頻內容理解來優化個性化推薦和內容發現呢?本次演講內容將重點分享Hulu在這一方面的探索和實踐經驗,內容包括視頻理解在內容冷啟動、視頻精細化標簽和分組、深度推薦模型中的應用等等。
Topic:RTC x Audio x AI,現狀和展望
Speaker:陳若非?聲網Agora 音頻體驗與工程總監
本次演講會從一個相對宏觀的角度來分析介紹人人和人機交互相關的音頻技術分類,現狀總結和對未來的展望。其中會重點展開RTC與音頻,AI結合的部分,我們需要解決哪些問題,有什么挑戰,AI能在哪些方面幫到我們,聲網在這些方面的一些思考和進展,其中也包括了AI降噪,AI丟包隱藏,聲音美化等音效的成果展示。
Topic:互聯網語音內容審核中的關鍵AI技術
Speaker:胡泊 依圖科技 高級架構師
相較于成熟的圖片、視頻審核,語音是行業公認的新難題。語音違規不僅風險更隱蔽、影響更惡劣,其對應的AI技術也存在更高的壁壘。難點一:高復雜度場景下的語音識別。語聊房、視頻直播、短視頻中的語音往往伴有極強背景音(如音樂、噪聲等)、語速極快咬字不清、口音嚴重等情況, 使得其識別難度數倍于傳統場景。難點二:極低誤報率要求下的違規內容過濾。上述場景中,違規內容出現的概率往往在萬分之一甚至十萬分之一,這就要求算法模型在不漏太多的情況下盡可能的減少誤報(從而減少人工審核的工作量)。本次演講,依圖將結合自身經驗,介紹如何有針對性的進行技術實現和方案設計,克服以上難點。
Topic:基于神經網絡的自適應傳輸
Speaker:馬展 南京大學電子學院副教授、博士生導師
網絡是動態變化的,如帶寬波動和意想不到的延遲,傷害用戶的體驗質量(QoE),而且全球網絡媒體服務都需要面對這個問題。在這次演講中,我們提出了一個神經自適應傳輸(NAT)框架解決全球網絡規模下互動媒體服務的網絡問題。整個神經自適應傳輸(NAT)系統有三個主要組成部分:一個基于學習的云覆蓋層路由(COR)方案,通過繞過網絡擁塞并找到最低延時路徑,提供最佳傳輸路徑;一個基于協同視頻處理(CVP)系統的殘余神經網絡在設備端來協調端上的計算能力,通過學習分辨率縮放來改進QoE;還有一個深度強化學習(DRL)的自適應實時流(ARS)策略,用來選擇適當的視頻比特率,以獲得最大QoE。我們驗證過COR可以提高用戶滿意度5%到43%,CVP可以減少相同質量下帶寬消耗的30%以上,基于DRL的ARS可以保證流媒體流暢度,QoE也可改善50%以上。
以上只是一部分與 AI 相關的話題,可以在「閱讀原文」找到更多干貨演講。
RTC 2019?門票限免至 9 月 30 日,趕快報名吧總結
以上是生活随笔為你收集整理的AI在实时音视频互动中应用的 n 种姿势的全部內容,希望文章能夠幫你解決所遇到的問題。