面向视频的全新AI架构 —— 阿里云智能视觉技术全解
2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
我們都知道,AI技術(shù)正在以可見的速度被應(yīng)用于各行各業(yè),然而絕大部分業(yè)務(wù)場景想應(yīng)用AI技術(shù),都需要算法工程師根據(jù)自身業(yè)務(wù)的標(biāo)注數(shù)據(jù),來進行單獨訓(xùn)練,才能打磨出合適的AI模型。如此一來,如何以最低的門檻和成本,實現(xiàn)AI技術(shù)落地變成了行業(yè)急需解決的問題。
市場上的AI服務(wù)非常多,但是在視覺領(lǐng)域,通用的AI服務(wù)主要是基于圖像的架構(gòu)來做的,視頻時代已經(jīng)到來,基于圖像的AI架構(gòu)是否還能被廣泛應(yīng)用?阿里云視頻云團隊專注于視頻領(lǐng)域,所以在針對視頻的AI處理方面也有獨特的思考和實踐。3月27日下午,第51期阿里云產(chǎn)品發(fā)布會-智能視覺產(chǎn)品隆重發(fā)布,阿里云高級計算專場周源針對圖像和視頻的AI處理有什么不同?團隊是如何基于視頻構(gòu)建全新的AI架構(gòu)?針對AI大量的數(shù)據(jù)、訓(xùn)練效果不夠好、時間與成本消耗大等痛點,他們?nèi)绾谓鉀Q等以上問題做了悉數(shù)解答。
一、市場上通用的圖像架構(gòu)是怎樣的?
市場上大部分AI的服務(wù),輸入的都是圖像,也就是圖片文件,是基于圖片進行處理。在業(yè)界,圖像的算法比較成熟,數(shù)量也較多,從大類來看有圖像分類、檢測、識別、分割等等。大部分AI服務(wù)的架構(gòu)也是基本類似,一般包含圖像算法層、引擎框架層、資源管理層、硬件基礎(chǔ)層,之后基于各自的業(yè)務(wù)領(lǐng)域知識,構(gòu)建一個面向特定領(lǐng)域的AI推理服務(wù),然后通過API提供對外的訪問。
二、挑戰(zhàn):視頻與圖像的不同
隨著現(xiàn)在視頻(直播、點播、短視頻)的越來越廣泛應(yīng)用,內(nèi)容從原先的圖像分析升級到視頻分析。因為復(fù)用已有的技術(shù)以及架構(gòu)的改造成本等等因素,一般的AI服務(wù)一般會保持現(xiàn)有的框架,不同是把視頻轉(zhuǎn)換成圖像來進行處理。一般做法是按照固定的時間間隔采樣截取視頻的圖像信息,這樣整個服務(wù)架構(gòu)不需要做任何改動,只是在最上面一層增加了視頻幀截取和結(jié)果匯聚的服務(wù)。
當(dāng)然,這個架構(gòu)在視頻時代就會存在很多問題:
1. 時效性差
因為增加了視頻截幀和結(jié)果匯聚這樣的中間操作,所以處理時間長;視頻下載下來,處理后圖片再上傳,網(wǎng)絡(luò)傳輸也會導(dǎo)致時效性變差;舉個例子,在相同畫質(zhì)下,使用一張張圖片組成的視頻,和H.264編碼的視頻,大小的比是10:1,圖片是10倍于視頻的存儲量。
2. 穩(wěn)定性
視頻截幀一般會采用開源的FFmpeg,如果遇到問題需要解決,比較依賴于開源社區(qū)。比如格式和編碼的兼容性、直播、點播中遇到數(shù)據(jù)異常、時間戳不準(zhǔn)、定制協(xié)議、分辨率切換、卡死等。
3. 復(fù)雜性高
把視頻轉(zhuǎn)換成批量的圖片,就需要對這些臨時的圖片進行管理,另外還涉及順序處理、異步操作、網(wǎng)絡(luò)抖動等問題,需要關(guān)注的非核心業(yè)務(wù)功能就要求非常多,導(dǎo)致業(yè)務(wù)系統(tǒng)整體的復(fù)雜性變高。
4. 信息丟失
截幀是一種采樣,會引起信息丟失,丟失的信息中很有可能包含了關(guān)鍵圖像。另外,截幀的處理是對沒有時間信息的圖像結(jié)果的簡單累加,效果也不理想。
既然有這么多問題,基于視頻的AI計算該怎么做呢?
三、阿里云解決方案:面向視頻的新架構(gòu)
周源所在的阿里云視頻云團隊,具有多年音視頻編解碼、媒體處理相關(guān)技術(shù)經(jīng)驗,他們推出的面向視頻的新架構(gòu)是:把視頻作為第一類對象(First-Class Object)來看待。把視頻解碼、時間域分析、智能匯聚、音頻處理等引入到系統(tǒng)里面來,把視頻處理和AI計算有機結(jié)合,以面向視頻的方式,在視頻處理的同時完成AI計算,精簡的流程能夠大幅度縮短處理時間,從時間維度提升分析效果,并能簡化業(yè)務(wù)架構(gòu),讓用戶聚焦在核心業(yè)務(wù)的發(fā)展上。為用戶提供高效穩(wěn)定、簡單易用、功能豐富的視頻AI服務(wù)。
新架構(gòu)具有以下幾個特點:
1. 時效性高
相較于之前多余的截幀、上傳等一系列操作,新方案不產(chǎn)生臨時圖片,同時能減輕存儲的帶寬和空間需求。能充分利用視頻的并行分片機制,大幅度縮短整體處理時間。
2. 復(fù)雜性低
面向視頻的架構(gòu),視頻處理和AI計算集成在一起,簡化了對圖片的處理過程,進而簡化整個處理邏輯,降低復(fù)雜度。
3. 穩(wěn)定性高
阿里云視頻云團隊是具有10多年豐富視頻處理經(jīng)驗的專業(yè)團隊,兼容性、運維各種問題都不需要用戶考慮。
4. 效果更佳
對離散的圖像結(jié)果按照時間的關(guān)系進行更合理的匯聚,獲得更優(yōu)的效果。
四、AI應(yīng)用的痛點和解法
周源團隊自研的新架構(gòu)很好的解決了圖像AI架構(gòu)時效性差、穩(wěn)定性差、復(fù)雜度高、效果不佳的問題。然而在AI的應(yīng)用上,開發(fā)者也會關(guān)注到一些其他問題,比如:
智能視覺產(chǎn)品針對關(guān)鍵的數(shù)據(jù)和時間問題,給出了如下解法:
1. 選擇最合適的算法
基于阿里巴巴在視頻和AI領(lǐng)域的長期積累,已經(jīng)幫大家選擇好了算法,現(xiàn)在推出的是分類和識別,之后將推出更多算法。
2. 遷移學(xué)習(xí)——少量數(shù)據(jù)快速訓(xùn)練
遷移學(xué)習(xí)的基本原理是,根據(jù)自然圖像中的基礎(chǔ)邊緣、色塊、紋理的規(guī)律來歸納物體特征,并且通過在淺層網(wǎng)絡(luò)中復(fù)用這些基礎(chǔ)特征,來減少標(biāo)注數(shù)據(jù),能以更快的時間、更高的質(zhì)量生成業(yè)務(wù)場景相關(guān)數(shù)據(jù),大幅度減少數(shù)據(jù)需求,進一步減少計算量,達到縮短新模型訓(xùn)練時間的效果,使業(yè)務(wù)迭代更快。
3. 數(shù)據(jù)增廣——少量數(shù)據(jù)更優(yōu)效果
在深度學(xué)習(xí)層面,在其他條件相同的情況下,數(shù)據(jù)越多訓(xùn)練效果是越好的。這就產(chǎn)生了一個問題,更好的效果一定需要更多的數(shù)據(jù),這需要花費大量的人力去標(biāo)注。
智能視覺采用數(shù)據(jù)增廣策略,增加數(shù)據(jù)的多樣性,加強模型泛化能力,對圖像進行旋轉(zhuǎn)、斜切、仿射變換、對比度調(diào)整、色度變化、水平鏡像等變換,增加數(shù)據(jù)量的同時保持增廣數(shù)據(jù)的真實性,實現(xiàn)了少量數(shù)據(jù)情況下效果增強10-15%的訓(xùn)練效果,同時有效降低標(biāo)注數(shù)據(jù)的人力和時間成本。
智能視覺可以幫助零算法基礎(chǔ)的用戶,快速訓(xùn)練自己領(lǐng)域的定制化模型,僅需要少量標(biāo)注數(shù)據(jù),完成快速的模型生成、增強的場景效果,并將訓(xùn)練模型轉(zhuǎn)換成高可用、彈性可擴展的視頻AI服務(wù),讓用戶能夠以最低的成本實現(xiàn)AI技術(shù)的落地。
目前智能視覺已經(jīng)支持圖像分類、物體檢測、直播識別等AI能力,可應(yīng)用在視頻監(jiān)控、互聯(lián)網(wǎng)短視頻內(nèi)容識別歸類、新零售物件統(tǒng)計、工業(yè)質(zhì)檢、農(nóng)業(yè)養(yǎng)殖、醫(yī)療診斷等場景。
?
本文作者:樰籬
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
轉(zhuǎn)載于:https://my.oschina.net/u/3827390/blog/3031392
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的面向视频的全新AI架构 —— 阿里云智能视觉技术全解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring入门到放弃——spring事
- 下一篇: 10. Python面向对象