离线语音识别芯片对比
離線語音識別芯片對比
前言
本文關注的重點是語音識別的硬件載體:語音識別芯片,特別是離線語音識別芯片。
一、 語音識別技術的原理
定義:語音識別技術(ASR Automatic SpeechRecognition),讓智能設備聽懂人類的語音。語音識別的工作流程,可以分為三大步驟:前端語音處理、模型訓練、后端識別處理。
1.前端處理
前端處理,即將語音的模擬信號,轉換成機器能讀懂的數字信號,并做信號優化處理。前端處理關聯硬件:麥克風、Codec/ADC、PDM\I2S、音頻處理能力(NPU或DSP)以下是前端處理的流程原理簡化:
語音聲波轉模擬電信號:麥克風分柱極體和硅麥兩種,硅麥又分為模擬和數字。
預處理: 靜音切除 VAD、分偵加窗、降噪(主動降噪ANC)、預加重等。
特征提取:圖中選的是主流的MFCC,其他還有LPCC,PLP等,選取后續可以匹配的特征點。
2.模型訓練
模型 可以理解為“字典”,機器收到語音信息后,跟模型比對找出相似的語音和單詞。
那模板怎么來的呢?這需要通過預先大量地采集語音和語言信息(通常叫語料收集),并通過特定的算法跳出最典型的語音特征值。這就叫做“模板訓練”,編輯一本字典出來。語音識別系統的模型訓練通常分為兩套:
語言模型訓練:語言模型是用來計算一個句子出現概率的概率模型,是語音識別中的”字典”它需要綜合三個層次的知識:字典,語法,句法,讓機器能更好理解人類的自然語言。
聲學模型訓練:聲學模型是識別系統的底層模型,是語音識別系統中最關鍵的部分,算法主要集中優化該部分聲學模型是通過大量的語音收集,并根據特定的算法規則獲得特征值,用于后面的識別比對。互聯網巨頭,擁有大量的用戶基數和語音收集渠道,相對于傳統公司有優勢。
3.后端識別處理(語音解碼)
指利用訓練好的“聲學模型”和“語言模型”對提取到的特征向量進行識別,并輸出識別結果。該步驟跟模型建立有深度關聯,有時將”模型建立”歸類到后端識別處理中,與前端處理對應。
識別準確率和響應速度,通常取決于主控運算速度,以及前端處理和模型的綜合表現。
以下是詳細語音識別技術的原理分支整理:
二、語音識別技術的發展史
鑒于語音識別芯片,是與算法有著高度關聯。所以以下簡單探討了語音識別技術的發展史。
語音識別技術的核心和發展,主要在聲學模型的建模(訓練)的領域上,可以分為三個階段:
第一階段 模型匹配法 / 語音標簽(70年代)
主要集中在小詞匯量、孤立詞、特定人語音識別方法,方法是簡單的模板匹配
模板匹配:測試語音與參考語音 分別進行特征值提取后,直接整段比對吻合度。
主流算法:動態時間規整(DTW)、支持向量機(SVM)、矢量量化(VQ)。
技術局限:同個人感冒就識別不了,匹配方法原始,命令詞多了識別效率很慢。第二階段:概率統計型(1993年~2009年)
部分廠家稱為非特定人語音識別,準確來說是概率統計型,主流的技術是GMM+HMM。
HMM模型將語音轉換文本的過程中,增加了兩個轉換單位:音素和狀態GMM 是將狀態的特征分部,用概率模型來表述,提升語音幀到狀態的準確率。
基于GMM-HMM框架,后續又提出了許多改進方法:動態貝葉斯方法、區分性訓練方法自適應訓練方法、HMM/NN混合模型方法等 GMM+HMM模型,在大詞匯量的語音識別情況下,識別準確率和效率均比較c差。
第三階段:辨別器分類方法(2009年至今)
常被成為深度神經網絡識別,是當下最主流語音識別技術類型,包括:
1、深度神經網絡/深信度網絡-隱馬爾科夫(DNN/DBN-HMM)。
2、遞歸神經網絡RNN——>LSTM&BLSTM:結合上下文建模,計算復雜度會比DNN增加。3、卷積神經網絡CNN:圖像識別的主流的模型,優化語音的多樣性,減少硬件資源浪費。
下一代語音識別技術:端到端CTC?
不再需要HMM來描述音素內部狀態的變化,而將語音識別的所有模塊統一成神經網絡模型。國內大廠的技術選擇:科大訊飛–深度全序列卷積神經網絡DFCNN)、阿里LFR-DFSMN、
百度SMLTA、Kaldi。
三、語音識別芯片的比對
按照語音識別的市場應用的發展方向,我們可以將語音識別芯片分為兩大類:
在線語音識別:即大詞匯量連續語音識別系統
典型應用:在線翻譯、智能客服、大數據分析、服務機器人等。
離線語音識別:即小詞匯量、低功耗、低成本的語音識別系統。
典型應用:智能家電、語音遙控器、智能玩具、車載聲控、智能家居等。離線和在線的區別在于:語音識別的工作是放在本地設備端還是云端服務器。
在線語音識別芯片:
在線語音芯片只做前端語音處理,后端識別處理都放在云端服務器,所以才稱為在線。在線語音識別芯片,嚴格來說定義也不大對了,它更像個”萬精油”型的芯片。芯片配置強大的CPU、大容量存儲、完整的音視頻和通訊接口,甚至會內置PMU、WiFi、PHY等功能。它可以被應用于語音識別,也可以應用于其他多媒體的處理,是個萬精油型的主控芯片。所以該類別的廠商,通常都是像的MTK、瑞芯微、全志這類最早做平板和手機CPU的。
該類芯片包括:士蘭微和阿里合作的SC5864、全志與科大訊飛合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的應用就是智能音箱。
(注:本文關注重點是離線語音識別,在線的就不展開詳細敘述和對比了。)
離線語音識別芯片
根據前兩個篇章的內容,結合公司背景等因素,我將語音識別芯片分類如下:
芯片比對參數說明:
識別距離&識別率:屬于芯片的兩個重要顯性指標,與消費者的體驗直接相關,但由于每家廠商測試的前提條件各自不同,也跟芯片的市場定位有關,所以并非絕對指標。
處理器:分為MCU和Audio Core,前者偏芯片與周邊期間協同合作的控制器,后者偏處理音頻信號和跑識別算法,后者相對于前者更重要些,是直接決定芯片的語音識別的響應速度和準確率的重要因素。
存儲:硬件存儲決定了處理器可調用的資源大小,也決定了識別詞條數量
語音算法:分前端信號處理算法(降噪\波束成形\回應消除\VAD靜音抑制\麥克風矩陣\遠場識別等)和后端識別算法(聲學模型算法/NPL自然語言等)。這個是偏軟的參數
音頻通道&外設接口: 芯片與周邊器件的通信橋梁,對于語音識別來說,音頻的輸入和輸出更重要,單獨提列出來。音頻輸入分模擬輸入(ADC)和數字輸入(PDM),音頻輸出通常是DAC。
電源功耗:功耗不能直接比對大小,而是要比能耗比,即同樣性能下的功耗對比。
其他因素:工作溫度、封裝等,以及特殊備注。以上參數,除了通用的硬件參數,其余的各家定義也略微有些不同,不能單獨對比。
1.0&2.0時代:傳統型
算法模型主流是GMM+HMM,或者模型匹配(語音標簽)的。而且,由于芯片配置簡單,不具備降噪等功能,識別距離在25m,識別率通常在90%左右。詞條數510條。
每家的芯片有基本的ASR功能,但各自都有”性能短板”:不帶主控、不帶存儲、語音指令和算法外掛、OTP固定詞條、性能低端、接口單一等等,這些短板,都是為了降低成本,在低端市場需要有成本優勢。
廠商分析:臺灣 新塘、凌陽
臺灣系早幾年前曾是離線語音識別領域最活躍的,包括芯片廠新塘和凌陽,以及臺灣賽維這類算法公司。本人就曾推廣過新塘ISD9160,當時在家電領域應用挺多,但因識別率差等原因,消費市場反饋差,需求下滑很快。
都是曾經非常通用的語音識別芯片,有現成的動態指令庫,開發簡單好用。
ICRoute 上海音航
根據以上表格,這家公司的LD3320除了沒有MCU,其余語音識別功能都比較完整,所以識別率達到95%和命令詞50條。再看其官網(http://www.icroute.com/) 的開發資源和技術介紹非常完整,也有方便用戶定制指令的軟件工具。如果不考慮價格,個人感覺他們家在傳統型中,應該算是最棒的。
另外,該公司的大股東孫放,也是北京雷動云合的聯合創始人,雷動云合是做視覺識別產品的。果然,大佬們都盯著未來AI人機的兩大入口:視覺 & 語音識別。
廣州九芯\深圳唯創
除了語音識別,都有做語音芯片(常見于兒童玩具),在網上很活躍,成本應該很低。
同類的還有深圳盛矽和深圳捷通等,都是集中在廣東區域啊,廣東的汕頭澄海盛產的玩具產品等可是遍及全球呢,產業的發達果然是能帶動起周邊相關行業的發展啊。
3.0時代:互聯網型
互聯網公司最近幾年紛紛活躍于互聯網行業之外,尋找新的增長點或加深企業護城河縱深。語音識別和視覺識別作為人機交互兩大入口,自然也就得到互聯網企業的青睞。但互聯網公司自身沒有芯片設計能力,往往需要借助外力,戰略合作和\收購控股\購買成熟IP等是常見手段。
互聯網公司推出的語音識別芯片,紛紛專注于用上高配置的DSP(功耗自然不低),而且擁有豐富的外設接口,芯片可以實現離在線一體化的功能。主要技術特點側重于后端識別算法,但前端信號處理能力也不弱。
互聯網型還有個廣為人知的特點,以低價殺穿市場,快速獲取用戶增長。這個我們看在近年來互聯網行業大規模燒錢競爭即可知。只是我個人覺得,所謂的互聯網思維對于需要長周期精耕細作的芯片行業來說,是否利大于弊還是搞亂一鍋粥大家都挨餓?
廠商分析:
互聯網巨頭:阿里巴巴和百度
兩家互聯網巨頭本身都有各自成功的智能音箱產品:天貓精靈和小度,各自也分別選擇多家芯片原廠合作推出在線和離線芯片,實現自產自銷。阿里平頭哥 將IP賣給合作公司,百度則是購買Candence HiFi4 IP(話說這個IP最近看了至少有三家在用或即將用)
在線語音識別巨頭:訊飛、思必馳、云之聲
三家在線語音識別巨頭,紛紛從云端幕后往前臺站出來,將已有的語音識別算法技術優勢,進一步下沉到端側的離線語音識別芯片,打通線上和線下。三家各自市場側重點都不同,訊飛側重教育行業、思必馳側重車載行業、云之聲側重家電行業,當然這個劃分也非絕對,各自肯定有交叉競爭關系。
語音算法公司:互問、華鎮
相比訊飛等三家,互問和華鎮的技術更”硬”一些,技術也更偏硬件側。兩家各自都找第三方芯片公司,合作推出自家命名的芯片產品。3.0時代:純芯片型
純芯片型大部分屬于初創新公司,擁有完整得芯片設計到算法開發的能力,相比于傳統型,純芯片型算法技術更優;相比于互聯網型,純芯片型更專注芯片硬件技術。
芯片語音處理核心,多為專用的NPU。同等資源下,NPU算力和能耗比遠高于通用DSP。而且該類芯片多具有強大的前端信號處理能力,能真正做到降噪\原唱識別等功能。加上不斷優化的聲學算法模型和語料定制,識別率通常在95%以上。
廠商分析:
探境 & 清微 & 知存
三家北京系的公司,在NPU(網絡神經處理器)上有各自的技術特點和優勢,語音識別的處理能力最優,能耗比很高。其中探境較早實現量產,以及扎實的技術持續優化,在高噪音語音識別率和原廠識別表現上,在市場上一枝獨秀。另外還有一家北京公司:承芯卓越,暫未查到資料。
啟英 & 人麥
兩家是最早一批進入3.0時代的廠商,產品均已迭代至第二代,產品經過幾年的市場驗證較為成熟,也有一定的客戶群體。
杭州國芯
國芯成立于2001年,芯片行業的老兵。業務分為兩大塊:衛星數字電視方案和AI語音識別方案。語音識別的芯片較多,其中剛推出的GX8002A主打”高集成度和小體積”特點,主攻TWS耳機和可穿戴應用。
普林芯馳:該公司暫時了解不多總結:
市場角度看,語音識別市場當前還遠不成氣候,仍然屬于比較前言的領域。無論是純芯片型還是互聯網型,各自沒有真正意義上你死我活的競爭關系,因為與其爭奪現有的小餅干,還不如一起拱成大蛋糕分而食之。增量市場階段,合作共贏更符合各自利益。
產品角度看,語音識別技術仍然有很大的技術進步空間,實際消費者的體驗也有待優化,包括像自然語言、非連續性回音消除、端到端技術應用等。也有人說,語音識別芯片加上無線通訊技術,實現離在線一體,兼顧響應速度和識別靈活度。
產業鏈角度看,從我整理的國內射頻芯片原廠開始,到這篇語音識別,知名的廠商都更多集中在北京和上海,深圳雖然有著發達的電子企業和成熟的芯片供應體系(華強北),但芯片制造等產業配套是比不了北上。而且半導體本身屬于長周期的投入,可能也不能兼容快節奏的深圳?
離線語音識別模塊:可直接用于空調、冰箱、洗衣機、油煙機、飲水機、風扇等。
特點:1、長距離和高噪音下的高識別率;2、超高性價比,絕對不玩高大上
參考網址:https://www.toutiao.com/i6873795470095974916/
總結
以上是生活随笔為你收集整理的离线语音识别芯片对比的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: MPQ4420HGJ DCDC电源设计
 - 下一篇: python爬取安居客房屋价格用地图表示