解密:依图如何一年实现语音识别指标超巨头玩家
機(jī)器之心原創(chuàng)
作者:四月
年底,盡管資本寒冬的聲音不絕于耳,但勇者往往無(wú)畏。在第四波 AI 浪潮下快速成長(zhǎng)起的「小巨頭」并沒(méi)有停下開(kāi)疆拓土的腳步。人臉、語(yǔ)音等多模態(tài)生物識(shí)別技術(shù)的融合成為人工智能應(yīng)用的發(fā)展趨勢(shì)之一。
12 月 11 日,擅長(zhǎng)計(jì)算機(jī)視覺(jué)技術(shù)解決方案的依圖科技在北京公開(kāi)展示了語(yǔ)音識(shí)別領(lǐng)域的最新技術(shù)成果,并表示將在近期開(kāi)放依圖語(yǔ)音識(shí)別 API 接口以及部分測(cè)試數(shù)據(jù)集。同時(shí),依圖科技還宣布,將基于其語(yǔ)音識(shí)別技術(shù)與微軟 Azure、華為推出聯(lián)合方案平臺(tái)。
01 最優(yōu)測(cè)試結(jié)果如何保證客觀性?
活動(dòng)現(xiàn)場(chǎng),依圖首先展示了其語(yǔ)音識(shí)別小程序「聽(tīng)寫(xiě)大會(huì)」在歌詞識(shí)別、飛機(jī)機(jī)艙混響環(huán)境下的播報(bào)識(shí)別結(jié)果,以及依圖語(yǔ)音識(shí)別 API 在公開(kāi)數(shù)據(jù)集、依圖自有數(shù)據(jù)集、非公開(kāi)數(shù)據(jù)集三類數(shù)據(jù)集上的平均錯(cuò)字率(CER)表現(xiàn)。
測(cè)試結(jié)果均以橫向?qū)Ρ鹊男问襟w現(xiàn),橫向?qū)Ρ鹊钠渌髁鞣桨赴ㄓ嶏w聽(tīng)見(jiàn)、訊飛開(kāi)放平臺(tái)、云知聲開(kāi)放平臺(tái)、阿里一句話、騰訊 AI 平臺(tái)、百度語(yǔ)音-遠(yuǎn)場(chǎng)、百度語(yǔ)音-輸入法、百度語(yǔ)音-搜索。
數(shù)據(jù)集是測(cè)試結(jié)果公正性的重要依據(jù),為體現(xiàn)數(shù)據(jù)集的科學(xué)性和多樣性。依圖測(cè)試過(guò)程中涉及到的公開(kāi)測(cè)試數(shù)據(jù)集包括:
全球最大中文普通話數(shù)據(jù)庫(kù) AISHELL1、AISHELL2(采用 iOS 系統(tǒng),Android、Mic 性能類似,省略)、中文語(yǔ)音語(yǔ)料 THCHS30、PrimeWord、ST-CMDS;
依圖自有數(shù)據(jù)集包括安靜對(duì)話、混響數(shù)據(jù)集;
非公開(kāi)數(shù)據(jù)集,即向第三方購(gòu)買(mǎi)的數(shù)據(jù)集,包括語(yǔ)音助手場(chǎng)景、電話閑聊、電話客服、遠(yuǎn)場(chǎng)演講、口音等場(chǎng)景的數(shù)據(jù)。
依圖科學(xué)家吳雙博士表示,該批測(cè)試完成于 2018 年 11 月底,數(shù)據(jù)覆蓋了近 60 萬(wàn)字、50 小時(shí)的語(yǔ)料,近場(chǎng)/遠(yuǎn)場(chǎng)跨度在 20cm-10m,涵蓋智能音箱、手機(jī)等多種設(shè)備,科技、醫(yī)療等超過(guò) 20 類話題領(lǐng)域。
在上述提到的所有測(cè)試數(shù)據(jù)集和測(cè)試場(chǎng)景中,依圖語(yǔ)音的平均字錯(cuò)率表現(xiàn)均優(yōu)于科大訊飛、百度等橫向?qū)Ρ鹊闹髁髡Z(yǔ)音方案商的開(kāi)放平臺(tái)方案。字錯(cuò)率是中文語(yǔ)音識(shí)別領(lǐng)域的關(guān)鍵性評(píng)估指標(biāo),一般認(rèn)為字錯(cuò)率在低于 3% 時(shí)不會(huì)影響可讀性,而超過(guò) 15% 則毫無(wú)可讀性。這兩個(gè)數(shù)據(jù)被視為是語(yǔ)音識(shí)別的兩條紅線。在不同場(chǎng)景下,不同算法的表現(xiàn)可能存在很大差異。
活動(dòng)現(xiàn)場(chǎng),橫向?qū)Ρ葴y(cè)試結(jié)果依次呈現(xiàn)在大屏幕上,引來(lái)在場(chǎng)諸多人士拍照。這在一定程度上展示了依圖在特定測(cè)試條件下的技術(shù)領(lǐng)先性,同時(shí)也反映出業(yè)界所謂的「成熟」中文語(yǔ)音識(shí)別方案還存在諸多提升和改進(jìn)空間。
比如,在公開(kāi)數(shù)據(jù)集 AISHELL-2 中,依圖短語(yǔ)音聽(tīng)寫(xiě)的字錯(cuò)率為 3.71%,領(lǐng)先原業(yè)內(nèi)領(lǐng)軍者約 20%。在手機(jī)進(jìn)場(chǎng)(接近可用)場(chǎng)景下,依圖語(yǔ)音的字錯(cuò)率為 3.6%,排名第二云知聲開(kāi)放平臺(tái)字錯(cuò)率為 4.2%,依圖語(yǔ)音領(lǐng)先云知聲開(kāi)放平臺(tái)近 17%。
比如,在非公開(kāi)數(shù)據(jù)集的電話場(chǎng)景中第一類「電話閑聊」場(chǎng)景下,只有依圖語(yǔ)音和訊飛聽(tīng)見(jiàn)(異步模型)在稍微接近 15% 字錯(cuò)率的下限,即「勉強(qiáng)可用」。而排名靠后的阿里云智能語(yǔ)音、云知聲開(kāi)放平臺(tái)、騰訊 AI 開(kāi)放平臺(tái)-WeChat、訊飛開(kāi)放平臺(tái)、百度開(kāi)放平臺(tái)遠(yuǎn)場(chǎng)方案在電話閑聊、電話客服場(chǎng)景下均超過(guò)了 15% 字錯(cuò)率,即「毫無(wú)可讀性」。
在遠(yuǎn)場(chǎng)演講場(chǎng)景下,除依圖語(yǔ)音和訊飛聽(tīng)見(jiàn)(異步模型)的平均字錯(cuò)率達(dá)到可用容錯(cuò)范圍外,阿里云智能語(yǔ)音、云知聲開(kāi)放平臺(tái)、微信開(kāi)放平臺(tái)-WeChat 流式、百度開(kāi)放平臺(tái)等基本「全軍覆沒(méi)」,均明顯高于平均字錯(cuò)率 15% 的下限。此外,從測(cè)試結(jié)果中也可以看到,各家算法在遠(yuǎn)場(chǎng)演講場(chǎng)景下的表現(xiàn)落差較大。
有媒體人士評(píng)價(jià),依圖如此掀開(kāi)語(yǔ)音識(shí)別市場(chǎng)「遮羞簾」的做法真是耿直!
此外,在通用性層面,柱狀圖寬度越小,說(shuō)明字錯(cuò)率浮動(dòng)范圍越小,算法的場(chǎng)景通用性越好。綜合各場(chǎng)景測(cè)試的結(jié)果,業(yè)界主流算法中,依圖和訊飛的算法字錯(cuò)率浮動(dòng)范圍相對(duì)較小。
上述檢測(cè)結(jié)果難免觸及其他友商的利益和技術(shù)權(quán)威性,業(yè)界不少人對(duì)其客觀性和公正性提出質(zhì)疑,機(jī)器之心針對(duì)該類問(wèn)題與依圖科學(xué)家吳雙博士向依圖進(jìn)行了交流。值得注意的是,上述橫向?qū)Ρ确桨妇鶠楦鲝S商的開(kāi)放平臺(tái)方案,并未完全代表各家在語(yǔ)音識(shí)別領(lǐng)域的綜合實(shí)力水平。
1、機(jī)器之心:測(cè)試結(jié)果采用自家測(cè)試的方案,在測(cè)試方法、測(cè)試設(shè)備的公平性上如何保證?測(cè)試對(duì)象是否符合雙盲隨機(jī)原則?
吳雙:依圖自有的數(shù)據(jù)集、算法 API 將在近期公開(kāi)。在所有公開(kāi)數(shù)據(jù)集上的測(cè)試結(jié)果均可復(fù)現(xiàn)上述結(jié)果。基于非公開(kāi)的各家自有數(shù)據(jù)測(cè)試集上的不同測(cè)試結(jié)果,我建議大家都把數(shù)據(jù)集公開(kāi),用公開(kāi)的測(cè)試數(shù)據(jù)集的結(jié)果體現(xiàn)水平,這樣大家的測(cè)試結(jié)果均可以被其他家測(cè)試驗(yàn)證,公正性就有了保證。
2、機(jī)器之心:測(cè)試結(jié)果除了與軟件算法相關(guān),硬件設(shè)備,尤其是麥克風(fēng)陣列排布影響到的拾音效果也可能間接影響語(yǔ)音識(shí)別的準(zhǔn)確率。上述展示的測(cè)試結(jié)果都是基于同一款設(shè)備嗎?
吳雙:上述測(cè)試涉及到了多種硬件設(shè)備,比如智能音箱、手機(jī)以及其他硬件設(shè)備。我們希望能夠覆蓋更多硬件設(shè)備。硬件方案的確會(huì)影響語(yǔ)音識(shí)別效果。但是面向不同的識(shí)別場(chǎng)景,我們都是調(diào)用同一套算法,同一套 API。
02 如何實(shí)現(xiàn)一年超越「訊飛」們?
相比計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展和落地,語(yǔ)音識(shí)別研究顯然起步更早,對(duì)應(yīng)的玩家形態(tài)和市場(chǎng)格局也更為成熟。眾所周知地,科大訊飛在語(yǔ)音識(shí)別領(lǐng)域的積淀和商業(yè)化已有十余年歷史,近幾年 BAT 玩家的涌入也來(lái)勢(shì)洶洶,接口免費(fèi)、平臺(tái)開(kāi)放的政策接二連三。在看似已成定局的賽場(chǎng)上,依圖如何后來(lái)者「居上」?
談到語(yǔ)音識(shí)別領(lǐng)域的研發(fā)歷程,吳雙表示,大約是一年左右不到的時(shí)間,即去年底今年初投入力量進(jìn)行語(yǔ)音識(shí)別方案的研發(fā),但在語(yǔ)義理解層面,依圖已經(jīng)有所建樹(shù),比如在醫(yī)療領(lǐng)域,電子病歷理解的應(yīng)用。
實(shí)際上,早在今年的一次公開(kāi)活動(dòng)上,依圖科技聯(lián)合創(chuàng)始人林晨曦曾接受相關(guān)媒體采訪時(shí)表示,依圖科技接下來(lái)會(huì)繼續(xù)進(jìn)軍語(yǔ)音識(shí)別和自然語(yǔ)言處理,要在這兩個(gè)領(lǐng)域也做到超越人類水平。
相比語(yǔ)音識(shí)別領(lǐng)域已有的巨頭玩家,依圖在數(shù)據(jù)量積累和模型訓(xùn)練時(shí)間等核心層面均不占據(jù)優(yōu)勢(shì)。但是依圖卻在短短一年時(shí)間內(nèi),數(shù)據(jù)量相比巨頭有限的情況下,在部分測(cè)試集和核心指標(biāo)上超過(guò)了前者。
對(duì)于其原因,吳雙認(rèn)為,強(qiáng)化學(xué)習(xí)、對(duì)抗學(xué)習(xí)等技巧層面的策略大家都會(huì)跟進(jìn),做算法優(yōu)化并沒(méi)有捷徑。在方法論和做事態(tài)度層面有依圖在視覺(jué)領(lǐng)域的經(jīng)驗(yàn)作為基礎(chǔ)。目前,依圖語(yǔ)音的表現(xiàn)是相對(duì)意義上的性能提升,平均算法性能領(lǐng)先 11%,在某些特定的場(chǎng)景下領(lǐng)先更多。
對(duì)于語(yǔ)音市場(chǎng)看似產(chǎn)品繁多,但真實(shí)體驗(yàn)卻與宣傳效果存在差距的現(xiàn)象,依圖科技首席創(chuàng)新官、前 Google Research Scientist 呂昊博士認(rèn)為主要原因有三,其一,業(yè)界缺乏系統(tǒng)性的標(biāo)準(zhǔn)測(cè)試、測(cè)試集,而覆蓋多維度多場(chǎng)景的數(shù)據(jù)成本過(guò)高;此外,工業(yè)界語(yǔ)音識(shí)別的水平已經(jīng)遠(yuǎn)超過(guò)學(xué)術(shù)界,但與此同時(shí),也缺乏體驗(yàn)和比較的工具。
左為依圖科技首席創(chuàng)新官呂昊,右為華為智能計(jì)算渠道合作部部長(zhǎng)康鑫
活動(dòng)現(xiàn)場(chǎng),依圖方面還宣布了將聯(lián)合微軟推出語(yǔ)音開(kāi)放平臺(tái),依圖的語(yǔ)音識(shí)別方案將在微軟云 Azure 上線。依圖科技將聯(lián)合華為推出智能語(yǔ)音解決方案。此前,依圖還與華為聯(lián)合發(fā)布了面向泛安防場(chǎng)景的智慧園區(qū)和視頻云人像大數(shù)據(jù)解決方案。
活動(dòng)現(xiàn)場(chǎng),華為智能計(jì)算渠道合作部部長(zhǎng)康鑫談到,在華為的 160 個(gè) ISV 中,依圖已經(jīng)成為華為最頂級(jí)的 ISV 合作伙伴。從目前合作模式來(lái)看,依圖語(yǔ)音技術(shù)的落地方式主要面向 B 端客戶。
據(jù)公開(kāi)資料顯示,依圖科技最近一輪融資在今年 3 月完成,紅杉資本中國(guó)、高瓴資本、高榕資本等投資方也持續(xù)跟投,該輪融資中依圖科技公司整體估值為 150 億人民幣。
對(duì)于依靠人工智能第四波浪潮快速成長(zhǎng)的獨(dú)角獸而言,經(jīng)過(guò) 2018 年落地商業(yè)化的考驗(yàn)之后,拓寬業(yè)務(wù)領(lǐng)域和加強(qiáng)解決方案的完整性成為提升競(jìng)爭(zhēng)力的關(guān)鍵。
可以看到的是,以視覺(jué)方案為主的依圖、云從開(kāi)始切入語(yǔ)音市場(chǎng),而以語(yǔ)音方案為主的云知聲則開(kāi)始在圖像識(shí)別領(lǐng)域布局。業(yè)內(nèi)人士表示,在智能家居、智能汽車(chē)、智能醫(yī)療等領(lǐng)域,未來(lái)的交互肯定是多模態(tài)的,不會(huì)是單一的語(yǔ)音、或者單一的圖像功能。
本文為機(jī)器之心原創(chuàng),轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
廣告 & 商務(wù)合作:bd@jiqizhixin.com
總結(jié)
以上是生活随笔為你收集整理的解密:依图如何一年实现语音识别指标超巨头玩家的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 这些AI应用不简单,Keep首场技术开放
- 下一篇: 云端能力知几许?12人众测华为云企业级K