语音开放平台简介
1.Nuance NVP
Nuance是語(yǔ)音識(shí)別領(lǐng)域的老牌勁旅,除了語(yǔ)音識(shí)別技術(shù)外,還包擴(kuò)語(yǔ)音合成、聲紋識(shí)別等技術(shù)。Nuance Voice Platform(NVP)是Nuance公司推出的語(yǔ)音互聯(lián)網(wǎng)平臺(tái),這是一個(gè)開(kāi)放的、基于統(tǒng)一標(biāo)準(zhǔn)的語(yǔ)音平臺(tái)產(chǎn)品。它能夠支持客戶公司已有的IT投資和基礎(chǔ)設(shè)備,同時(shí)可以加入語(yǔ)音的應(yīng)用。但是,Nuance一直有個(gè)問(wèn)題就是過(guò)于托大,對(duì)創(chuàng)業(yè)型的小公司也不太感興趣,天天想著攀比各個(gè)行業(yè)的巨頭。也難怪,這也是個(gè)策略,最近也聽(tīng)說(shuō)Dragon Drive將在新奧迪A3上提供一個(gè)免提通訊接口,可以實(shí)現(xiàn)信息的聽(tīng)說(shuō)獲取和傳遞。
2.Microsoft Speech API
微軟的Speech API是微軟推出的包含語(yǔ)音識(shí)別(SR)和語(yǔ)音合成(SS)引擎的應(yīng)用編程接口,其最新版本是Microsoft Speech API (SAPI) 5.4。SAPI支持多種語(yǔ)言的識(shí)別和朗讀,包括英文、中文、日文等。微軟的API調(diào)用模式,我想眾位都是非常熟悉了,這里也不再多強(qiáng)調(diào)。但是,微軟總有個(gè)問(wèn)題,就是任何一個(gè)產(chǎn)品都得和Windows綁定。這也讓人工智能領(lǐng)域的研發(fā)人員頭疼不已,總不能在機(jī)器人里面裝個(gè)Windows吧,所以面向PC的語(yǔ)音識(shí)別沒(méi)啥前途。
3.Google Speech API
這個(gè)領(lǐng)域自然不能少了蘋(píng)果和谷歌,但是蘋(píng)果打死也不會(huì)免費(fèi)的,而谷歌打死也不會(huì)收費(fèi)的。但是,這沒(méi)有意義了,因?yàn)椴还苣愕囊娑嗝磧?yōu)秀,現(xiàn)在的語(yǔ)音識(shí)別還是要基于云的。所以國(guó)內(nèi)的眾多創(chuàng)業(yè)用戶壓根用不了,甚至也訪問(wèn)不到。但是如果你的產(chǎn)品主要布局在國(guó)外,Google Speech API還是要備選的,因?yàn)檫@個(gè)API調(diào)用起來(lái)更加方便。
4.IBM viaVoice
IBM必須要提到,或許我們逐漸淡忘了這個(gè)曾經(jīng)極其輝煌的巨頭,但是IBM絕對(duì)是較早開(kāi)始語(yǔ)音識(shí)別研究的機(jī)構(gòu)之一。早在20世紀(jì)50年代末期,IBM就開(kāi)始了語(yǔ)音識(shí)別的研究。1964年世博會(huì)上,IBM就向世人展示了數(shù)字語(yǔ)音識(shí)別。 1984年,IBM發(fā)布的語(yǔ)音識(shí)別系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。1996年IBM發(fā)布了新版的聽(tīng)寫(xiě)系統(tǒng)VoiceType3.0,這是viaVoice的原型。這個(gè)版本的語(yǔ)音識(shí)別系統(tǒng)不需要訓(xùn)練,可以實(shí)現(xiàn)孤立單詞的聽(tīng)寫(xiě)和連續(xù)命令的識(shí)別。1999年,IBM發(fā)布了VoiceType的一個(gè)免費(fèi)版。2003年,viaVoice就已經(jīng)非常流行,但是2005年,IBM授權(quán)代理viaVoice的ScanSoft公司與Nuance公司合并,viaVoice也就可惜的退出了歷史舞臺(tái)。現(xiàn)在也只能從網(wǎng)上搜索下載一些桌面版本,對(duì)于市場(chǎng)應(yīng)用來(lái)說(shuō),基本上也就沒(méi)有什么價(jià)值了。
5.科大訊飛語(yǔ)音
科大訊飛1999年成立,作為中國(guó)最大的智能語(yǔ)音技術(shù)提供商,在智能語(yǔ)音技術(shù)領(lǐng)域有著長(zhǎng)期的研究積累,并在中文語(yǔ)音合成、語(yǔ)音識(shí)別、口語(yǔ)評(píng)測(cè)等多項(xiàng)技術(shù)上擁有國(guó)際領(lǐng)先的成果??拼笥嶏w目前提供語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別等全方位的語(yǔ)音交互技術(shù)。目前也是國(guó)內(nèi)創(chuàng)業(yè)團(tuán)隊(duì)使用最為廣泛的開(kāi)放語(yǔ)音識(shí)別平臺(tái),科大訊飛擁有中科大的教育資源和中科院的技術(shù)資源,而且已經(jīng)占據(jù)先機(jī),主要還是看其未來(lái)的戰(zhàn)略如何發(fā)展。
6.百度語(yǔ)音
百度語(yǔ)音自從和中科院聲學(xué)所合作以后,在賈磊帶領(lǐng)下短時(shí)間內(nèi)建立起來(lái)自己的引擎,而且打出了永久免費(fèi)的口號(hào),在很多領(lǐng)域搶占了一定的市場(chǎng),在百度有錢任性的支持下自然發(fā)展迅速。但是,最近聽(tīng)說(shuō)百度語(yǔ)音變動(dòng)極大,新請(qǐng)來(lái)的吳恩達(dá)似乎和賈磊有些不合,傳聞NG先生意欲整合百度語(yǔ)音,導(dǎo)致賈磊已經(jīng)離職。而且百度語(yǔ)音最近招聘很多聲學(xué)方面相關(guān)的學(xué)生,或許NG先生對(duì)百度語(yǔ)音又有了新的戰(zhàn)略構(gòu)想。實(shí)際上,NG先生負(fù)責(zé)的是百度大腦計(jì)劃,語(yǔ)音交互自然要作為其中尤為重要的一環(huán),而大腦計(jì)劃若想落地,就必然需要終端設(shè)備的支持,而這也涉及到了眾多聲學(xué)前端技術(shù)。
轉(zhuǎn)自:
1https://www.jianshu.com/p/532745af477d
總結(jié)
- 上一篇: vivo Y17s 手机发布:搭载联发科
- 下一篇: ssh 远程登陆指定端口