出走的门徒之五—云知声 黄伟:AI热终会冷,要跑的比任何风口快
?在阿西莫夫的代表作《基地》中,除了先知謝頓貫穿全線,其他主角都是門徒。他們內(nèi)在為直覺所驅(qū)動,外在被時代所推動。他們在歷史上的出場毫無征兆,卻在潮流中游刃有余。你會驚嘆,為什么是他?
????離開谷歌、微軟、IBM、Facebook、阿里、百度,告別自己過去的所有榮耀,重新走上創(chuàng)業(yè)之路,崇尚技術(shù)的護(hù)城河。為什么是他?新華網(wǎng)開辟“出走的門徒”系列,講述這樣一群科技界理想主義者的現(xiàn)實(shí)路徑。
????新華社上海2月4日電(記者周琳)2004年黃偉從中國科技大學(xué)畢業(yè)時,正好趕上第二次人工智能浪潮臨近破滅的尾巴,卻同時又是語音識別行業(yè)第一個風(fēng)口到來不久的時候。2005年,全球領(lǐng)先的語音識別公司Nuance上市,市值最高突破90億美元。3年后,黃偉所在公司的語音識別部門被Nuance收購。
????這個本是實(shí)現(xiàn)計算機(jī)聽覺為強(qiáng)人工智能服務(wù)的領(lǐng)域,卻在AI趨冷的時候大熱,更說明了技術(shù)的不可預(yù)見性。
????近15年過去,這種戲劇化的變化再一次出現(xiàn)。盡管出現(xiàn)了AlphaGo橫掃圍棋界等標(biāo)志性事件,讓AI這一行業(yè)在2016年開始紅得發(fā)紫,盡管2016年老羅在發(fā)布會上show了一把計算機(jī)聽覺的精準(zhǔn)性,亞馬遜的語音助手Echo Alexa銷量狂飆了三倍,我們卻已經(jīng)很難得出,語音識別已經(jīng)站在了AI創(chuàng)業(yè)風(fēng)口浪尖這個結(jié)論。
????當(dāng)年和黃偉一起學(xué)習(xí)或共事的人,很多人都離開了這一行業(yè)。固守判斷、等待爆發(fā)是一件很考慮耐心和實(shí)力的事情。
????誰也不知道下一個風(fēng)口會什么時候流行;技術(shù)也并非是唯一的護(hù)城河;但是,語音識別正確率的不斷提高,解放人類雙手是大勢所趨。這恐怕是黃偉在經(jīng)歷過摩托羅拉、Nuance、盛大、創(chuàng)辦云知聲之后,能最堅定的信念。
????逆風(fēng)反擊:AI領(lǐng)域“模仿者必死”
????云知聲于2012年成立,也是在那一年,Siri開始支持中文。
????語音識別領(lǐng)域的廝殺在這些年顯得非常激烈。國外,谷歌、亞馬遜、微軟都通過技術(shù)積累和收購初創(chuàng)公司,殺入戰(zhàn)局;國內(nèi),百度憑借著在AI領(lǐng)域的提前布局獨(dú)自拼奪,和黃偉師出同門的科大訊飛更是成立十多年,屬于行業(yè)當(dāng)之無愧的老大。
????2012年前后,正處在AI第三次興起的交替期。那時候,科大訊飛還沒有成為網(wǎng)紅、AlphaGo還沒有驚艷亮相,市場對人工智能最火熱的討論仍然來自于科幻電影。
????后發(fā)卻想要先至,信心是最重要的催化劑。在那時,極少有創(chuàng)業(yè)公司敢把所有身家賭在“深度學(xué)習(xí)”這件事情上。
????云知聲做的第一件事,就是把深度學(xué)習(xí)應(yīng)用到了語音識別里,而且把它開放出來提供給了第三方。
????2012年9月,云知聲發(fā)布了基于傳統(tǒng)統(tǒng)計模型的第一代引擎,準(zhǔn)確率上升到了85%,比當(dāng)時的訊飛高出5個百分點(diǎn)。但想要再優(yōu)化,就必須要有迅速獲得大量、免費(fèi)的數(shù)據(jù)。于是,云知聲開放了自己的平臺,任何人、任何組織只要在平臺上注冊,就可以免費(fèi)使用公司的SDK(軟件開發(fā)工具包);在APP里接入這一SDK,就可以免費(fèi)調(diào)用云知聲的語音服務(wù)。
????憑借著免費(fèi)這一法寶,到2013年底平臺上接入的企業(yè)客戶數(shù)量達(dá)到接近一萬家。現(xiàn)在,企業(yè)客戶數(shù)達(dá)到了3萬家。快速的數(shù)據(jù)積累,讓云知聲進(jìn)行了一系列數(shù)據(jù)迭代和算法優(yōu)化,將識別的準(zhǔn)確率提升到了97%。
????但再好的技術(shù),只有當(dāng)它變成對用戶有價值的產(chǎn)品時,它才有商業(yè)價值。既便技術(shù)過硬,留給后來者的機(jī)會仍已不多了。
????第二步到底應(yīng)該怎么走?做APP?流量的導(dǎo)入掌握在BAT手里,你不可能再用那么低的價格去實(shí)現(xiàn)基礎(chǔ)設(shè)施(用戶)的積累;做與科大訊飛雷同的業(yè)務(wù)?也很難從成熟的大公司手中去搶蛋糕吃,更何況在教育等領(lǐng)域,訊飛的優(yōu)勢地位幾乎是無法撼動的。
????“有行業(yè)第一,并不可怕。”黃偉意識到,任何一個公司,有它的沉淀,就有它的包袱。大公司受制于股權(quán)等因素,對很多新領(lǐng)域很難快速反映。必須找出一條和行業(yè)老大不一樣的路,而且向投資人證明這條路在商業(yè)上是可行的。
????2012年底的很多科技新聞中都曾展望:蘋果會開發(fā)一種語音的方法解鎖pad,而非現(xiàn)有的按鍵。最后我們發(fā)現(xiàn)這一功能在家電上更早出現(xiàn)。“我們根據(jù)用戶場景倒推,未來用戶的形態(tài)應(yīng)該是,比如,在客廳的沙發(fā)上,自然與空調(diào)對話,而不需要湊上去和它交流。”黃偉說。
????隨后,在樂視TV上、美的空調(diào)、抽油煙機(jī)上,語音助手迅速落地。回過頭去看,其實(shí)只用了2年的時間,云知聲就將自己的基礎(chǔ)語音識別引擎落地并步入正軌,再用數(shù)據(jù)反哺算法,不斷將其客戶從家電拓展到醫(yī)療、汽車等其他領(lǐng)域。
????對于黃偉而言,產(chǎn)品想要復(fù)制到任何需要文字錄入的行業(yè),司法、傳媒等,就沒有太多不確定性了。“我們最后證明了:一,BAT之下確實(shí)還有別的路。二,行業(yè)老大之外這條路確實(shí)是可行的。”黃偉說。
????順風(fēng)快行:手機(jī)不會是語音識別“主戰(zhàn)場”
????2014年,黃偉第一次提出了自己的“云端芯”概念,將公司定位于“一個IoT(物聯(lián)網(wǎng))時代的語音AI服務(wù)商”。為了做物聯(lián)網(wǎng),云知聲在2014年引入高通成為戰(zhàn)略投資方;同時進(jìn)行內(nèi)部架構(gòu)的調(diào)整,成立了IoT事業(yè)部,占當(dāng)時總?cè)藬?shù)的一半以上。在2016年AlphaGo還未火起來的2月,云知聲又成立了AI Lab。
????黃偉介紹,公司云端芯的服務(wù)分三種:1)有芯片級技術(shù),比如說冷喚醒和打斷等;2)有終端軟件的交互層面,比如開車時萬一網(wǎng)絡(luò)不好,我們還有純離線的方案;3)還有一些復(fù)雜的請求走云端。最后的解決方案是考慮了有網(wǎng)絡(luò)、無網(wǎng)絡(luò)等所有環(huán)境,并不是只賣一個芯片或者云端 SDK 。
????有了這樣的安排,芯片不僅可以收集信息,還可以承擔(dān)一部分智能的功能,解決基本的需求。
????這看起來并不是技術(shù)的顛覆。然而對于一個創(chuàng)業(yè)公司而言,如何確定你的商業(yè)模式和產(chǎn)品模式,如何建造你自己的壁壘,恐怕是技術(shù)之外更重要的考量。
????對于這些模式的確立,黃偉的思考模式值得探究。傳統(tǒng)而言,大家的思維模式是“做什么”;而筆者接觸過的人中,有兩個人并不是這樣。一個是喜馬拉雅的余建軍,他的說法是“踩過了所有的坑才成功了”;另一個就是黃偉,他給人的感覺是“先考慮什么堅決不能做”。這種歸納和排除的出發(fā)點(diǎn),和旁人不同。
????2012年-2014年,黃偉堅持的是“不做APP”。到了2014年確立了“云端芯”戰(zhàn)略,他又有兩個排除:不能只做聯(lián)網(wǎng)方案、不能只做手機(jī)方案。
????很早黃偉就認(rèn)為,手機(jī)從來就不是語音識別的主戰(zhàn)場。你肯對著音箱、冰箱、馬桶、抽油煙機(jī)說話,即便這些用品沒有屏幕。但手機(jī)還是基于屏幕的,它更常用到的交互方式是“觸碰”而非聲音。
????市面上很多在做智能家居的公司還是基于APP和手機(jī)的,例如將家電聯(lián)網(wǎng),在用手機(jī)來控制操作。而橫掃歐美、被稱為亞馬遜“翻身之作”的Echo Alexa則是一個用音箱來連接的中控平臺。
????“智能家居人機(jī)交互的正確做法恐怕最后不會是APP。”黃偉說,它可能會是一個全新的增強(qiáng)設(shè)備,甚至最終取代手機(jī)。不過與亞馬遜從中控開始做的方法不同,云知聲還是希望先從終端滲透率不斷增加著手,培育用戶的習(xí)慣。
????作為語音助手,Alexa看起來似乎是所有語音識別公司的競爭對手。黃偉則認(rèn)為并不是。
????“亞馬遜肯定不是我們的競爭對手,合作機(jī)會是大于競爭的。”黃偉說,從智能層面,國外的云服務(wù)商在國內(nèi)落地是很難的,而在亞馬遜本土化的落地方案等方面,都是有合作機(jī)會的;在云端服務(wù)上,很多技術(shù)都可以由云知聲來提供。
????一個成功的企業(yè),始于技術(shù),興于商業(yè),卻久于管理。“當(dāng)時間到了2016年時,AI公司還在講算法、講評測,只會非常不成熟”。黃偉說,沒有純粹的AI公司。只有技術(shù)和行業(yè)結(jié)合,將技術(shù)、數(shù)據(jù)和商業(yè)閉環(huán)打通的公司,才是一個健康的公司。在人臉識別、云服務(wù)等任何一個細(xì)分領(lǐng)域,最后都只會有少數(shù)幾家公司能勝出。
????擺脫風(fēng)口:技術(shù)并非唯一護(hù)城河
????在《烏鎮(zhèn)指數(shù):全球人工智能發(fā)展報告(2016)》中,云知聲以6000多萬美元的融資規(guī)模,排名在全球AI企業(yè)融資額榜單第19、中國第三(另外兩家分別是碳云智能和出門問問)。
????但即便融資了這么多錢,此時你如果打開云知聲的官方網(wǎng)站,卻依然很難體會出“藝術(shù)感”。文字放得很大,有的時候一個屏幕上只剩下了導(dǎo)航欄和標(biāo)題圖;首頁可以拖動很長,畫了很多展示技術(shù)的概念圖,每張圖片連箭頭都需要橫平豎直。
????這大概已經(jīng)是理工男對藝術(shù)最佳的理解。
????黃偉所畢業(yè)的中國科技大學(xué),是國內(nèi)知名的理工類學(xué)校,其最盛產(chǎn)的有三類人:理工男、穿著大褲衩的理工男以及穿著大褲衩、趿著黃拖鞋的理工男。在那里,談戀愛略等于一起上自習(xí);很厲害略等于可以一學(xué)期刷光全套吉米多維奇;優(yōu)秀畢業(yè)論文略等于一篇Nature或Science。
????然而,對技術(shù)的極致崇拜,有時候在商業(yè)上并不見得是優(yōu)勢。在這個故事滿天飛的時代,你的巷子深了,資本還沒走到,就會醉倒在半路。曾經(jīng)在一個科大創(chuàng)業(yè)類的群中,“技術(shù)和Pr哪個更重要”的話題,幾乎百分百都把票投給了前者。
????時間回到2006年。彼時還在摩托羅拉語音識別部門的黃偉,為MOTO最具盛名的“明”系列手機(jī)開山之作A1200提供語音技術(shù)支持。如今你在百度中搜A1200,還有很多人人網(wǎng)的評測說,“教你怎么語音打電話”。
????在當(dāng)時識別準(zhǔn)確率還不高的情況下,愿意去做這樣嘗試的人,簡直是在刀尖上舞蹈,這得對自己的技術(shù)多有信心。
????作為純正的理工男,黃偉也曾有過“將技術(shù)作為唯一評價標(biāo)準(zhǔn)”的時代,但創(chuàng)業(yè)數(shù)年,他正在不斷修正自己的判斷。這種管理上的改變和平衡,并非是大學(xué)教他的,而是在盛大研究院管理期間體悟出來的。
????從摩托羅拉語音識別部門被Nuance收編,到不愿意只做本土化,前往盛大創(chuàng)辦研究院,再到自己創(chuàng)業(yè),黃偉每一段經(jīng)歷,似乎都在刻意補(bǔ)齊了技能樹上的短板:在摩托羅拉,潛心做了幾年的研發(fā)和算法;在盛大,升級了自己管理的技能樹。
????“不是說技術(shù)不重要,但如果別人技術(shù)98分、我96分,這2份的差距不足以決定商業(yè)上的生死;而如果其他方面別人做的很好,做到了80分,你只做到了60分,你必死啊。”黃偉說。
????最后創(chuàng)業(yè)時,你的資源永遠(yuǎn)是有限的,不可能每個崗位都招到最合適的人。能夠把不同價值觀、不同追求的人,集合在一起,將技術(shù)和管理結(jié)合,最后平衡、平衡、平衡,最重要的事情說三遍。
????黃偉認(rèn)為,技術(shù)在一個公司最終的比重只占到20%。尤其在中國這個市場環(huán)境中,光有技術(shù)是不夠的,要補(bǔ)足很多其他的能力。單一人群創(chuàng)造力是有限的。無論是技術(shù)很牛的人,或者沒有好的教育背景,但對產(chǎn)品特別有感覺的人,都特別值得學(xué)習(xí)。
????“過去我們在人工智能領(lǐng)域耕耘,缺少經(jīng)費(fèi)和機(jī)會。于當(dāng)時,我們是不幸。而今天人工智能成為科技領(lǐng)域的新熱點(diǎn),對于在人工智能領(lǐng)域堅守多年的我們來說,我們又是如此幸運(yùn)。”黃偉說。(完)
轉(zhuǎn)載于:https://my.oschina.net/ZZKAJ23/blog/885248
總結(jié)
以上是生活随笔為你收集整理的出走的门徒之五—云知声 黄伟:AI热终会冷,要跑的比任何风口快的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视频采集工具 youtube-dl 接口
- 下一篇: 插值算法模型