我爱计算机:张俊林专访
(1)按照慣例,先簡(jiǎn)單介紹下自己的經(jīng)歷吧。
說起來我經(jīng)歷還挺雜,或者說不夠安分吧,在科學(xué)院讀完博士之后留在研究所搞過兩年科研,和朋友一起創(chuàng)業(yè)做過“玩聚網(wǎng)”,用NLP和搜索技術(shù)做博客文章的自動(dòng)聚合,按現(xiàn)在的說法也算是人工智能,不過沒趕上最近兩年這么好的大背景,結(jié)果無疾而終。后來在阿里巴巴、百度、新浪微博等互聯(lián)網(wǎng)公司從事NLP和搜索推薦方面的研發(fā),目前在暢捷通從事面向企業(yè)應(yīng)用的人工智能方面的技術(shù)研發(fā)與技術(shù)管理工作。熱衷于技術(shù)分享和傳播,曾經(jīng)寫過搜索和大數(shù)據(jù)方面的兩本書,目前比較關(guān)注深度學(xué)習(xí)如何在NLP領(lǐng)域更好地應(yīng)用。
(2)當(dāng)前所任職的公司似乎不是大家眼中傳統(tǒng)的互聯(lián)網(wǎng)公司,你加入以來覺得和BAT之類的最大不同是什么, 圍繞這個(gè)不同,可以做哪些文章?
暢捷通是用友的子公司,在大家眼里還是一個(gè)傳統(tǒng)的軟件公司,但是其實(shí)目前市場(chǎng)上真正傳統(tǒng)的軟件公司已經(jīng)不多了,大家都在轉(zhuǎn)型。暢捷通也在順應(yīng)移動(dòng)潮流,在構(gòu)建云平臺(tái)+移動(dòng)端應(yīng)用的轉(zhuǎn)型過程中,推出了自己的云平臺(tái)以及工作圈、易代賬、好生意、好會(huì)計(jì)等移動(dòng)應(yīng)用。
和一般互聯(lián)網(wǎng)公司相比,最大的不同在于服務(wù)對(duì)象,暢捷通的服務(wù)對(duì)象是大量中小微企業(yè),是to B的,目前大多數(shù)互聯(lián)網(wǎng)公司更多是to C的。ToB和ToC業(yè)務(wù)在很多方面都有巨大差異,包括產(chǎn)品形態(tài)、推廣方式、研發(fā)重心、增長(zhǎng)形態(tài)等等。尤其是人工智能技術(shù)如何在企業(yè)應(yīng)用找到好的結(jié)合點(diǎn),應(yīng)該說目前大家都處于不斷摸索的階段。目前看除了常規(guī)的搜索推薦等應(yīng)用場(chǎng)景外,企業(yè)移動(dòng)應(yīng)用里語音操控?cái)?shù)據(jù)是個(gè)較好的結(jié)合點(diǎn),目前市場(chǎng)上的語音識(shí)別系統(tǒng)在企業(yè)場(chǎng)景下很難直接應(yīng)用,里面有很多問題比如領(lǐng)域術(shù)語、方言等,我們?cè)谶@上面做了很多研發(fā)工作,目前對(duì)于商品的方言識(shí)別準(zhǔn)確率達(dá)到了比較高的精度,北方方言準(zhǔn)確率在92%以上,南方方言在86%以上。當(dāng)然,我們本身不做語音識(shí)別,更多工作是在對(duì)識(shí)別結(jié)果進(jìn)行自動(dòng)糾錯(cuò)等后處理上。
(3)你是搜索和推薦領(lǐng)域的行家,能否從技術(shù)角度來解讀下這兩者的差異,哪個(gè)更難做好?
如果單從技術(shù)本身來說,其實(shí)采用的底層技術(shù)在ToB和ToC應(yīng)用方面并沒有太多差異,更大的差異可能體現(xiàn)在數(shù)據(jù)方面,ToB的公司在非結(jié)構(gòu)化數(shù)據(jù)方面的積累速度比ToC來說要慢,所以感覺ToB做起來更難一些。
(4)當(dāng)前個(gè)性化推薦產(chǎn)品很火,但我試用過幾個(gè)之后,不免又落入了看什么就推什么的尷尬境地,要徹底解決“新鮮感”的問題,產(chǎn)品/技術(shù)上有什么可以做?
我覺得用戶看過什么就推什么,根本上還是技術(shù)上做得不夠好導(dǎo)致的。個(gè)性化推薦產(chǎn)品通過用戶歷史建立用戶個(gè)人興趣模型,然后根據(jù)個(gè)人興趣模型推薦可能感興趣的內(nèi)容這個(gè)產(chǎn)品邏輯沒什么問題,而且將來也是大勢(shì)所趨,個(gè)性化服務(wù)未來必將越來越流行。
如果要避免這種問題,其實(shí)就是在了解用戶興趣基礎(chǔ)上,又能有一定的泛化能力,推薦出沒看過但是又跟用戶興趣模型相關(guān)的新鮮內(nèi)容,新鮮性體現(xiàn)在模型泛化推廣能力的強(qiáng)弱。如果是采用基于內(nèi)容推薦的算法,那么看過什么就推薦什么感覺是沒辦法的,基于內(nèi)容推薦決定了只能是這種效果。但是如果是協(xié)同過濾,無論是KNN還是MF方法,按理說應(yīng)該能在對(duì)興趣建模基礎(chǔ)上有一定的泛化能力,能推出一定程度上感興趣但是又具備新鮮度的內(nèi)容。我覺得基于社交關(guān)系的推薦應(yīng)該能夠一定程度避免這個(gè)問題,因?yàn)樯缃魂P(guān)系和內(nèi)容推薦性質(zhì)差異很大,不從內(nèi)容本身做興趣推導(dǎo),而社交關(guān)系的多樣性能夠保證推薦內(nèi)容的新鮮度,應(yīng)該能夠緩解這個(gè)問題。 其實(shí)微信朋友圈可以看做是一種純粹的基于社交關(guān)系的推薦,新鮮度應(yīng)該是夠的,不過只怕相關(guān)性不足,如果社交推薦和協(xié)同過濾等模型共同構(gòu)建推薦模型,估計(jì)能夠找到一個(gè)較好的平衡點(diǎn)。所以我覺得不是做不到,應(yīng)該還是沒做好,多模型融合可能是其中的關(guān)鍵點(diǎn)。
(5)你寫過不少利用深度學(xué)習(xí)來做應(yīng)用的科普技術(shù)類文章,那么能否抽象一下業(yè)務(wù)場(chǎng)景,從技術(shù)層面來說,你覺得深度學(xué)習(xí)最適合解決什么樣的問題?
如果抽象地談深度學(xué)習(xí)適合解決什么樣的問題,回答起來相當(dāng)有難度。總體而言,深度學(xué)習(xí)是個(gè)經(jīng)驗(yàn)性比較強(qiáng)的技術(shù)領(lǐng)域,理論發(fā)展遠(yuǎn)遠(yuǎn)落后于經(jīng)驗(yàn)的歸納總結(jié),如果這方面東西了解多了,深度學(xué)習(xí)看起來就像個(gè)由各種trick組成的工具箱。一般都是憑著經(jīng)驗(yàn)摸到了一種技巧,實(shí)驗(yàn)證明確實(shí)有效后,然后去給這個(gè)技巧去找理論解釋,至于這個(gè)理論解釋是不是說得通,那還真說不準(zhǔn)。比如說,拿Residual Network作為例子,Residual Network的重要性毋庸置疑,是深度學(xué)習(xí)領(lǐng)域的里程碑工作,每位立志于好好研究或者應(yīng)用深度學(xué)習(xí)技術(shù)的都應(yīng)該認(rèn)真學(xué)。最先提出Residual Network思想的論文其實(shí)本質(zhì)上是個(gè)純經(jīng)驗(yàn)的思路,并沒有給出技術(shù)為何有效的有說服力的說法,然后第二篇Residual Network文章試圖在理論上解釋為何技術(shù)有效,主要還是從如何有效減少后向傳播中梯度消失的角度來談的,這固然是原因之一,但是我總覺得這個(gè)原因不本質(zhì),后來又出現(xiàn)了一篇論文從Ensemble 的角度談為何Residual Network有效,我覺得這個(gè)解釋感覺更接近本質(zhì)一些,能解釋更多的類似模型。當(dāng)然這是我個(gè)人主觀感覺,其實(shí)為何有效目前還是沒有定論。但是這個(gè)例子能夠體現(xiàn)出深度學(xué)習(xí)的一個(gè)研究現(xiàn)狀和研究特點(diǎn),大多數(shù)重大的深度學(xué)習(xí)進(jìn)展都類似這種情況。
正因?yàn)樯疃葘W(xué)習(xí)是個(gè)偏向經(jīng)驗(yàn)的領(lǐng)域,所以可以這么說:只有被實(shí)踐證明了能被深度學(xué)習(xí)確實(shí)有效地解決的問題才是深度學(xué)習(xí)適合解決的問題。其實(shí)就是說,好不好看療效。而很難從理論基礎(chǔ)上去推論說深度學(xué)習(xí)適合解決什么問題,因?yàn)樗睦碚摶A(chǔ)是不夠堅(jiān)實(shí)的,所以做推論更難。當(dāng)然這是我個(gè)人目前的理解,水平有限,不一定對(duì)。
(6)隨著微信/微博等的流行,人人都可以做自媒體來傳播自己對(duì)技術(shù)的看法,但質(zhì)量參差不齊,自己這方面有沒好的篩選干貨文章的經(jīng)驗(yàn)?
這確實(shí)是個(gè)問題,目前不論什么技術(shù),最大的問題不是可參考的資料太少,而是信息太多,需要增強(qiáng)甄別意識(shí),不要浪費(fèi)太多時(shí)間在低質(zhì)量?jī)?nèi)容上。我覺得這事情可以換個(gè)角度看,從篩出高質(zhì)量?jī)?nèi)容的目的出發(fā),應(yīng)該先關(guān)注人,再關(guān)注內(nèi)容,其實(shí)技術(shù)人員在技術(shù)品味上有很大差異,先找到那些你認(rèn)可的人,再持續(xù)關(guān)注那些人發(fā)布的觀點(diǎn)或者文章,充分發(fā)揮人肉過濾器的作用,這可能是性價(jià)比比較高的方式。如果是機(jī)器學(xué)習(xí)領(lǐng)域的話,我推薦下北郵陳光老師的微博賬號(hào)“愛可可-愛生活”以及鮑捷兄維護(hù)的“機(jī)器學(xué)習(xí)日?qǐng)?bào)”,內(nèi)容非常全面,我現(xiàn)在上微薄比較少,一般隔一陣子會(huì)整個(gè)掃一遍這兩個(gè)賬號(hào)最新微博內(nèi)容,看看是不是遺漏了一些自己沒有關(guān)注到的重要內(nèi)容,對(duì)我很有幫助。
(7)說說從業(yè)以來,對(duì)你影響最大的一個(gè)人或者一件事吧。
我在科學(xué)院軟件所讀完博士就留在所里搞科研,后來有一陣子比較迷茫,主要是當(dāng)時(shí)我判斷了一下,發(fā)現(xiàn)自然語言處理這個(gè)領(lǐng)域那時(shí)候處于技術(shù)發(fā)展平臺(tái)期,就是大家都拿那么一兩個(gè)工具在那改來改去的,也沒見有什么實(shí)質(zhì)性的進(jìn)展,而且中期內(nèi)看不到有突破的跡象,覺得挺沒意思的,但是未來怎么樣也沒想清楚,所以就比較迷茫。后來有一次,軟件所孫樂研究員給我講了個(gè)故事,說是所里有位老先生,鐘情于機(jī)器翻譯,搞了10幾年中日翻譯,不過做到最后也只是個(gè)不能實(shí)際用的類似于玩具的系統(tǒng)。這事情當(dāng)時(shí)對(duì)我觸動(dòng)比較大,也是促進(jìn)我后來離開科學(xué)院去創(chuàng)業(yè)的一個(gè)重要原因。學(xué)術(shù)圈和工業(yè)圈在做事風(fēng)格、價(jià)值取向差異很大,之所以說這事情對(duì)我影響大,可以說對(duì)我當(dāng)時(shí)來說完全是個(gè)人生岔路口。
(8)假如現(xiàn)在回到高中畢業(yè)時(shí),你還會(huì)選擇計(jì)算機(jī)專業(yè)嗎?會(huì)選擇具體哪個(gè)方向?
其實(shí)我本科讀的不是計(jì)算機(jī),當(dāng)時(shí)選的是管理學(xué)院,到了研究生才換專業(yè)轉(zhuǎn)到計(jì)算機(jī)方向的。如果真能時(shí)光倒流,可以重新做選擇的話,我想我還是會(huì)選擇計(jì)算機(jī)作為未來的專業(yè)方向。回頭看過去的20年,從大的方向來說,有三個(gè)方向是所有職業(yè)發(fā)展里面比較好的:金融、IT和房地產(chǎn)。如果站在現(xiàn)在的時(shí)間節(jié)點(diǎn)往后看,房地產(chǎn)估計(jì)會(huì)逐漸沒落,而金融和IT應(yīng)該會(huì)繼續(xù)保持強(qiáng)勁發(fā)展的趨勢(shì)。金融行業(yè)如果獲得較好的職業(yè)發(fā)展很多時(shí)候依賴出身背景等自身不可控因素,IT行業(yè)自身的素質(zhì)和努力等自我可控的因素發(fā)揮的作用更大一些。所以綜合來看,IT行業(yè)是家庭出身一般的孩子能夠獲得較大發(fā)展舞臺(tái)的比較好的行業(yè),不過IT技術(shù)更新?lián)Q代太快,你要能在別人夜夜笙歌的時(shí)候苦哈哈地去學(xué)新技術(shù),得能坐得住,其實(shí)對(duì)人的要求也挺高的。當(dāng)然,上面說的內(nèi)容功利性強(qiáng)了些,首先應(yīng)該結(jié)合個(gè)人興趣來考慮,如果沒有興趣不論在哪個(gè)行業(yè)估計(jì)都會(huì)越來越痛苦。如果個(gè)人職業(yè)發(fā)展興趣能夠和社會(huì)發(fā)展趨勢(shì)相互吻合是最好的。
至于具體方向的話,估計(jì)會(huì)選機(jī)器學(xué)習(xí)相關(guān)的方向。很明顯人工智能技術(shù)會(huì)在人們將來的生活起到越來越重要的作用,而如果自己能夠用自己的知識(shí)和才智推動(dòng)人們生活在過去只能在科幻片里看到的場(chǎng)面還是挺酷的一件事。
(9)對(duì)在校計(jì)算機(jī)科班的學(xué)生談?wù)勛约簩W(xué)習(xí)的經(jīng)驗(yàn)或者建議吧。
我覺得學(xué)校里學(xué)的內(nèi)容和工作里需要的技能點(diǎn)脫節(jié)現(xiàn)象比較嚴(yán)重,當(dāng)然如果自己學(xué)習(xí)能力強(qiáng)這都不是問題。如果有建議的話,建議學(xué)計(jì)算機(jī)的學(xué)生可以考慮參加些開源項(xiàng)目,增加實(shí)際動(dòng)手能力,這可能是比較高的要求了,如果把要求放低些,至少應(yīng)該找?guī)讉€(gè)自己感興趣的口碑好的開源項(xiàng)目,仔細(xì)把項(xiàng)目的設(shè)計(jì)思路以及代碼邏輯或者代碼風(fēng)格等吃透,這對(duì)于提升自身專業(yè)能力有很直接的幫助。另外,目前各種類似于Kaggle這種數(shù)據(jù)方面的競(jìng)賽也比較多,如果有精力建議可以多參加,能獲得好名次固然好,但是這不是最重要的,以賽促學(xué),學(xué)習(xí)效率會(huì)比較高,學(xué)的東西也會(huì)比較接地氣。
(10)如何看目前市場(chǎng)上人工智能被炒得這么熱的現(xiàn)象?
我從業(yè)這么多年,應(yīng)該說一直沒有離開人工智能這個(gè)大領(lǐng)域,但是最近一年人工智能能熱成這樣子一則沒想到,二則也是第一次感受到這種熱度。人工智能熱本身其實(shí)是個(gè)好事情,越來越多資金和社會(huì)關(guān)注涌入這個(gè)行業(yè)無疑對(duì)于技術(shù)創(chuàng)新是有非常直接的促進(jìn)作用,而且對(duì)于行業(yè)內(nèi)的兄弟們來說對(duì)于自身價(jià)值的增值也是有很好的幫助作用,應(yīng)該說這次人工智能熱,深度學(xué)習(xí)在其中的背書作用是功不可沒的,因?yàn)樯疃葘W(xué)習(xí)確實(shí)在很多場(chǎng)景證明了自己,應(yīng)該說人工智能熱是有很大的合理因素在其中。而且,從長(zhǎng)期看,我是人工智能技術(shù)的極端樂觀主義者,它越來越重要這一點(diǎn)也是不存任何疑問。
但是,我還是想潑點(diǎn)冷水,短期看,最近人工智能在各種媒體的推波助瀾下,炒作得有點(diǎn)過頭了,我個(gè)人覺得這里面的泡沫非常嚴(yán)重。確實(shí),有深度學(xué)習(xí)的效果背書,不能說這是一種純粹的炒作。但是普通人眼中期望的人工智能能到達(dá)的高度絕對(duì)不是目前技術(shù)短期內(nèi)能夠達(dá)到的,期望越大,從高峰跌落摔得就越慘,這個(gè)道理我相信大家都理解。我覺得人工智能產(chǎn)品有個(gè)特點(diǎn),就是絕大多數(shù)屬于錦上添花型的,很少有雪中送炭型的,縱觀目前市場(chǎng)上各種人工智能產(chǎn)品,真正能夠提供必不可少價(jià)值的少之又少。這里面的泡沫無疑越來越大,但是大量產(chǎn)品缺乏堅(jiān)實(shí)的產(chǎn)品價(jià)值基礎(chǔ),我感覺這有點(diǎn)像15年上半年的A股那時(shí)候的市場(chǎng)狀態(tài),每個(gè)人都以為這是一次獨(dú)一無二的牛市,但是音樂總有終止之時(shí)。
總結(jié)
以上是生活随笔為你收集整理的我爱计算机:张俊林专访的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UI交互设计:红绿立体图片的制作
- 下一篇: 数字图说个人信息数据泄露