京东DNN Lab首席科学家:用深度学习搞定80%的客服工作
京東DNN Lab首席科學(xué)家:用深度學(xué)習(xí)搞定80%的客服工作
發(fā)表于2014-12-30 18:05| 6968次閱讀| 來(lái)源CSDN| 8 條評(píng)論| 作者周建丁
深度學(xué)習(xí)京東dnn自然語(yǔ)言處理機(jī)器學(xué)習(xí)deep learning width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F1970-01-01%2F2823378&type=3&count=&appkey=&title=CSDN%E8%AE%B0%E8%80%85%E5%AF%B9%E8%AF%9D%E4%BA%AC%E4%B8%9C%E6%B7%B1%E5%BA%A6%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%AE%9E%E9%AA%8C%E5%AE%A4%EF%BC%88DNN%20Lab%EF%BC%89%E9%A6%96%E5%B8%AD%E7%A7%91%E5%AD%A6%E5%AE%B6%E6%9D%8E%E6%88%90%E5%8D%8E%EF%BC%8C%E8%AF%9D%E9%A2%98%E6%B6%89%E5%8F%8A%E4%BA%AC%E4%B8%9C%E5%A6%82%E4%BD%95%E7%90%86%E8%A7%A3%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E3%80%81%E4%B8%BA%E4%BD%95%E8%A6%81%E5%81%9A%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E3%80%81%E5%A6%82%E4%BD%95%E5%B1%95%E5%BC%80%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%9A%84%E7%A0%94%E7%A9%B6%E3%80%81%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%8A%80%E6%9C%AF%E5%9C%A8%E4%BA%AC%E4%B8%9C%E7%9A%84%E5%BA%94%E7%94%A8%E7%8E%B0%E7%8A%B6%E4%BB%A5%E5%8F%8A%E4%BA%AC%E4%B8%9C%E5%9C%A8%E7%A0%94%E5%8F%91%E8%BF%87%E7%A8%8B%E4%B8%AD%E7%9A%84%E4%B8%80%E4%BA%9B%E5%BF%83%E5%BE%97%E7%AD%89%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1464318635180" frameborder="0" scrolling="no" allowtransparency="true">摘要:CSDN記者對(duì)話京東深度神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(DNN Lab)首席科學(xué)家李成華,話題涉及京東如何理解深度學(xué)習(xí)、為何要做深度學(xué)習(xí)、如何展開深度學(xué)習(xí)的研究、深度學(xué)習(xí)技術(shù)在京東的應(yīng)用現(xiàn)狀以及京東在研發(fā)過(guò)程中的一些心得等。說(shuō)深度學(xué)習(xí)(Deep Learning)算法是當(dāng)前“人工智能皇冠上的明珠”并不過(guò)分。通過(guò)深層神經(jīng)網(wǎng)絡(luò)(DNN)模型的運(yùn)用,深度學(xué)習(xí)已成為目前最接近人腦的智能學(xué)習(xí)方法,不僅Google、Facebook、百度、騰訊等國(guó)內(nèi)外搜索和社交公司為之瘋狂,電商巨頭京東和阿里也已經(jīng)加入競(jìng)爭(zhēng)。京東更是已經(jīng)實(shí)現(xiàn)深度學(xué)習(xí)的初步運(yùn)用。
深度學(xué)習(xí)技術(shù)在電商運(yùn)營(yíng)中的價(jià)值如何實(shí)現(xiàn)?未來(lái)的應(yīng)用趨勢(shì)是什么?在近日的京東技術(shù)狂歡節(jié)上,CSDN記者采訪了京東深度神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(DNN Lab)首席科學(xué)家李成華,就此問(wèn)題進(jìn)行了討論,具體的話題涉及京東如何理解深度學(xué)習(xí)、為何要做深度學(xué)習(xí)、如何展開深度學(xué)習(xí)的研究、深度學(xué)習(xí)技術(shù)在京東的應(yīng)用現(xiàn)狀以及京東在研發(fā)過(guò)程中的一些心得等。
京東深度神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(DNN Lab)首席科學(xué)家 李成華
李成華介紹,京東DNN Lab主要專注于人工智能和機(jī)器學(xué)習(xí)領(lǐng)域前瞻性的研究,涉及神經(jīng)網(wǎng)絡(luò)、知識(shí)層次、異構(gòu)計(jì)算等技術(shù)的研發(fā)。DNN Lab目前主要成果包括命名實(shí)體識(shí)別、用戶意圖識(shí)別、用戶畫像和自動(dòng)問(wèn)答等,產(chǎn)品化是JIMI智能機(jī)器人,已經(jīng)成功應(yīng)用于售前咨詢、售后服務(wù)和生活伴侶三個(gè)場(chǎng)景,承擔(dān)超過(guò)30%的京東客服任務(wù)。作為一個(gè)“新生兒”,JIMI會(huì)把處理不了的問(wèn)題轉(zhuǎn)到人工客服,但京東希望未來(lái)JIMI可以包攬至少80%的客服工作。
同時(shí),京東也將會(huì)探索利用深度學(xué)習(xí)算法提升產(chǎn)品銷量預(yù)測(cè)、互聯(lián)網(wǎng)金融、智能硬件、智能搜索、推薦廣告等方面的效果。
大數(shù)據(jù)催熟深度學(xué)習(xí)
深度學(xué)習(xí)是模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋和處理各種數(shù)據(jù),包括文本數(shù)據(jù)、圖像數(shù)據(jù)和語(yǔ)音數(shù)據(jù)等。
人工神經(jīng)網(wǎng)絡(luò)具有良好的學(xué)習(xí)能力和解決問(wèn)題的能力,但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一般只有兩三層的神經(jīng)網(wǎng)絡(luò),其有限的參數(shù)和計(jì)算單元,對(duì)復(fù)雜函數(shù)的表示能力有限,學(xué)習(xí)能力受到制約,特征的開發(fā)和篩選也極為耗費(fèi)人力。包含多個(gè)隱藏層的深度學(xué)習(xí)模型則不一樣,根據(jù)機(jī)器學(xué)習(xí)泰斗、多倫多大學(xué)計(jì)算機(jī)系教授Geoffery Hinton的論文,它的優(yōu)勢(shì)更大:
在李成華看來(lái),相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)更懂用戶、更智能、更精準(zhǔn),更符合京東的業(yè)務(wù)需求。
目前深度學(xué)習(xí)推廣的條件已經(jīng)成熟。一方面,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)量的學(xué)習(xí)上性能較差,不符合大數(shù)據(jù)所需的時(shí)效性。另一方面,大數(shù)據(jù)的演進(jìn)催生了軟硬件系統(tǒng)的進(jìn)步,分布式架構(gòu)的產(chǎn)生,使得算法的性能已經(jīng)不是瓶頸,并行化框架和訓(xùn)練加速方法,讓深度學(xué)習(xí)的前景變得光明。同時(shí),大數(shù)據(jù)也會(huì)讓深度學(xué)習(xí)的效果越來(lái)越好。所以,從某種意義上說(shuō),深度學(xué)習(xí)是大數(shù)據(jù)的最佳拍檔。
根據(jù)業(yè)界報(bào)道,深度學(xué)習(xí)在幾個(gè)主要領(lǐng)域都獲得了突破性的進(jìn)展:
- 在語(yǔ)音識(shí)別領(lǐng)域,深度學(xué)習(xí)用深層模型替換聲學(xué)模型中的混合高斯模型(GMM),獲得了相對(duì)30%左右的錯(cuò)誤率降低;
- 在圖像識(shí)別領(lǐng)域,通過(guò)構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),將Top5錯(cuò)誤率由26%大幅降低至15%,又通過(guò)加大加深網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步降低到11%;
- 在自然語(yǔ)言處理領(lǐng)域,深度學(xué)習(xí)基本獲得了與其他方法水平相當(dāng)?shù)慕Y(jié)果,但可以免去繁瑣的特征提取步驟。
李成華表示,隨著深度學(xué)習(xí)的發(fā)展和成熟,80%的(傳統(tǒng))機(jī)器學(xué)習(xí)算法將會(huì)被取代。
京東研究深度學(xué)習(xí)的初衷
客服對(duì)電商發(fā)展的重要性毋庸置疑。京東雖然有近5000人的人工客服團(tuán)隊(duì),但應(yīng)付618或者雙十一大促仍然顯得捉襟見肘。2012年12月,京東開始籌劃成立JIMI智能客服團(tuán)隊(duì),通過(guò)一些機(jī)器算法模擬人的思維,達(dá)到客服跟用戶交流的效果。隨后深度學(xué)習(xí)技術(shù)的風(fēng)靡,加深了京東完善JIMI的想法。2014年9月9日,京東成立了京東深度神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(DNN Lab),旨在通過(guò)神經(jīng)網(wǎng)絡(luò)、知識(shí)層次、異構(gòu)計(jì)算等新興領(lǐng)域的研究和應(yīng)用來(lái)確保京東技術(shù)的領(lǐng)先性,提高JIMI的智能性及其應(yīng)用的廣泛性是實(shí)驗(yàn)室的首個(gè)直接目標(biāo)。
該實(shí)驗(yàn)室直接隸屬于京東副總裁馬松——馬松本人是電商及人工智能領(lǐng)域的資深專家,在美國(guó)日本做過(guò)多年的研究,并曾在eBay擔(dān)任要職。擔(dān)任首席科學(xué)家的李成華是加拿大約克大學(xué)的博士后、美國(guó)麻省理工大學(xué)的訪問(wèn)科學(xué)家,在神經(jīng)網(wǎng)絡(luò)領(lǐng)域有超過(guò)十年的研究基礎(chǔ)和行業(yè)經(jīng)驗(yàn)。團(tuán)隊(duì)課題負(fù)責(zé)人之一張曉鑫博士則畢業(yè)于清華大學(xué),曾任職于Google公司,在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域有深入的研究。另外,團(tuán)隊(duì)成員還有來(lái)自華為的劉丹和阿里的楊洋等行業(yè)專家。
深度學(xué)習(xí)技術(shù)固然有很大的應(yīng)用價(jià)值,但隨著IBM Watson、百度大腦等平臺(tái)的開放,這種能力的獲得并不困難,產(chǎn)品化的好壞才是直接影響客戶服務(wù)能力的因素。京東沒有采用戰(zhàn)略合作的方式,而是選擇在這個(gè)領(lǐng)域投入豪華的陣容自主研發(fā),這說(shuō)明,深度學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)已經(jīng)被電商企業(yè)視為核心競(jìng)爭(zhēng)力,立志做技術(shù)驅(qū)動(dòng)型企業(yè)的京東,必須自己掌握核心這些技術(shù),讓數(shù)據(jù)更好地服務(wù)于自己。
京東DNN Lab的研發(fā)方向
與Google、百度、騰訊在圖像和語(yǔ)音識(shí)別領(lǐng)域投入重金不同,京東DNN Lab目前更注重自然語(yǔ)言的處理。李成華強(qiáng)調(diào),京東深度學(xué)習(xí)算法目前用于破解傳統(tǒng)機(jī)器學(xué)習(xí)算法的瓶頸,提升JIMI在各個(gè)環(huán)節(jié)的性能、智能程度,從而提升用戶滿意度。基于這樣的目標(biāo),DNN Lab主要進(jìn)行如下4個(gè)方面的研發(fā):
由于人工智能和深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)相結(jié)合的研究和應(yīng)用都是在探索之中,DNN Lab還沒有詳細(xì)的長(zhǎng)期規(guī)劃。李成華表示,未來(lái)的6個(gè)月之內(nèi),DNN Lab的主要精力還是放在JIMI智能機(jī)器人的完善上——JIMI背后的用戶畫像、自然語(yǔ)言處理、各種自然問(wèn)答、命名實(shí)體抽取等,每一個(gè)技術(shù)點(diǎn)其實(shí)都是一個(gè)很大的課題。因此,他同時(shí)表示出對(duì)深度學(xué)習(xí)人才的渴求。
不過(guò),李成華也透露,京東對(duì)深度學(xué)習(xí)算法的主要預(yù)期,將在產(chǎn)品銷量預(yù)測(cè)、互聯(lián)網(wǎng)金融、智能硬件、商品搜索/推薦/廣告等方面。
DNN在京東的應(yīng)用
京東基于其人工客服和用戶交互產(chǎn)生的上億條數(shù)據(jù)對(duì)JIMI進(jìn)行訓(xùn)練,模擬每一個(gè)用戶場(chǎng)景。JIMI的應(yīng)用如前文所述,主要分為三類場(chǎng)景。它在2014年雙十一期間接待了近百萬(wàn)用戶,有效緩解了人工客服的壓力。
從實(shí)際效果來(lái)說(shuō), JIMI在一定程度上能夠讓不解內(nèi)情的用戶單從對(duì)話無(wú)法區(qū)分對(duì)方是智能機(jī)器人還是人工客服。不過(guò),京東以用戶滿意度提升、用戶體驗(yàn)的提升、用戶愿意使用、服務(wù)占比提高等指標(biāo)是來(lái)衡量其技術(shù)的好壞或者應(yīng)用的效果,在每個(gè)課題上,都有識(shí)別的準(zhǔn)確性、評(píng)判分類的準(zhǔn)確性的不同標(biāo)準(zhǔn)。在這些標(biāo)準(zhǔn)下,京東內(nèi)部對(duì)JIMI現(xiàn)階段的服務(wù)效果較為滿意。
從神經(jīng)網(wǎng)絡(luò)層級(jí)來(lái)說(shuō),李成華介紹,目前工業(yè)界用得最多的已經(jīng)到了十幾層甚至幾十層,京東目前能夠做到八九層,明年可以達(dá)到十幾層。
在對(duì)京東其他大數(shù)據(jù)應(yīng)用場(chǎng)景的支持,DNN Lab目前主要是根據(jù)項(xiàng)目合作的形式來(lái)做,兄弟部門的算法工程師加入項(xiàng)目,提供數(shù)據(jù)和業(yè)務(wù)需求,看看哪些點(diǎn)上能用到深度學(xué)習(xí),共同改進(jìn)業(yè)務(wù)。
李成華希望能夠做到深度學(xué)習(xí)的平民化,即研究一種深度學(xué)習(xí)算法的架構(gòu),把很多參數(shù)固定起來(lái),通過(guò)預(yù)處理,封裝成跟數(shù)據(jù)相關(guān)性很小的標(biāo)準(zhǔn)化的API或者云服務(wù),提供給京東內(nèi)部,讓他們很容易地應(yīng)用于各種數(shù)據(jù),最終還將會(huì)向京東產(chǎn)業(yè)鏈輸出。
DNN Lab階段性成果的經(jīng)驗(yàn)
京東DNN Lab正式成立至今不過(guò)短短的幾個(gè)月,JIMI智能機(jī)器人就已經(jīng)取得如此的成績(jī),確實(shí)有驕傲的資本。總結(jié)一下,京東的成功主要有以下的幾個(gè)原因:
當(dāng)然,這僅僅是京東在深度學(xué)習(xí)領(lǐng)域的初步應(yīng)用。當(dāng)被問(wèn)及DNN縱深研發(fā)的挑戰(zhàn),李成華表示,其中的一個(gè)方面是訓(xùn)練的時(shí)間會(huì)比較長(zhǎng),因?yàn)樗牡⒔徊妗⑸窠?jīng)元的連接時(shí)間比較長(zhǎng)。甚至如果參數(shù)調(diào)節(jié)不當(dāng),訓(xùn)練就沒有任何效果——隨著深度增加,參數(shù)調(diào)節(jié)需要很多的經(jīng)驗(yàn),然而這是一個(gè)新興領(lǐng)域。換句話說(shuō),人才的缺乏也是一大難題。未來(lái),我們期待有破解這兩個(gè)挑戰(zhàn)的分享。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的京东DNN Lab首席科学家:用深度学习搞定80%的客服工作的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 广告点击率预测 [离线部分]
- 下一篇: Learning to rank在淘宝的