京东AI研究院何晓冬:将先进的技术和模型落地到产业
本文轉載自 Robin.ly 社區,Robin.ly 和 TalentSeer 的創始人 Alex Ren 采訪了京東AI研究院的常務副院長何曉冬博士,采訪中分享了AI,leadership以及AI落地的心得。
采訪視頻地址:https://youtu.be/jZPrB_5J7dA
下文是采訪的文字整理。
Alex:大家好,我是Alex Ren,是TalentSeer的創始人,也是BoomingStar Ventures的合伙人。Robin.ly平臺設置的初衷是為提高廣大研究人員和工程師對AI,對Leadership以及entrepreneurship的理解。今天有幸邀請到京東AI研究院的常務副院長,也是深度學習語言語音研究所的主任,何曉冬博士。何博士曾任微軟雷德蒙研究院主任研究員,并且擔任華盛頓大學兼職教授和博士生導師。在深度學習,自然語言處理,語音識別,計算機視覺等很多領域,建樹頗多。尤其對于AI,leadership以及AI落地很有心得,何博士會在這些方面進行分享。
Alex:何博士,你是今年年初加入京東?
何曉冬: 對,我在今年三月份正式加入京東。
Alex: 您讀博士時主要研究語音識別,后涉獵了深度學習,CaptionBot,再到Drawing bot,AttnGan,一直到最近在做的情感客服類工作,能否介紹下您的研究興趣?一路走來,AI從傳統方法到深度學習,您的研究路徑是什么?
何曉冬: 我做博士的時候是做語音識別。那個時候一般不談自己做AI,當然語音識別本身是AI的一個核心問題。 在清華畢業以后,去中國科學院讀碩士研究生的時候,我開始做語音識別。那時候還是用一些統計模型方法,比如像馬可夫模型,高斯模型。到美國以后,讀博士時就繼續了這個方向,用統計方向來做語音識別。語音識別其實是一個很多年的核心問題,大家都在推進展。博士畢業后,我加入微軟,進入微軟研究院。我也是從語音識別開始做起,希望語音識別能產生一些產業上的幫助,創造價值。語音試別以后,很自然地希望理解它。因為語音識別只是把聲學信號變成一連串的文字,但其實計算機并沒有真正理解這個話的意思,所以為了理解這個話的意思,我們自然要進入NLP,自然語言處理,包括語言理解。我在微軟研究院時候,最開始從機器翻譯入手,機器翻譯就是一個很核心的NLP問題。舉個例子,把中文翻成英文,看似很簡單,但是一代又一代科學家做了很多年。
Alex: 其實Geoffrey Hinton關于深度學習的研究,最早的應用主要在自然語言處理方面,而且也是在微軟研究院最先完成的,對吧?
何曉冬: 這也是個很有趣的故事。可能現在很多人覺得圖像識別很重要,但其實深度學習最開始在核心AI技術上的突破是從大規模的語音識別突破開始的。2008年的時候,我算是第一次認識Hinton。 那年鄧力和我,我們是同事,在NIPS會上舉辦了一個叫做“Speech and Language: Learning-Based Methods and Systems”的workshop。我們邀請了Hinton介紹他最新的工作,包括深度學習。2009年 NIPS,鄧力,俞棟,Hinton又舉辦了一個workshop。再后來微軟邀請了Hinton去訪問。同時開始招收實習生, 把項目做起來。大概在2010年左右,看到了深度學習在大規模的語音識別上產生了突破性的進展。
Alex:當時的很多工作還是比較前沿性的研究?后來開始大量應用是2012年嗎?
何曉冬: 2010年以后, 我們在微軟內部看到,深度學習已經在語音識別上取得了很多進展,認為這是一個很有前景的方向。也扭轉整個業界對深度學習,特別是對神經網絡的看法。在此之前大家都并不認為神經網絡是一個很吃香的方向。但是由于微軟及業界做出了成果,大家開始轉變了觀念。從那時候開始,在圖像,在自然語言處理方面都有了很多進展。2012年開始,業內以很快的速度實現了很多突破。
Alex: 能否介紹下CaptionBot?
何曉冬: 因為我一直在做語言,語音這一塊,包括像2012年開始,與Yoshua Bengio 合作,開始做自然語言理解,Spoken Language Understanding. 后來我們還提出了DSSM模型,也就是深度結構語意模型。 然后我們發現可以go beyond the language, 抓住深度學習的契機,把不管是語音語言,還是圖像,都可在同一個語義空間用feature vector來表示,叫作embedding feature vector。這樣就使得語言和圖像這種不搭界的兩個問題,可以統一在同一個embedding的空間里,一個語意空間里。再進一步擴展,如果能把圖像和文字,按照它們本身的意義和內容,放到同一個空間里去,就可以實現圖像和文字的互相轉化。所以后來我們在2013年底,提出了這個proposal到微軟的一個strategic intern program,開始準備做這個方向。但這不僅是我一個人的想法,也是因為數據差不多積累到合適的狀態。那時MSR剛好sponsor了一個名為MS COCO的dataset,對每一個圖片都有很多自然語言描述,使得我們的研究有了數據基礎。同時還有一些其他的進展,包括端到端的機器學習,包括sequential model,這些深度學習模型都出現了。正好是一個合適的時間點。所以我就把我從語言理解專業又擴到了多模態的領域,具體的說是image captioning領域,并跟同事們一起打造了CaptionBot。
Alex: 后來你又做了一些研究,比如Drawingbot,AttnGAN,能介紹一下什么是AttnGAN嗎?
何曉冬: GAN現在可能大家現在比較熟,就是Generative Adversarial Networks, 對抗性生成網絡,被應用于生成圖像。我們之所以做AttnGAN,是想做CaptionBot的反向,做一個closed loop。CaptionBot是從圖片生成它的文字描述。AttnGAN,是GAN的一個擴展,是從文字描述生成一個對應圖片。AttnGAN試圖引入一種像人一樣的attention的機制,使得我們在畫圖時,在畫每一個局部的細節時,能對應到文字里的每一個細節。AttnGAN是專門針對局部對局部的語意對照做的一個模型,讓畫的圖更加精細。基于AttnGAN算法我們開發的一個智能繪畫機器人就叫DrawingBot。
Alex:舉個例子,如果想畫我們Logo的這只鳥,應該如何描述?
何曉冬: 那你可對DrawingBot說,我想畫一只鳥,她的脖子是橘色的,肚子是白色的,羽翼是灰色的。Drawing bot 就會畫這么一只鳥。
Alex:目前已經有人開始利用技術進行創作了嗎?
何曉冬: 現在我們還在討論階段。其實在我來硅谷之前,清華美院舉辦了叫 Art and Design 3.0 Forum的論壇,我在論壇上做了一個小發言,就是展示了一些類似的例子。什么是想象力?我們以前認為只有人才有想象力,機器只有記憶。其實在某些層面上,機器是可以看到很多不同的角度,畫出一只全新的鳥。這個鳥可能在這個世界上從來沒有存在過,有不同的顏色。甚至我們有一個bug把一只鳥的嘴巴都畫成藍色,這肯定是不存在的。但這也可以看成機器的想象力,就像是小孩子一樣,可以想象出一些世界上沒出過的東西。本質上生成就是在一個空間內按某種分布采樣,想象力可看成在一個合理區間的邊緣采樣。
Alex: 目前京東把AI的技術運用到線上線下零售領域。這方面的側重點是什么?
何曉冬: 京東有一個很全的鏈條,包括廠家采購,到網站做display,交易,到售后服務,做收付款,包括送貨,及可能需要的退貨處理。京東的鏈條非常長。在每個環節,AI都可以有很重要的應用,或者促進。舉一個簡單的例子,比如售后服務。京東有一個智能客服機器人。如果用戶買東西有些問題,可以通過聊天來問這個機器人,為什么東西還沒到,為什么東西損壞了。chatbot 就是一個經典的AI應用。研究院成立以來,進一步促進了AI的應用,改進了智能客服。其中之一就是在智能客服加入了情感。以前我們的chatbot就事論事的回答用戶的問題。后來我們發現,當客戶來聯系客服的時候,往往帶有一些情緒,比如,不高興,生氣或者焦急。所以我們最近的一個工作就是,通過AI把情感智能加入到chatbot中,能夠檢測到用戶的情緒,同時交談時,也會相應的生成一些安撫性的語言,使用戶感受到被關心被關注,更加人性化,溫暖的交互使得用戶的滿意度提高了很多
Alex: 你本身完成了一個transition:從一個很有成就的AI研究人員,到領導京東的AI research。更多涉及AI商業化。你個人在從researcher 到 leader這個transition過程,遇到了什么挑戰?什么事情促使你做了這個轉變?
何曉冬: 轉變可能有兩個點。第一,從理論研究到實踐。我以前在微軟研究院,做研究更多一些。但是京東有這個機會,把AI 進行產業上的應用。比如,剛舉的客服的例子。一方面是機會,一方面是挑戰。怎么樣讓AI確實在產業層面產生大規模的impact,更加有影響力。這是挑戰也是轉變。意味著思考問題的出發點要進行調整。第二,如何進行多重協作。工程上有很多involvement,怎樣組織多個工程團隊共同工作,從而真正做到一個可大規模推廣,大規模應用的程度,而不僅僅局限在實驗室里。
Alex: 可以分享下帶領團隊方面的心得么?
何曉冬: 談不上太多心得。就是一些個人小小的分享。比如說一個團隊做事情,很多時候要給大家講得很清楚,給大家一個統一的vision。這個事情的意義在什么地方,每個人為什么做這個事情,要讓大家感到驕傲。明確purpose 同時feel proud of it. 讓每個成員知道你做的這個事情將會很有影響力的。不是無足輕重,而是說目前你所從事的工作,在產業上,在本質上,在thought leadership上都很領先的。像我們的情感客服是業界領先的大規模商用。小規模的可能有,但如此大規模的商用,京東應該是領先的。認識到這一點以后,每個工程師,每個團隊成員,就可以更統一起來。
Alex:你覺得中國AI研究的優勢在哪里呢?
何曉冬: 中國的優勢在于可以很快的放大思想的影響力。中國規模非常大,以京東為例,京東能夠服務超過3億的消費者,他們每天都會在京東這個平臺上進行大量的活動,所以算法和模型上的創新,可以很快被放大到整個平臺上去。同時,另一方面,用戶和算法模型之間的交互比如智能客服,會產生大量數據。這些數據可以刺激新的算法。這個交互循環會非常快,這是在中國做AI的一個優勢。
Alex:能說說3-5年內,你的個人目標是什么嗎?
何曉冬: 我個人希望看看AI能不能在典型的大規模產業化的基礎上,落地并產生影響。大家知道AI經過幾次寒冬,也經過幾次高潮。我個人對這次的高潮更加樂觀。因為AI要真正要落地才能對整個社會產生影響。這也是為什么像京東有那么長的鏈條,有那么多數據,是一個很好的落地機會。隨后三到五年,我希望把研究方面或者技術方面的一些先進的技術和模型,真正的帶到產業上進行落地。一方面驗證或者促進研究,另一方面是希望提高這個產業本身,并引領產業的一些變革。
Alex:深度學習快速發展了一段時間,已經出現了了很多framework和工具之類的,一些很多軟件工程師,或者算法工程師做這些方面的應用技術也更加容易,甚至一些高中生也可以調整參數。既然如此,我們是否還需要昂貴的AI researcher呢?
何曉冬: 會調參數的高中生相當寶貴,如果有,立馬把她找過來做我的實習生!從研究方面,我們對研究員提出的要求更高了,不是說把模塊,或者神經層,往那一疊,就變成了一個新模型。要在算法上真正有創新。希望研究員們的創新可以帶來更多深遠的影響。
Alex: 所以現在的工作更多的轉向了engineering,理解市場,理解需求?
何曉冬: 對。我現在越來越關注這個方向。同時研究還是希望能繼續保持,包括publication和參加學術會議,一方面知道最新的思想發展,另一方面也花一些精力看怎么樣有可能在產業上產生影響,在實際過程中產生影響。
Alex: 根據你的經歷,你看到深度學習技術本身,或者這個research,未來的研究方向有什么樣的變化?
何曉冬: 其實 深度學習帶來很多AI上的進步,但我們還有很多沒有理解的地方。舉個例子說,我們從感知,試別語音和圖像,進化到認知,做閱讀理解。實際上我們沒有真正理解,人是怎么理解文字的。這可能還需要從認知(cognition)的角度來看,才能更深的理解這個問題。另一方面,我們也不知道人的大腦到底是怎么工作的,我們說神經網絡,神經這個詞我們是從大腦借過來的,但是并不知道大腦真正怎么工作。
Alex:所以我們叫Artificial Intelligence嘛。
何曉冬: 所以那么現在可能是個機會,我們能不能真正理解大腦是的工作機制。如果能真正理解,會促進我們技術的提高。
Alex:其實更多的角度是從腦科學,或者cognitive science去借鑒一些方法?
何曉冬: 某些研究領域是這樣。但是產業方面,我倒認為,隨后看得見的10年之內,深度學習是一個主流的能夠推動AI前進的核心方向。這個問題很簡單,并不是說深度學習本身有什么magic,而是因為整個過去十年和隨后十年,一個很大的趨勢是計算力(computation power)在指數級別增長。數據,特別是無結構的文本,圖像,也在指數級增長。從這兩點,能take這兩個benefit的模型,算法和技術,也會有一個指數級增長的機會。所以深度學習就正好有整個特性,有足夠大的capacity,能夠用到那么大的計算力量,同時又能夠把這么多數據消化掉。從一個工程化,或者應用的角度看,這是深度學習的一個優勢。 從研究看,確實要懂,要理解是怎么回事,理解腦是怎么工作的,那是另外一個研究領域。
Alex: 感謝何博士對AI,深度學習整體的介紹,從introduce到語音識別,自然語言處理,到現在做的在零售領域應用AI,做到情感交互機器人互動等各個領域的介紹。也感謝你分享了個人職業生涯上,從researcher到leader的transition,包括他所做工作的不同transition。希望你在這方面能做出更多的成果,希望京東在AI落地上取得更多成果。
何曉冬: 非常感謝給我機會可以和大家進行交流。
查看原文鏈接:https://www.robinly.info/blog/no-3-xiaodong-he-robin-ly-ai-talk
總結
以上是生活随笔為你收集整理的京东AI研究院何晓冬:将先进的技术和模型落地到产业的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python IO编程-StringIO
- 下一篇: IO多路复用 select、poll、e