专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题...
德國人工智能研究中心科技總監Hans Uszkoreit博士認為:語言技術是人工智能的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。
在AI科技大本營微信公眾號(rgznai100)會話回復“語言”,打包下載Hans Uszkoreit大神被引用的TOP10論文。
記者 | 胡永波
7月22 - 23日,由中國人工智能學會、阿里巴巴集團&螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將在杭州國際會議中心盛大開幕。
會前,我們采訪到了大會Keynote嘉賓、德國人工智能研究中心科技總監Hans Uszkoreit博士。
Uszkoreit博士是中德兩國人工智能合作的核心人物,負責德國人工智能研究中心在中國的所有合作項目,今年3月,他剛被任命為在北京新成立的人工智能技術中心(AITC)總監兼首席科學家。在訪談中,Uszkoreit博士談到了人工智能在工業4.0和商業智能上的應用,以及中、美、歐在人工智能領域的差異。
對于他的老本行,Uszkoreit博士認為:
語言技術是人工智能的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。
他提到漢語在語義理解上的潛力。
說起不久前NLP領域的大論戰,Uszkoreit博士認為Yoav Goldberg敢于倡導正確科研行為的嚴格規則,是個英雄。
以下是訪談全文:
中國AI研究需要覆蓋所有領域
CSDN:最近,媒體常常拿中美兩國的AI行業和研究成果進行對比。對于中美、中歐在AI領域的差異,您有什么看法?以您的理解,哪一方能引領這一輪的人工智能革命?
HansUszkoreit:歐美的AI研究有著長期的廣泛基礎,但中國正以驚人的力量和熱情追趕上來。在某些研究領域,中國的研發速度可能比美國還快。然而,中國的AI研究只是集中在少數幾個熱門領域,可熱點和趨勢總是來了又去。下一代AI架構,將會用到具備大量認知任務和能力的、廣泛擅長于AI的系統。我希望中國的研究人員能有足夠的動力迅速來覆蓋所有的AI研究領域。
我個人所期待的人工智能突破,是多種感官信息輸入的交叉領域,以及AI在常識性知識與直覺的獲取。
歐洲在語義學技術、神經網絡與機器翻譯等領域的研發投入上往往準備充足,但研究成果在科學上的成熟與商業上的收獲更多發生在美國。其中的例外,是制造業領域的AI,它是歐洲、特別是德國的強項。而今中國在AI領域的下游應用研究與上游資金投入上同美國的大力競爭,則相當耐人尋味。前者是今天AI應用的關鍵,后者則有可能逆轉我們過去的AI創新流程。
CSDN:在深度學習近年來的進展上,有許多像李飛飛這樣的華人AI科學家和AI研究者,他們在其中做出了突出的貢獻。據我了解,您的許多研究伙伴也是華人,您能說說選擇他們的理由嗎?華人在AI研究領域有什么優勢呢?
HansUszkoreit:長期以來,我都非常喜歡跟中國的博士生或博士后研究員們一起工作。他們頭腦聰明、積極主動、精力充沛而又注重實效。一般說來,中國研究者的高中和大學基礎都非常扎實。我個人的體會是,中國和西方研究者的混合團隊,其合作效果出奇的好。我會在北京繼續推動這種跨文化的合作。我相當期待接下來同過往的親密同事和學生們的交流,他們現在大都在中科院、中國的大學和公司工作。
投資環境和早期市場是AI創業成功的保障
CSDN:前不久,您剛任職北京人工智能技術中心(AITC)總監兼首席科學家。您能跟我們介紹一下您這份新工作,以及這個新的研究機構嗎?
HansUszkoreit:AITC在今年3月份成立于北京的亦莊經濟技術開發區。它的使命,是把AI技術從研究成果轉化為工業應用。在德國,我們還沒有特別成功的商業化AI案例。有好多次,我參與創立的公司都是過早進入市場,好在歷經多年的掙扎,這些公司都活下來了。但更多的情況是,由于缺乏資金,我們只能眼睜睜看著美國的競爭對手取得成功。他們不光有著更好的投資環境,同時還擁有一個更大的早期市場。
在中國,我也同時注意到了這兩大因素的存在:一種友善的投資氛圍,加上一個需求龐大而前衛的B2B市場。在我的老東家DFKI(德國人工智能研究中心),我們同20多家工業股東進行過合作研究,還創立過超過80家衍生企業,在AI技術轉化方面的這些經驗都來之不易。
基于這樣的經歷,AITC有能力實現這樣的技術轉化及其研究機制,以及成功的商業化AI的最佳實踐,這讓我們同時也有能力來幫助這一領域的其他人。
CSDN:工業4.0和商業智能將成為主流的AI應用場景,但這兩大領域的不同之處在哪里?對于AI在此所取得的突出成績,有沒有什么具體的實例?
HansUszkoreit:第四次工業革命是由工業界所有的部門、設備、人員之間完全的數字化連接所觸發的,工業4.0是一個針對于此的廣泛說法。這種完全的數字化連接是由物聯網來實現的,其中還包括機器、產品、車輛和建筑之間的連接。
商業智能適用于所有的公司,不只針對制造業。它的基礎是組織內部有關從戰略決策到日常運作的所有決策過程的數據。這些數據大多來自公司內部,但很多重要的信號來自于外部的消費者、投資者、政策制定者、供應商和承包商,以及員工們的生活領域。對所有這些數據的分析,有助于做出更好的決策,甚至優化并調整決策的過程。
對于制造業來說,商業智能是工業4.0的一部分。今天我們所能看到的,只是商業智能與工業4.0的第一步。這里的數據通常是需要去主動獲取與整合的。對于數據解釋,特別是針對非結構化的數據,AI將扮演一個重要角色,并從數據中不斷學習。物流與供應鏈領域的控制、優化以及預測管理,就是這方面AI應用的具體實例。
語言技術是AI的核心
CSDN:您是語言技術頂級專家。就語言技術來說,它在AI中的角色是怎樣的?前景如何?對于自然語言處理,它是否也存在一個突破性的時刻,正如深度學習之于圖像識別、語音識別那樣?
HansUszkoreit:語言是知識的鑰匙,而知識正是AI的終極目標。人類社會的知識,正是通過語言來代代相傳的。僅靠觀察他人,人類是無法獲取到廣泛的可復用知識的。對于下一代智能系統所需的知識,人工智能必須能同時進行“閱讀”和“聆聽”才能獲取到。而此等程度的機器學習,其關鍵技術正是NLP。NLP還是實現人與AI之間成功溝通的技術關鍵。所以說,語言技術是AI的核心部分,并將在很大程度上同知識技術相結合。
CSDN:您怎么看當前的消費級語言技術?特別是當下大熱的智能語音助手,比如亞馬遜的Echo、蘋果的HomePod等?
HansUszkoreit:這些智能助理正在成為我們日常生活的一部分。我自己也每天都在使用。它們還遠未完美,但能被快速改進,因為其前衛的用戶每天都在提供大量的免費數據給它們。
漢語在語義理解上有一定潛力
CSDN:對于不同的語言,其語言處理技術有何差異?比如說,漢語和英語。
HansUszkoreit:不同的語言差異確實很大。盡管作為口語,漢語和英語都能在同樣的時間內被小孩學會。但細節上,漢語沒有詞法,句法也相當簡單。二者作為書面語,絕無可能在同樣的時間內被人學會。事實上,漢語的復雜性絕無僅有。這對NLP來說更為棘手:漢語詞匯甚至都沒有起始標識。除了語言本身所固有的復雜性,漢語更難于用電腦處理的原因還有另外一個:NLP一直是被以英格蘭為中心的研究所主導。
但如果NLP未來的研究方法和算法在處理漢語和其他東亞語言時的效果能超過英語,我也不會特別意外。這有一個先決條件,即找到語義理解上的改進辦法,畢竟句法在漢語中的重要性要遠小于西方語言。
CSDN:上個月,Yann LeCun對陣Yoav Goldberg的那場NLP大爭論十分引人注目。您如何看待這場爭論,特別是深度學習和NLP的關系?您支持哪一邊的說法?為什么?
HansUszkoreit:我認為這場爭論被誤讀了,它不是一場NLP領域的深度學習倡導者與懷疑論者之間爭執,它不是那樣開始的。Yoav Goldberg不是反對深度學習,他也不是反對深度學習在NLP領域的應用。相反,Yoav大力推動了深度學習在NLP領域的應用。
Yoav Goldberg只是對那篇自然語言生成(NLG)領域的標題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav的說法并沒有錯:那篇標題黨論文對于NLG領域的研究進展毫無意義,它未能解決NLG領域所公認的任何問題。
而Yann LeCun和Fernande Pereira認為他們應該站在論文作者一邊的原因,是確實有很多的NLP研究者極端懷疑深度學習在語言分析和生成上的作用。LeCun和Pereira把這種懷疑主義視為過時的研究范式反抗深度學習大法的無力嘗試。保守派對陣革新派,這是科學革命中的古老游戲。但這絕非是Goldberg此次爭論的目的。
我個人的看法是
當前的深度學習方法還不足以解決NLP領域的核心問題。但它們已經改善并實現了NLP技術的很多應用。深度學習此處的不足,并不在于當前所用的各種人工神經網絡及其各自的學習算法,而在于我們還沒有正確類型與足夠數量的語言類標注數據。
人類語言和人腦共同進化的方式,是語言能被用來表達信息和知識的同時,還能讓兒童用很短的時間就能學會。語言的這種可習得性與基本知識概念的可習得性緊密相連。沒有語言就無法學到概念,不與概念想結合也無法學到語言。
如果我們可以找出一個能同時教會人工智能語言和概念的方法,問題就解決了。這里的第一步就是基于人工神經網絡的可復用知識的機器學習。
在這樣的技術變革形勢下,Goldberg只是在倡導正確的科研行為的嚴格規則。但我們都清楚,面對這樣的環境,慣常的行為標準并不總是適用。在社會變革中,有勇氣在正確的時刻說話的人,往往都是我們歷史上的英雄。
給年輕從業者的三條建議
CSDN:在您的人工智能生涯中,最寶貴的經驗是什么?對于新一代的AI從業者,您有哪些建議?
HansUszkoreit:我有三條小建議。
擴展視野:多去國外看看,或至少能在跨國企業工作一段時間。我在美國待了將近十年,并領導過多個國際項目。我一直都是一個國際博士生項目的共同負責人,我還主持過一個國際研究生項目。我在國際項目、暑期學校與會議中的經歷,極大地豐富了我的專業能力和個人生活。
愛上數據,盡量為你所愛的數據工作:它可能屬于商業統計、圖片、音頻、視頻或文本,所有這些數據都有它們各自獨特、豐富且有意義的內在結構。盡量弄懂這里的結構,盡量靠自己來解釋數據。一定要堅持做高質量的錯誤分析,甚至要自己去讀這些錯誤數據。盡量把算法的特性和數據的特性聯系起來去看。
盡量去接觸自身領域之外的研究:至少,要能不時地去考量你的子領域同相鄰領域的關系、你的數據同其他類型數據的關系、你的方法同其他方法間的關系。不要因為你不理解就放過同其他領域專家進行交流的機會,敦促他們用最簡單的方式來解釋他們的問題和解決方案,同時嘗試以同樣的方式來解釋你自己的研究工作。多了解人類的認知機制,即便機器智能的機制是一種完全不同的方式。
CCAI演講亮點
CSDN:您在CCAI演講主題是“結合機器學習和知識解釋的商務智能應用”,但相對于上一代基于規則的人工智能,機器學習和深度學習近年來突飛猛進、碩果累累,那么,我們為什么還需要這種基于規則的知識工程?
HansUszkoreit:當前,深度學習主要用來獲取某種形式的“智能”行為。對于給定的輸入,系統能夠習得人類的方法并做出反應。這些系統還沒有外在的可復用知識,但能夠獲取到一些內在知識。只是這樣的知識通常無法被復用于其他任務。我并不支持人工智能像30年前所嘗試的那樣來使用知識工程,但我堅信人工智能終將找出辦法來使用人類已有的海量的外在知識(如維基百科或結構化的DBpedia等),并且它很快就能自動獲取更多的外在知識。
與其討論深度學習與深層知識間的競爭關系,我更愿意去思考這兩大技術有效結合起來的前景:只要機器能夠從人類身上學習,它就有可能學會數以百萬計的人的知識。
CSDN:您對本屆CCAI大會有何期待?您最想聽的演講時哪一場?
HansUszkoreit:中國有很多我還不知道的AI研究團隊和研究中心,對于他們的研究成果與應用創新,我特別期待。對于中國公司所能貢獻的AI成果,我相當好奇。
總結
以上是生活随笔為你收集整理的专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我的webpack学习笔记(二)
- 下一篇: 第1章列表处理——1.1 Lisp列表