CCAI 2017 | 德国DFKI科技总监Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化? 原2017.07.25AI科技大本营 文/CSDN大琦 7 月22 - 2
CCAI?2017?|?德國(guó)DFKI科技總監(jiān)Hans?Uszkoreit:如何用機(jī)器學(xué)習(xí)和知識(shí)圖譜來(lái)實(shí)現(xiàn)商業(yè)智能化?
原2017.07.25AI科技大本營(yíng)
文/CSDN大琦
7 月22 - 23 日,由中國(guó)人工智能學(xué)會(huì)、阿里巴巴集團(tuán)?&?螞蟻金服主辦,CSDN、中國(guó)科學(xué)院自動(dòng)化研究所承辦的第三屆中國(guó)人工智能大會(huì)(CCAI 2017)在杭州國(guó)際會(huì)議中心盛大開幕。
大會(huì)第二天,德國(guó)人工智能研究中心(DFKI)科技總監(jiān)、北京人工智能技術(shù)中心(AITC)總監(jiān)兼首席科學(xué)家Hans Uszkoreit發(fā)表了主題為《機(jī)器學(xué)習(xí)在商務(wù)智能中的創(chuàng)新應(yīng)用》的演講。
Hans Uszkoreit介紹了如何分析各種來(lái)源的數(shù)據(jù),用于執(zhí)行眾多的商務(wù)智能任務(wù),如供應(yīng)鏈監(jiān)控、市場(chǎng)調(diào)研和產(chǎn)品管理等。其所討論的方法包含了不同類型的機(jī)器學(xué)習(xí)和基于知識(shí)的自然語(yǔ)言理解技術(shù),充分利用知識(shí)圖譜和各種其他結(jié)構(gòu)化數(shù)據(jù)源,實(shí)現(xiàn)信息的互為補(bǔ)充。
以下是Hans Uszkoreit的演講全文,AI科技大本營(yíng)略做修改:
今天我將介紹目前人工智能的兩個(gè)主要方向,基于行為的學(xué)習(xí)和基于知識(shí)的學(xué)習(xí);另外我會(huì)講一下商業(yè)智能以及工業(yè)4.0、開放數(shù)據(jù)與企業(yè)數(shù)據(jù),以及開放的知識(shí)圖譜和企業(yè)知識(shí)圖譜;接著我會(huì)介紹文本分析的大數(shù)據(jù)方法、文本數(shù)據(jù)理解中的機(jī)器學(xué)習(xí)和結(jié)構(gòu)化知識(shí);最后我會(huì)講一下機(jī)器學(xué)習(xí)機(jī)器前景,這個(gè)大家已經(jīng)看到很多了。
兩種不同的系統(tǒng)
我們看到,有很多的新聞都在報(bào)道人工智能在深度學(xué)習(xí)上所取得的一些成功,這已經(jīng)聽說(shuō)過(guò)很多了。這些成果涉及人工智能各個(gè)方面,如語(yǔ)音、文本和自動(dòng)駕駛等,深度學(xué)習(xí)似乎正在改變我們的生活,確實(shí)也是如此。
但我們還有另外一種系統(tǒng),這就是IBM的Watson,它在一個(gè)美國(guó)很著名的綜藝節(jié)目里面獲勝了,他們沒(méi)有進(jìn)行任何深度學(xué)習(xí),它只是IBM系統(tǒng)的成功。Wason是另外一種系統(tǒng),它可以掌握大量的結(jié)構(gòu)化的知識(shí),將非結(jié)構(gòu)化知識(shí)當(dāng)作結(jié)構(gòu)化知識(shí)使用。
我們看到有兩種不同的系統(tǒng):在人工智能歷史上很多系統(tǒng)都是基于知識(shí)的系統(tǒng),有一種系統(tǒng)更多的是針對(duì)比較小群體的行為,比如說(shuō)使用基于規(guī)則的專家系統(tǒng)來(lái)檢查信用的,且已經(jīng)用了很多年了;還有一種系統(tǒng),在進(jìn)行機(jī)器學(xué)習(xí)之前做研究行為,我們見(jiàn)到的更多是經(jīng)典的反應(yīng)性機(jī)器學(xué)習(xí)。
后來(lái)在90年代的時(shí)候,機(jī)器學(xué)習(xí)崛起,并在2000年之后變得更加的成功,也有很多的分類還有方法,我們現(xiàn)在的話在兩側(cè)都有機(jī)器學(xué)習(xí)。比如像谷歌的機(jī)器翻譯,還有很多新的系統(tǒng)是用于自動(dòng)駕駛,另外還有語(yǔ)音理解。
所以說(shuō),像人工翻譯只能理解它能夠理解的東西,但是谷歌的某些機(jī)器翻譯是像鸚鵡學(xué)舌一樣進(jìn)行學(xué)習(xí),他們學(xué)習(xí)特定的行為。但是,它們對(duì)語(yǔ)言本身沒(méi)有任何理解,它們本身也沒(méi)有的固有知識(shí),有的只是隱性知識(shí)。因此它們無(wú)法理解中文或中文的屬性。
另外,我們還有一種是IBM的Watson和聊天機(jī)器人,它們需要控制大量的結(jié)構(gòu)化知識(shí),而且這些知識(shí)是動(dòng)態(tài)的,將這些知識(shí)放到深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)中并不是優(yōu)選的策略。DFKI也是這樣一種系統(tǒng)。
未來(lái)我們會(huì)開發(fā)出一些可以作預(yù)測(cè)的超人類人工智能,可以更好地結(jié)合兩者,這是我們接下來(lái)的重要一步。我剛才已經(jīng)說(shuō)過(guò)這些系統(tǒng)沒(méi)有真正的知識(shí),所以說(shuō)我們把它叫做“狹義人工智能”。比如,系統(tǒng)不能做些其他系統(tǒng)的任務(wù):能下圍棋的系統(tǒng)不能做翻譯,能翻譯的系統(tǒng)不能做駕駛,能駕駛的系統(tǒng)不能做翻譯。
機(jī)器可以模仿和學(xué)習(xí)人類的行為,比如說(shuō)學(xué)習(xí)世界頂級(jí)棋手的下棋方式;我們駕駛的系統(tǒng)可以從人的駕駛行為中學(xué)習(xí),并能避免發(fā)生事故;翻譯的機(jī)器人可以同時(shí)翻譯幾十種不同的語(yǔ)言,人是做不到這一點(diǎn)的。
但是機(jī)器還是無(wú)法模仿四歲兒童在一小時(shí)內(nèi)的行為。四歲兒童懂得的知識(shí)雖少,但他所有這些知識(shí)是可以重新再利用得,比如說(shuō)他可以從冰箱里取出東西或放回去東西,他也能夠回答關(guān)于冰箱的一些知識(shí)。目前我們的深度學(xué)習(xí)沒(méi)有這種可再利用的知識(shí)。
?
拿生活當(dāng)中的人類醫(yī)生來(lái)說(shuō),醫(yī)生在一生當(dāng)要不斷學(xué)習(xí)很多知識(shí),因?yàn)獒t(yī)學(xué)在不斷地進(jìn)步和變化。也許經(jīng)過(guò)一段時(shí)間的發(fā)展,醫(yī)生看到患者身上出現(xiàn)多種癥狀的組合或生命體征的組合,他們有時(shí)會(huì)對(duì)化驗(yàn)結(jié)果無(wú)法作出解釋。有很多人認(rèn)為中醫(yī)很神奇,他們可以根據(jù)病人癥狀作出診斷,有很多的醫(yī)生是有這種直覺(jué)的,這種直覺(jué)可以幫你找到答案。這些答案雖然有可能是正確的,但是醫(yī)生不能夠解釋疾病根源。
我們知道深度學(xué)習(xí)也是這樣,知識(shí)的應(yīng)用完全是由直覺(jué)而不是知識(shí)驅(qū)動(dòng)的。區(qū)別就是要解決知識(shí)上挑戰(zhàn)的問(wèn)題,人們需要理解。沒(méi)有理解的話我們不可能解決問(wèn)題,其實(shí)如果能理解,你可能就已經(jīng)找到問(wèn)題的解決方案。很多的問(wèn)題我們無(wú)法解決就是因?yàn)槲覀儾焕斫鈫?wèn)題,但是深度學(xué)習(xí)系統(tǒng)不同,它們沒(méi)有任何理解,完全依靠直覺(jué)解決問(wèn)題。
基于人工智能的商業(yè)分析應(yīng)用
接下來(lái)我要講的是應(yīng)用的部分:人工智能商業(yè)分析。大家當(dāng)中有很多人從事這個(gè)領(lǐng)域,以下是這方面的一些目標(biāo):
-
過(guò)程監(jiān)督,比如說(shuō)像生產(chǎn)、物流等;然后是偏差分析;
-
決策輔助措施選擇。大部分決策由人類的決策者作出,但是有一些決策時(shí)可以自動(dòng)生成;
-
為流程優(yōu)化提供方案。這不是由人類進(jìn)行的流程優(yōu)化;
-
預(yù)測(cè)性分析。用以協(xié)助作出預(yù)測(cè)和規(guī)劃,以及對(duì)半自動(dòng)控制的預(yù)測(cè)性分析。在生產(chǎn)方面不需要人就可以進(jìn)行優(yōu)化的情況很少,比如說(shuō)物流、機(jī)器部件的運(yùn)動(dòng),材料的高效利用等,如果要做長(zhǎng)期規(guī)劃的話,還是需要由人類完成。
但是,經(jīng)常會(huì)有人問(wèn)一個(gè)問(wèn)題:商業(yè)分析和工業(yè)4.0之間有什么區(qū)別?
大家可能在中國(guó)聽說(shuō)過(guò)工業(yè)4.0,現(xiàn)在非常流行,但是對(duì)這方面的討論也許并不深入。
在德國(guó)我們進(jìn)行了很多討論,因?yàn)檫@個(gè)詞就來(lái)自于德國(guó),其實(shí)是DFKI(德國(guó)人工智能研究所)的CEO也就是我的老板提出的。我是在柏林中心,我們的老板是負(fù)責(zé)5個(gè)中心。他找了兩個(gè)人,一個(gè)來(lái)自于行業(yè),一個(gè)來(lái)自政府,這個(gè)詞就是是他們想出,他們覺(jué)得這是第四次工業(yè)革命。第三次是計(jì)算機(jī)革命,而第四次工業(yè)革命就是通過(guò)物聯(lián)網(wǎng)把所有的機(jī)器緊密連接在一起。我們要?jiǎng)?chuàng)造的是完全數(shù)字化的企業(yè),不止是有互聯(lián),同時(shí)是完全數(shù)字化的工廠。我們等會(huì)兒來(lái)看看這兩個(gè)東西怎么樣進(jìn)行結(jié)合。
這邊有兩個(gè)詞是我經(jīng)常會(huì)提到的。
?
另外的話還有智能工廠,這是工業(yè)4.0的一個(gè)概念,里面包含了很多組成部分。在智能工廠里面,所有的設(shè)備、產(chǎn)品都是通過(guò)物聯(lián)網(wǎng)進(jìn)行連接。所有生產(chǎn)是通過(guò)產(chǎn)品記憶來(lái)進(jìn)行操作,產(chǎn)品在進(jìn)行周轉(zhuǎn)時(shí),機(jī)器會(huì)告訴它要做些什么。無(wú)需對(duì)機(jī)器進(jìn)行重新編程,機(jī)器通過(guò)產(chǎn)品學(xué)習(xí)。產(chǎn)品周轉(zhuǎn)到一個(gè)設(shè)備之后,機(jī)器會(huì)告訴設(shè)備要對(duì)它進(jìn)行什么操作,所有這些流程都是通過(guò)協(xié)作來(lái)完成的。比如說(shuō)一個(gè)產(chǎn)品來(lái)了之后可以等待一段時(shí)間,這是通過(guò)技術(shù)互聯(lián)來(lái)實(shí)現(xiàn)的。
另外我們還有智能移動(dòng)、智能物流、智能電網(wǎng)、智能建筑,所有這些結(jié)合在一起形成一個(gè)空間。實(shí)際上商業(yè)分析就是要收集智能工廠里的數(shù)據(jù)?,F(xiàn)在對(duì)商業(yè)分析最為重要的是把企業(yè)內(nèi)部和外部的數(shù)據(jù)結(jié)合起來(lái)。但是卻被大多數(shù)人忽視,因?yàn)楝F(xiàn)在人們主要關(guān)注的是怎么樣把企業(yè)本身進(jìn)行數(shù)字化,以及怎么把生產(chǎn)、規(guī)劃、物流等企業(yè)運(yùn)作流程數(shù)字化,利用算法來(lái)和數(shù)據(jù)流進(jìn)行管理。?
但是對(duì)公司來(lái)說(shuō),最為重要的是公司以外的東西,為什么是這樣呢??因?yàn)槌鲥X的客戶在公司外,供應(yīng)商也是,甚至工人下班之后也要回家,也是就是到了公司外部。另外政策制定者、稅務(wù)人員等都是在企業(yè)外部。所以智能的核心就是把這些內(nèi)部的信息和外部的信息結(jié)合在一起,先是把外部的數(shù)據(jù)和內(nèi)部的數(shù)據(jù)進(jìn)行對(duì)接。比如說(shuō)我們產(chǎn)品的一些功能不太受歡迎,我們就生產(chǎn)大量沒(méi)有改功能,這樣才能夠適合外部的需求,這樣的話就可以簡(jiǎn)化問(wèn)題。很多東西都是基于外部的,接下來(lái)我們來(lái)看下一點(diǎn)。
現(xiàn)在我們正利用人工智能化進(jìn)行企業(yè)內(nèi)外數(shù)據(jù)的連接,現(xiàn)在這兩類數(shù)據(jù)結(jié)合的還不是很好??傮w而言,社會(huì)完成數(shù)字化轉(zhuǎn)型也包含兩部分內(nèi)容。一部分是內(nèi)部的東西,比如說(shuō)網(wǎng)絡(luò)物理系統(tǒng)、物聯(lián)網(wǎng)、智能企業(yè),另外還有開放領(lǐng)域的東西,比如語(yǔ)義網(wǎng)絡(luò)、數(shù)據(jù)和知識(shí)社區(qū)。我們?cè)谄髽I(yè)內(nèi)部談?wù)摰氖菙?shù)據(jù)庫(kù)或數(shù)據(jù)中心,企業(yè)通常有很多關(guān)于消費(fèi)者產(chǎn)品、財(cái)務(wù)的數(shù)據(jù),在外面的話是完全不同的數(shù)據(jù)庫(kù),比如維基百科等。這些數(shù)據(jù)庫(kù)屬于不同的世界,現(xiàn)在還沒(méi)有結(jié)合在一起。
結(jié)構(gòu)化的知識(shí)
我想說(shuō)明一下圖中的“小泡”,也就是是開放數(shù)據(jù)連接“小泡”。我不知道你們有多少人從事這個(gè)領(lǐng)域,我之后可能會(huì)介紹。外部有很多東西,公司內(nèi)部也有一些其他的東西,我們都知道公共知識(shí)有很大的增長(zhǎng),我們利用它可以做很多事情。如果說(shuō)我們把整個(gè)維基百科中的東西都印刷出來(lái),就像印刷出版《百科全書》那樣,那會(huì)是多么龐大的工作。
公共知識(shí)為什么對(duì)我們來(lái)說(shuō)會(huì)如此重要?這些非結(jié)構(gòu)化的數(shù)據(jù)以文本形式儲(chǔ)存在圖書館,因?yàn)槭占磉@些數(shù)據(jù)是邁向數(shù)據(jù)結(jié)構(gòu)化的重要一步。另外我們還有知識(shí)圖譜,比如谷歌將最早的免費(fèi)知識(shí)圖譜進(jìn)行完善,然后免費(fèi)將其回饋給社會(huì),還有像Bing、百度等也在做這項(xiàng)工作,這跟建造工廠不是一回事。
如果說(shuō)現(xiàn)在隨機(jī)選擇一個(gè)美國(guó)的搜索引擎進(jìn)行搜索,我們會(huì)在搜索結(jié)果頁(yè)面的右側(cè)看到一些小框,它們并不來(lái)自于文件,左邊是來(lái)自于文件,是典型搜索引擎的搜索結(jié)果。在右邊我們看到的東西其實(shí)都是來(lái)自于知識(shí)圖譜的非結(jié)構(gòu)化知識(shí)。
現(xiàn)在有越來(lái)越多的團(tuán)體和企業(yè)想要來(lái)做這樣的一些知識(shí)圖譜,我這邊列出了一些。第一個(gè)Yago是在賽爾布魯肯,非常有名。第二個(gè)是DBpedia,他們?cè)跉W洲做開放數(shù)據(jù)庫(kù),他們努力將很多領(lǐng)域的知識(shí)集中在一起。我們也跟他們有合作。Freebase還在但是大不如前,它已成為wikidata的一部分。大家可能都知道wikidata,當(dāng)然也有些中國(guó)人并不知道,wikidata積極倡導(dǎo)將非結(jié)構(gòu)化知識(shí)轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),它在此類項(xiàng)目中是最大的。Wikidata基金位于柏林,我們和他們?cè)谙嚓P(guān)項(xiàng)目上有非常密切的合作。我在這里就不說(shuō)Google Knowledge Vault了,因?yàn)樗巡辉倌敲锤蓛袅?#xff0c;其中部分或大部分都是自動(dòng)收集的數(shù)據(jù)。
上面這張圖其實(shí)有好幾年的歷史了,為什么沒(méi)新的呢?這張照片的每一個(gè)小泡泡,都是一些基于數(shù)據(jù)的語(yǔ)意知識(shí)或者結(jié)構(gòu)式知識(shí)庫(kù),其實(shí)一些像是Web 3.0,一些更像是語(yǔ)意網(wǎng)絡(luò),還有一些更像是數(shù)據(jù)庫(kù)。但是其實(shí)它們?cè)谡Z(yǔ)意上面都是相互聯(lián)系的,形成相互聯(lián)系的開放數(shù)據(jù)。每個(gè)小泡上都至少有一種聯(lián)系將其與其他小泡連接在一起,在這么多泡泡當(dāng)中,你會(huì)看電影數(shù)據(jù)庫(kù)、名人信息數(shù)據(jù)庫(kù),化學(xué)元素?cái)?shù)據(jù)庫(kù)等等。為什么已經(jīng)過(guò)了好幾年我們還在用這張圖?因?yàn)楝F(xiàn)在這樣的一張圖沒(méi)有辦法再把其他這幾年新的內(nèi)容加進(jìn)去,這張圖已經(jīng)容納不下了。
我們把DBpedia的數(shù)據(jù)庫(kù)放在中心,因?yàn)樗麄冋谂⑵渌臄?shù)據(jù)庫(kù)連接起來(lái)。在我們自己的項(xiàng)目當(dāng)中,我們做了一個(gè)嘗試,希望能夠在工業(yè)應(yīng)用中將不同數(shù)據(jù)類型連接在一起,一些我們使用方法是和 DBpedia的方法相同,用以解決一些行業(yè)問(wèn)題。
從這邊我們可以看到,有一些比較特殊的一些數(shù)據(jù),這些數(shù)據(jù)你只能和大公司合作才能獲得,比如你在阿里、京東工作,或者是大型的物流企業(yè),電信企業(yè)的話。但是右手邊的數(shù)據(jù)就便宜的多,比如像氣象學(xué)數(shù)據(jù)、媒體新聞數(shù)據(jù)、地理數(shù)據(jù)和衛(wèi)星數(shù)據(jù)等,這些都非常容易獲得。但是圖最上方的是科學(xué)知識(shí)、知識(shí)社區(qū)(包括維基百科)、其他開放數(shù)據(jù)等,藍(lán)色方框中的是企業(yè)內(nèi)部的數(shù)據(jù)。如果將不同來(lái)源的數(shù)據(jù)整合在一起,就會(huì)帶來(lái)巨大的價(jià)值。
如果我們要為某一地區(qū)開發(fā)一個(gè)運(yùn)輸分析APP,我們可能會(huì)用到交通數(shù)據(jù)和開源知識(shí)社區(qū)數(shù)據(jù),后者會(huì)為你提供開放式街景圖、場(chǎng)所、產(chǎn)品類型、包裝等等一些信息。還有就是氣象學(xué)數(shù)據(jù),因?yàn)閷?duì)運(yùn)輸而言,氣象非常的重要。你還可以從物流公司獲取地理數(shù)據(jù)和衛(wèi)星數(shù)據(jù)。如果能夠垂直整合這些數(shù)據(jù)的話,你就能夠做出非常棒的產(chǎn)品。
為什么要重視非結(jié)構(gòu)化數(shù)據(jù)
接下來(lái)我想簡(jiǎn)單的介紹一下大家可能聽過(guò)的一些內(nèi)容,如果大家不熟悉的話我想再說(shuō)明一下為什么非結(jié)構(gòu)化的數(shù)據(jù)能夠扮演如此重要的角色。在商業(yè)分析的領(lǐng)域當(dāng)中,人們希望能夠借助時(shí)間序列、回歸等等聽起來(lái)很酷炫的機(jī)器學(xué)習(xí)辦法來(lái)分析問(wèn)題,這可能是一些銷售噱頭,但是這個(gè)不重要。
我想說(shuō)的是,為什么圖中會(huì)有這么多的上升和下降?企業(yè)使用諸如真實(shí)氣象數(shù)據(jù)這樣的數(shù)字?jǐn)?shù)據(jù),希望能找到更多的商業(yè)營(yíng)銷賣點(diǎn),可以賣冰激凌也可以賣雨傘。但是獲取再多這樣的數(shù)據(jù)也無(wú)法解釋一切事件。如果我們獲取更多的數(shù)據(jù),如新聞和推特?cái)?shù)據(jù),那么就能搞清為什么會(huì)出現(xiàn)某些高峰或低谷,并將它們與真實(shí)生活中發(fā)生的事件聯(lián)系在一起,比如說(shuō)是關(guān)于紐約新港港口和船只博覽會(huì)的新聞和推特?cái)?shù)據(jù)。
我們?cè)賮?lái)看一下醫(yī)療數(shù)據(jù),醫(yī)療數(shù)據(jù)現(xiàn)在大多是數(shù)字?jǐn)?shù)據(jù)和圖像數(shù)據(jù)。但是如果沒(méi)有醫(yī)生的報(bào)告將相關(guān)的事件、發(fā)現(xiàn)和假設(shè)提取出來(lái),這些數(shù)據(jù)就沒(méi)多大用處。因此只有將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)結(jié)合起來(lái),才能解決問(wèn)題。這就是我們以及Wikidata、DBpedia現(xiàn)在希望完成的工作,我們嘗試將信息提取出來(lái)并盡可能將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),將它們放在知識(shí)圖譜中。
如果我們看一下文獻(xiàn)信息提取,就會(huì)發(fā)現(xiàn)人們?cè)噲D涵蓋所有東西,比如說(shuō)從某些對(duì)話(如客戶關(guān)系管理)中提取主題和答案,再重復(fù)利用提取出的答案。我們還可以提取名稱、事實(shí)、事件、意見(jiàn)和情緒等?,F(xiàn)在我們有這樣一個(gè)項(xiàng)目,我們?cè)谠擁?xiàng)目和它的幾個(gè)子項(xiàng)目中與很多先鋒公司和大公司進(jìn)行了合作,如西門子、萊比錫大學(xué)等等。還有一些外部的合作伙伴,像WIKIMEDIA、Wikidata基金等等。我們也和提供商業(yè)數(shù)據(jù)的公司進(jìn)行了合作,如BBD柏林?jǐn)?shù)據(jù)中心、WVC德國(guó)和奧地利分公司。
下面介紹一下我們?cè)谶@個(gè)項(xiàng)目中所使用的方法:
-
將企業(yè)內(nèi)部數(shù)據(jù)與開放數(shù)據(jù)、開放知識(shí)和新媒體(比如新聞媒體、電視、社交媒體)內(nèi)容進(jìn)行整合;
-
將知識(shí)圖譜和開源辦法和工具連接起來(lái);
-
將數(shù)據(jù)分析整合到強(qiáng)大的大數(shù)據(jù)技術(shù)中;因?yàn)椴痪靡院髷?shù)據(jù)就會(huì)變得非常龐大,無(wú)法用常規(guī)的技術(shù)進(jìn)行處理。
-
結(jié)合使用結(jié)構(gòu)化方法、統(tǒng)計(jì)方法和深度學(xué)習(xí)分析異構(gòu)數(shù)據(jù);
-
為新型數(shù)據(jù)價(jià)值鏈構(gòu)建可行商業(yè)模型和法律框架。在歐洲幾乎一切成果都受嚴(yán)格的知識(shí)產(chǎn)權(quán)保護(hù),同時(shí)也受數(shù)據(jù)隱私和數(shù)據(jù)安全方面的權(quán)利保護(hù)。因此我們與律師們進(jìn)行合作,如果沒(méi)有他們,我們就無(wú)法在歐洲完成如此龐大的工作。
我們從互聯(lián)網(wǎng)上獲得數(shù)據(jù)包括非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及企業(yè)內(nèi)部數(shù)據(jù)。這張圖其實(shí)是很典型的知識(shí)圖譜,我們所做的就是要把不同來(lái)源的數(shù)據(jù)輸入到這個(gè)知識(shí)圖譜中,然后得出整合后的知識(shí)圖譜,將其擴(kuò)展為公共知識(shí)圖譜,這基本就是這個(gè)項(xiàng)目的原理。
這個(gè)圖就不贅述了。這是一個(gè)企業(yè)內(nèi)部語(yǔ)義網(wǎng),它定義了企業(yè)之間,企業(yè)與產(chǎn)品之間,產(chǎn)品和科技,科技和科技,企業(yè)內(nèi)部人與人之間關(guān)系。最后就會(huì)得到一張這樣的知識(shí)圖譜,現(xiàn)在應(yīng)用在供應(yīng)鏈關(guān)系和市場(chǎng)調(diào)研中。
我們還在其他領(lǐng)域應(yīng)用了相同的方法,但是從這個(gè)項(xiàng)目來(lái)看的話,更多是和應(yīng)用有關(guān)的,這個(gè)是另外一個(gè)項(xiàng)目了,我們?cè)谄渌?xiàng)目中也有相關(guān)應(yīng)用。我們使用的數(shù)據(jù)包括:交通數(shù)據(jù)、開源數(shù)據(jù)、媒體數(shù)據(jù)、采購(gòu)數(shù)據(jù)等等,可以利用得其他數(shù)據(jù)還有很多,這已經(jīng)足夠多了。
我之前也跟大家談到,這樣的發(fā)展是非常迅速,外部的數(shù)據(jù)越來(lái)越多,你要把所有的數(shù)據(jù)嵌入到大數(shù)據(jù),我所在的DFKI柏林中心的大數(shù)據(jù)部門的主任也成立了這樣的一個(gè)小組,專門做了一個(gè)大數(shù)據(jù)的平臺(tái)。我們可以使用其他的大數(shù)據(jù)平臺(tái),為什么要使用Apache Flink這個(gè)平臺(tái)?不僅是因?yàn)樗旧砭褪茿pache Flink的開發(fā)者,而且還因?yàn)檫@個(gè)平臺(tái)非常擅長(zhǎng)于數(shù)據(jù)流處理。相比之下,Spark在流處理時(shí)只是將數(shù)據(jù)分成一個(gè)小批次進(jìn)行處理,并不是真正的流處理。如果我們要進(jìn)行實(shí)時(shí)數(shù)據(jù)的流處理的話,它就不如Flink,這就是為什么我們最后選擇了Apache Flink。
我們將工具挖掘(mean crawling)外包給了一家公司,我們對(duì)語(yǔ)義工具進(jìn)行過(guò)濾,然后再進(jìn)行預(yù)處理、實(shí)體發(fā)掘和聯(lián)系以及事件提取,最后得出可以用在多個(gè)項(xiàng)目中的KPI。接下來(lái)我們?cè)僬務(wù)剬?shí)體聯(lián)系,這項(xiàng)工作極具挑戰(zhàn)性,這個(gè)系統(tǒng)是我們幾年前構(gòu)建的,并在2015年的時(shí)候獲得一個(gè)獎(jiǎng),我們這幾年一直在做改善該系統(tǒng),效果也不錯(cuò)。比如說(shuō)阿姆斯特朗這個(gè)名字,它可能是指搖滾樂(lè)手、宇航員等,我們將內(nèi)部知識(shí)和外部知識(shí)聯(lián)系起來(lái),識(shí)別出來(lái)誰(shuí)是你想查的那個(gè)人。微機(jī)百科也要使用,有的企業(yè)數(shù)據(jù)結(jié)構(gòu)化,對(duì)于這樣的信息我們也會(huì)整體在實(shí)體聯(lián)系的結(jié)果當(dāng)中。
方法論這塊待會(huì)兒再來(lái)談,這是一種混合優(yōu)化和深度學(xué)習(xí)的方法,多目標(biāo)優(yōu)化在處理聯(lián)系和歧義方面做的比深度學(xué)習(xí)好,在處理動(dòng)詞時(shí),我們則使用深度學(xué)習(xí)。在消除動(dòng)詞時(shí)態(tài)歧義時(shí),我們就使用的是深度學(xué)習(xí),因?yàn)椴](méi)有太多上下文可以依據(jù)。對(duì)于數(shù)值優(yōu)化,傳統(tǒng)的一些辦法效果更好,但是在這個(gè)情況下可能做不到那么好。
現(xiàn)在在動(dòng)詞時(shí)態(tài)消除歧義和實(shí)體聯(lián)系上,幾乎所有人都聲稱自己做的更好,但是從我們個(gè)人角度來(lái)說(shuō)我們從來(lái)不說(shuō)自己做的最好,我們?cè)谒鶎9サ念I(lǐng)域上做的的非常好,其中一個(gè)領(lǐng)域是:進(jìn)行關(guān)系提取以獲得事實(shí)。我們希望學(xué)習(xí)關(guān)于公司的事實(shí),比如說(shuō):哪一個(gè)供應(yīng)商有問(wèn)題,哪一個(gè)供應(yīng)商瀕臨破產(chǎn),哪一個(gè)供應(yīng)商出現(xiàn)了罷工問(wèn)題,以及哪家公司在發(fā)布新產(chǎn)品。在這方面,我們使用的是語(yǔ)言學(xué)最小限度遠(yuǎn)程監(jiān)督機(jī)器學(xué)習(xí)(Minimally and Distant Supervised ML for Linguistic)。
和其他人一樣,我們從語(yǔ)言處理監(jiān)督學(xué)習(xí)研究人員先前提出的事實(shí)開始著手,最早的是斯坦福大學(xué)研究人員發(fā)表的論文。我們?cè)趺醋龅?#xff1f;其實(shí)跟他們不太一樣,我等會(huì)在向你們說(shuō)明。我們獲取了數(shù)千個(gè)事實(shí),然后在谷歌搜索引擎上進(jìn)行搜索,在得出的搜索結(jié)果網(wǎng)頁(yè)中,把句子斷句之后確定句子的相依性,然后通過(guò)復(fù)雜的模式提取機(jī)制進(jìn)行提取,剛開始的時(shí)候這種機(jī)制并不理想,許多機(jī)構(gòu)在這里敗下來(lái),因?yàn)檫@種機(jī)制通常只能適用于短句、斷句的語(yǔ)意分析。我們使用了語(yǔ)義知識(shí)圖譜,例如Wordnet,用其中的資源進(jìn)行過(guò)濾以確保提取出的內(nèi)容具有語(yǔ)義上的模式。
舉一個(gè)例子,一個(gè)人跟另外一個(gè)人結(jié)婚,會(huì)有很多不同的模式,實(shí)際上有數(shù)千種不同的模式。為什么模式研究很重要?因?yàn)檫@些模式將我們與知識(shí)聯(lián)系在一起的,我們現(xiàn)在已經(jīng)把模式和語(yǔ)句進(jìn)行了匹配,最后我們會(huì)得到一個(gè)模式圖,其中橙色框中的內(nèi)容是給出了我們希望找出的關(guān)系,然后我們?cè)倩谶@么多的關(guān)系來(lái)進(jìn)行統(tǒng)計(jì)分析,例如頻率分析。?????
從上圖可以看出,我們整個(gè)處理流程是一個(gè)閉環(huán)。從實(shí)例開始,進(jìn)行最小限度監(jiān)督學(xué)習(xí),然后再輸入搜索出來(lái)的更多實(shí)例,尤其是當(dāng)你的實(shí)例達(dá)不到1萬(wàn)個(gè)時(shí),你可以進(jìn)行最小限度的監(jiān)督學(xué)習(xí)。當(dāng)你有了很多的實(shí)例之后,我們可以把實(shí)例不斷的加進(jìn)來(lái),現(xiàn)在我們的系統(tǒng)可以把監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、最小限度的監(jiān)督學(xué)習(xí)、遠(yuǎn)程監(jiān)督學(xué)習(xí)整合起來(lái)。
很簡(jiǎn)單,你只需將帶標(biāo)簽的陳述(tagged mentions)加到解析器(Parser)中,當(dāng)你把這樣的樣本加進(jìn)來(lái)之后,整個(gè)系統(tǒng)就會(huì)自動(dòng)跑起來(lái)。如果是有標(biāo)簽樣本,你可以能夠去跑3次這樣的循環(huán),因?yàn)槲覀冇幸粋€(gè)監(jiān)督式、非監(jiān)督、遠(yuǎn)程監(jiān)督的機(jī)器學(xué)習(xí)方法,可以做三次數(shù)據(jù)的分析。我們一開整合那么多的機(jī)器學(xué)習(xí)的方法,是因?yàn)橐婚_始的數(shù)據(jù)是有限的?,F(xiàn)在我們的系統(tǒng)在日以繼夜地運(yùn)轉(zhuǎn),過(guò)去6個(gè)月當(dāng)中我們也得到了很多不同的數(shù)據(jù),現(xiàn)在已經(jīng)涵蓋120萬(wàn)個(gè)企業(yè)的實(shí)體知識(shí)庫(kù),我們可以跟蹤他們的信號(hào),我們采集的只有收到語(yǔ)義信號(hào)的企業(yè)的數(shù)據(jù)。
當(dāng)然了從某些角度來(lái)看,這些數(shù)據(jù)并不是干凈、有序的,因?yàn)檫@是結(jié)構(gòu)和模式的混合式。但是在應(yīng)用中,我們需要對(duì)比各種方法。方法由很多:有限狀態(tài)的方法(finite-state methods),混合優(yōu)化,多對(duì)象優(yōu)化,卷積神經(jīng)網(wǎng)絡(luò)等等。
但是很遺憾的是,現(xiàn)在我們的目標(biāo)是將成果應(yīng)用到實(shí)際生活中,我們必須從每種方法中找到最適合我們數(shù)據(jù)的部分。有這么多方法,我們可以為深度學(xué)習(xí)領(lǐng)域或其他基于知識(shí)的英語(yǔ)中的從業(yè)人員提出很多不同的解決方案,從而實(shí)現(xiàn)早期應(yīng)用。
?我們?cè)谝恍╊I(lǐng)域已經(jīng)有一些應(yīng)用,比如說(shuō)AI輔助產(chǎn)品經(jīng)理,我們可以從全球的信息化企業(yè)搜索他們客戶在想些什么;我們還可以通過(guò)人工智能進(jìn)行供應(yīng)鏈的管理;進(jìn)行市場(chǎng)調(diào)研;輔助投資經(jīng)理進(jìn)行投資的管理。最后來(lái)看一下前景,我們有幾分鐘時(shí)間講講我們未來(lái)的前景,這就是我們的現(xiàn)實(shí)。我講的這些都是我們是能夠做到最好的,我不知道你們做的怎么樣,我們正盡全力試圖將成果應(yīng)用到我們的企業(yè)中。我們必須總和這些方法,因?yàn)槊恳环N方法都不夠完美,比如說(shuō)像機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。因此我們通過(guò)衡量每種方法挑選出當(dāng)前最好的方案,但是未來(lái)會(huì)怎樣?
上圖是DFKI的CEO做的圖,我前面有講過(guò)工業(yè)4.0就是他的想法,他同時(shí)也是一名人工智能研究人員。到1975年的時(shí)候,我們現(xiàn)在主要的是一些搜索、啟發(fā)式的搜索和認(rèn)知的一種方法,到1995年是基于知識(shí)的系統(tǒng),人們?cè)噲D研究知識(shí)工程學(xué)并構(gòu)建海量的知識(shí),這非常困難,而且當(dāng)時(shí)沒(méi)有足夠多的知識(shí)可以建立。
為什么太困難?有兩個(gè)原因,一個(gè)是因?yàn)樗麄円靶奶罅?#xff0c;他們想添加太多邏輯;當(dāng)時(shí)只有一個(gè)人想要建立這樣的知識(shí),現(xiàn)在我們的知識(shí)系統(tǒng)是由數(shù)百萬(wàn)人共同構(gòu)建,所以說(shuō)是非常不一樣的。到2015年的時(shí)候我們有了學(xué)習(xí)系統(tǒng),非常大,現(xiàn)在的話也很大。我寫的是到2015年不代表到這里就停止了,我認(rèn)為這個(gè)系統(tǒng)在中國(guó)發(fā)展的就非常迅速。
它的意思就是說(shuō),如果回溯50年或100年,當(dāng)時(shí)我們認(rèn)為下一個(gè)浪潮是系統(tǒng)整合,就是把各系統(tǒng)的功能整合在一起。我一開始的時(shí)候忘了講,其實(shí)新系統(tǒng)有核心上不一樣的東西。很多系統(tǒng)通過(guò)數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí),同時(shí)他們還需要一些時(shí)間運(yùn)行額外的數(shù)據(jù),它們或許不夠穩(wěn)定,或許是我們不知道怎么樣進(jìn)行選擇,它們也有可能太大、太活躍,可能還需要時(shí)間運(yùn)行額外數(shù)據(jù)。例如,對(duì)于導(dǎo)航的話,是需要獲得一些天氣、路況的信息,這是動(dòng)態(tài)的,沒(méi)有太多學(xué)習(xí)時(shí)間。如果說(shuō)我們要獲得最新新聞,了解股市的最新變化。上圖是新的系統(tǒng),重疊的部分就是我們所預(yù)測(cè)的真正變革,我認(rèn)為我們看到的只是真正變革的一個(gè)重要信號(hào),但是現(xiàn)在的話這個(gè)變革還沒(méi)有到來(lái)。
我們現(xiàn)在的系統(tǒng)只能做一些奪眼球的任務(wù),對(duì)我們而言圍棋似乎很重要,但對(duì)這個(gè)社會(huì)來(lái)說(shuō)還沒(méi)有那么重要。我們可以研究對(duì)象識(shí)別,開發(fā)許多好的應(yīng)用并利用這樣的能力幫助我們賺錢。但是在這個(gè)中心,我們會(huì)產(chǎn)生下一次革命,處理知識(shí)和數(shù)據(jù)的能力將實(shí)現(xiàn)飛躍。
IBM的系統(tǒng)由Wason和有兩個(gè)機(jī)器人組成,這三者都無(wú)法連接至網(wǎng)絡(luò),相當(dāng)公平。這兩個(gè)機(jī)器人就像我們的人一樣長(zhǎng)有腦袋,Wason利用大量機(jī)器 和存儲(chǔ)從維基百科、字典、圣經(jīng)、歷史書上面下載大量的信息,這就是未來(lái)。如果我們利用這種技術(shù)把行為學(xué)習(xí)和深度學(xué)習(xí)的力量結(jié)合起來(lái),機(jī)器不會(huì)和人類一樣蠢,在某些方面必定是超級(jí)智能的,而且我們的大腦、知識(shí)和語(yǔ)言是通過(guò)變革不斷進(jìn)化的,知識(shí)變革是后來(lái)興起的,如果能將知識(shí)變革和行為變革結(jié)合起來(lái),就可以構(gòu)建任何類型的革命性系統(tǒng)并快速?gòu)?fù)制這種行為,這種系統(tǒng)必定會(huì)非常強(qiáng)大。事實(shí)上人們已經(jīng)在進(jìn)行這項(xiàng)工作,并且不斷地在完善各種系統(tǒng),
人工智能會(huì)帶來(lái)什么?
AI的巨大潛力是在于:
-
可管理的語(yǔ)義技術(shù);
-
強(qiáng)大的學(xué)習(xí)技術(shù);
-
合適的表示媒介數(shù)學(xué)模型;我們不能低估它的能力,有些人認(rèn)為只需提供原始數(shù)據(jù)就可以了,其他的機(jī)器可以幫你做,但是如果不理解圖片、視頻、語(yǔ)言、語(yǔ)音和內(nèi)部結(jié)構(gòu),就不可能做出很好的系統(tǒng)。
-
高效的大數(shù)據(jù)管理技術(shù)。例如Spark、Flink等;
-
大量的有意義結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。如果綜合這些技術(shù),再加上我們的一些方法,我們就可以利用不同的策略將深度學(xué)習(xí)與大型知識(shí)庫(kù)結(jié)合起來(lái)。我相信未來(lái)會(huì)出現(xiàn)更加智能的機(jī)器。AI不能取代人類,人工智能無(wú)法完成策略規(guī)劃、創(chuàng)造性設(shè)計(jì),不會(huì)做研究,也不會(huì)做智能管理。但是人工智能夠讓有創(chuàng)意的人更加的強(qiáng)大。
最后我來(lái)概括一下我的預(yù)測(cè),到底人工智能會(huì)給我們帶來(lái)什么?
它能激活巨大的經(jīng)濟(jì)儲(chǔ)備,其他演講者已提及這一點(diǎn),當(dāng)前社會(huì)、產(chǎn)業(yè)、交通、醫(yī)療等領(lǐng)域中存在巨大的資源浪費(fèi)問(wèn)題。它能極大地增強(qiáng)人類認(rèn)知。我們現(xiàn)在只有兩只眼睛、兩只耳朵,我們的腦袋也很小,我們的大腦很難記住兩三本書的內(nèi)容,但是的機(jī)器是能夠輕易地記住數(shù)百萬(wàn)本書的內(nèi)容。另外的話我們也不知道其他地方在發(fā)生事情,機(jī)器可以告訴我們。它能解放異化勞動(dòng)。借助AI我們可以解放一些從事危險(xiǎn)、繁重工作的勞動(dòng)力,比如上周我在上海的演講中提及,社會(huì)要對(duì)未來(lái)的變化做好準(zhǔn)備,一些低級(jí)工作將會(huì)被終結(jié)。有些工作崗位上的勞動(dòng)者到了40歲,就開始希望早點(diǎn)退休,像這樣的工作就應(yīng)該消失。
未來(lái)其他類型的工作則會(huì)產(chǎn)生巨大的需求,這是另一個(gè)話題。因?yàn)楝F(xiàn)在社會(huì)上的許多工作是需要的是人而不是計(jì)算機(jī)。事實(shí)上我們?nèi)鄙俚牟⒉皇莿趧?dòng)力,而是專家,但是我們沒(méi)有足夠的資金來(lái)招募這些專家。它能完善服務(wù)和知識(shí)型社會(huì)。它能加速知識(shí)變革。它能使我們的生活變得更好、更安全。
總結(jié)
以上是生活随笔為你收集整理的CCAI 2017 | 德国DFKI科技总监Hans Uszkoreit:如何用机器学习和知识图谱来实现商业智能化? 原2017.07.25AI科技大本营 文/CSDN大琦 7 月22 - 2的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: http://www.imooc.com
- 下一篇: 如何用深度学习做自然语言处理?这里有份最