Jumping NLP Curves: A review of NLP research (翻译)
最近翻閱了NLP的論文,發現了一篇高被引,特此翻譯,以供參考(從文章第2部分開始)
論文原文下載地址:鏈接: https://pan.baidu.com/s/1e9b6StWSr7eIkPhvz2xuHA ?密碼: fo1t
第2章
自20世紀50年代開始,NLP研究一直專注于機器翻譯[1]、信息檢索、文本摘要、問題回答、信息提取、主題建模[2]和意見挖掘等任務。大多數NLP研究在早期集中在語法上,部分是因為很明顯需要語法來處理,另一部分原因通過對語法驅動[3]處理思想隱藏或顯式的支持[c1]?。
雖然NLP的語義[4]問題和需求從一開始就已經很清楚,但研究人員采用的策略是首先解決語法問題,以便更直接地應用機器學習技術。然而,也有一些研究人員專注于語義,因為他們認為語義驅動[5]的處理是一種更好的方法,因為他們認為語義驅動的處理是一個真正具有挑戰性的問題。例如,Masterman和Ceccato團隊利用語義范疇和語義案例[c2]?框架[6]開發語義模式匹配,尤其是在Ceccato的著作(Ceccato,1967)中,世界知識被用來擴展語言語義,并將語義網絡作為知識表示的一種手段。后來的工作認識到在解釋和響應語言輸入時需要外部知識(Minsky,1968),并明確強調了語義以通用語義的形式進行表示和語義驅動的處理(Schank,1975[c3]?)。
自那時以來最流行的表示策略之一是一階邏輯[7](FOL),一種由公理和推理規則組成的演繹系統,可用于形式化關系豐富的謂詞和量化(Barwise,1977)。一階邏輯FOL支持句法、語義,并在在一定程度上支持語用[8]表達。語法[c4]?指定符號組的排列方式,以使符號組[c5]?被認為是正確的。語義指定格式良好的表達式應該是什么意思。語用學則規定了如何利用上下文信息在不同語義之間提供更好的相關性,這對于詞義消歧等任務至關重要。[c6]?然而,眾所周知,邏輯存在單調性問題[c7]?。隨著信息被添加到知識庫中,所包含的句子集只會增加,但這就有可能違反人類推理的一種共同屬性-思想改變的自由和靈活。解決方案,如默認和線性邏輯,有助于解決這些問題的一部分。默認邏輯[9]由Raymond Reiter提出,用于形式化默認假設,例如“所有的鳥都飛”(Reiter,1980)。一般默認這種邏輯在大多數情況下是正確的,但對于這些“一般規律”的之外的情況而言,這些假設就是錯誤的,例如“企鵝不會飛”。
另一個流行的描述自然語言的模型是生產規律[10](Chomsky,1956)。生產規則系統保持對正在進行的記憶斷言的工作記憶。這種工作記憶是不穩定的,反過來又保留了一套生產規則。一種生產規則,包括一組先決條件和一組后續動作。(例如if < conditions > Then <actions>)生產規則系統的基本操作包括三個步驟的循環(“識別”、“解決沖突”和“動作”),這些步驟重復執行,直到不再有規則適用于工作記憶。“識別”可以鑒別當前工作記憶滿足其先前條件的規律。識別的規則集也稱為沖突集。“解決沖突”步驟查看沖突集并選擇一組合適的規則來執行。步驟‘act’只是執行動作和更新工作記憶。生產規律是模塊化的,允許添加和刪除規則,每個規則都獨立于其他規則。生產規則系統有一個簡單的控制結構,這種規則也容易被人類理解。這是因為規則通常來自于對專家行為或專家知識的觀察,因此編碼規則的術語往往與人類的理解產生共鳴。但是,當生產規則系統變得更大時,存在可伸縮性問題;需要大量維護才能維護一個具有數千條規則的系統。
著名的NLP模型的另一個實例是本體Web語言(OWL)(McGuinness&Van Harmelen,2004),這是一種基于XML的詞匯表,它擴展了資源描述框架(RDF),以便為本體表示提供更全面的集合,例如類的定義、類之間的關系、類的屬性以及類之間關系及其屬性的約束。RDF支持對資源進行斷言的主謂對象模型。基于RDF的推理引擎已經被開發用來檢查語義一致性,這也有助于改進本體分類。通常,OWL需要嚴格定義靜態結構,因此不適合表示包含主觀置信度[subjective degree of confidence]的知識。相反,它更適合表示聲明性知識[declarative]。此外,OWL的另一個問題是它不支持容易地表示臨時依賴型知識[temporal-dependent]。
網絡是另一種眾所周知的做NLP的方式。例如,貝葉斯網絡(PEELL,1985)(也稱為信念網絡)提供了一種在許多相關假設上表示聯合概率分布的方法。所有變量都用有向無圈圖[directed acyclic graph](DAG)表示。弧是兩個變量之間的因果聯系,前者的真實直接影響后者的真實。貝葉斯網絡能夠表示主觀置信度。表示法明確地探討了先驗知識[prior knowledge]的作用,并將事件發生的可能性的證據組合在一起。為了計算貝葉斯網絡的聯合分布,需要知道每個變量P的概率Pr(P|parents(P)),很難確定每個變量P在貝葉斯網絡中的概率。[c8]?因此,對于大規模信息處理問題,也很難對統計表進行改進和維護.貝葉斯網絡的表達能力也是有限的,這與命題邏輯[proposition logic]的表現力是等價的。因此,語義網絡在NLP研究中的應用越來越多[c9]?。
語義網絡(Sowa,1987)是一種圖形記號[graphic notation],用于表示互聯節點和弧的模式中的知識。定義網絡[definitional network]關注的是一個概念和一個新定義的子類型之間的IsA(交互式自助分析)關系。這種結構的結果稱為泛化,它反過來支持繼承規則,以便將為超級類型定義的屬性復制到其所有子類型。定義網絡中的信息通常被認為是真實的。另一種語義網絡是斷言網絡[Assertion network],它是為了斷言命題,它所包含的信息被認為是依情況真實[contingent truth]的。依情況的真實不是通過應用缺省邏輯來達到的,而是更多地建立在人類運用常識的基礎上。這一命題也有充分的理由說明理由,例如,“石頭是溫暖的”,充分的理由是“太陽照耀在石頭上”和“太陽照耀的東西都是溫暖的”。
語義網絡的思想在二十世紀六十年代由Simmons(Simmons,1963)和Quilllian (Quillan,1963)開啟,并在20世紀80年代后期由Marvin Minsky在他的思想理論(Minsky,1986)中進一步發展起來,根據該理論,人類智力的魔力源于我們巨大的多樣性,而不是來自任何單一的完美的原則。Minsky理論認為,思想mind是由許多小部分組成的,他稱之為“Agent代理”,每個代理Agent都是無思想的,但在一起工作時能夠發揮真正的智力。這些Agent組或“Agents”負責執行某種類型的功能,例如記住、比較、概括、示范、類推、簡化、預測等。Minsky的人類認知理論特別受到人工智能(AI)社區的極大熱情的歡迎,并催生了許多嘗試建立用于NLP任務的常識知識庫的嘗試。最具代表性的項目是:(a) Cyc (Lenat&Guha,1989),Doug Lenat’s基于邏輯的常識知識庫;(b)WordNet(Fellbaum,1998),ChristianeFellbaum"一詞的通用數據庫;(c)Thought-Treasure(Mueller,1998),Erik Mueller"的故事理解系統;(d) the Open Mind Common Sense project (Singh,2002),第二代通用意義數據庫。最后一個項目是由于知識以自然語言(而不是基于正式邏輯結構)來表示的,而信息不是由專家工程師手工制作的,而是由在線志愿者自發地插入的。今天,由Open Mind Common Sense project收集的常識正在被開發用于許多不同的NLP任務,例如文本影響檢測(H.Liu,Lieberman,&Selker,2003),休閑對話理解(Eagle,Singh,&pentland,2003),意見挖掘(Camya&Hussain,2012),故事講述(Hayden等,2013),以及更多。
第3章 重疊NLP曲線
隨著互聯網時代的到來,文明經歷了深刻而迅速的變化,這是我們今天比以往任何時候都要經歷的。即使是那些正在適應、成長和創新的技術,也有一種觸目驚心的感覺,即過時就在眼前。特別是nlp的研究,在過去的15年中并沒有像其他技術那樣以相同的速度發展。
雖然NLP研究在產生人工智能行為方面取得了很大進展,例如谷歌、IBM的沃森和蘋果的Siri,但這些都沒有NLP框架實際上理解它們在做什么。這使它們與一只學習重復單詞的鸚鵡并沒有什么不同,因為它并沒有清楚地理解它在說什么。今天,即使是最流行的NLP技術也將文本分析看作是一項單詞或模式匹配任務。然而,試圖通過文字層面的處理來確定一篇文章的意義,與試圖通過像素級的分析來理解一幅圖片并沒有什么不同。[c10]?
在一個用戶生成內容(UGC)被自己的輸出淹沒的網絡中,nlp研究人員面臨著同樣的挑戰:他們需要跳過曲線(Imparato&Harari,1996),以便在他們的思維中實現重大的、不連續的飛躍,無論是關于信息檢索、聚合還是處理。到目前為止,依賴于任意關鍵字、標點符號和單詞共現頻率已經相當有效,但是UGCs的爆發和欺騙現象的爆發,例如網頁瀏覽和意見垃圾郵件,使得標準的nlp算法的效率越來越低。為了正確提取和操作文本意義,nlp系統必須能夠獲取大量關于世界和語篇領域[domain of discourse]的知識。
為此,nlp系統將逐漸停止過度依賴基于文字的技術,同時開始更一致地利用語義,因此,從語法曲線到語義曲線(圖1)實現了飛躍。由于乍一看,語言結構中最基本的單位似乎是單詞,所以nlp的研究與詞匯水平的研究是交織在一起的。然而,單個單詞表達只是概念的子集,包含特定語義和意義的多詞表達(Cambria&Hussain,2012),即通常與現實世界的對象、行為、事件和人相關的指示性和內涵性信息。特別是,參議員們指定了與這種現實世界實體相關的情感信息,這是常識推理和決策的關鍵。
?
語義學和感官包括常識知識(人類通常在其生命形成的歲月中獲得的知識)和在機器可重用的知識庫中積累的共同知識(人們在日常生活中繼續積累這些知識)。常識包括對世界的一般認識,例如,椅子是一種家具,而常識知識則包括人們通常知道的、但在話語中通常不被提及的顯而易見或被廣泛接受的事物,例如,事物向下(而不是向上)下降,人們高興時微笑。常識知識和常識知識之間的區別可以表示為知道對象的名稱和理解同一對象的目的之間的區別。例如,您可以知道“管道”的所有不同種類或品牌的名稱,但不知道其用途或使用方法。換句話說,除非可以使用,否則“管道”不是管道(Magritte,1929)(圖2)
??????? 正是通過共用和常識的結合,我們才能掌握高、低級概念[c11]?以及自然語言理解中的細微差別,從而有效地與其他人交流,而不必不斷地要求定義和解釋。常識是正確地根據不同的語境將自然語言文本分解成情感的關鍵,例如,把“小房間”這個概念評價為對酒店的評論來說是負面的,對郵局來說“小隊列”是積極的,或者“去讀書”這個概念對于書評來說是積極的,對于電影評論則是否定的。
??????? 然而,語義只是將NLP和自然語言理解分開的一個層次。為了實現準確和明智地處理信息的能力,計算模型還需要能夠及時地投射語義和感官,根據不同的背景和不同的行為者及其他們的意圖,以并行[c12]?和動態的方式對它們進行比較(Howard&Cambria,2013年)。這將意味著從語義曲線跳到語用曲線,這將使NLP更具有適應性,因此,開放域、上下文感知和意圖驅動,特別是意向將是情緒分析[c13]?等任務的關鍵,一個通常具有消極含義的概念,例如,小座位,如果意圖是讓嬰兒安全地坐在其中,則可能是積極的。句法曲線的范式是字袋模型[bags of word](zellig,1954),語義曲線的特征是概念包模型[bags of concept] (Cambria&Hussain,2012),語用曲線的范式將是敘事袋模型[bags of narrative]。在最后一個模型中,每一段文本都將由微小故事[mini-story]或相互關聯的部分來表示,從而導致更詳細的文本理解和合理的計算。雖然概念包模型有助于克服諸如詞義消歧和語義角色標注等問題,但敘事包模型將有助于解決諸如共同引用的解決方法[co-reference resolution]和文本隱含[textual entailment]等NLP問題。
第4章 論句法曲線
??????? 今天,以語法為中心的NLP仍然是管理信息檢索和提取、自動分類、主題建模等任務的最流行方法。盡管語義學愛好者多年來一直在爭論從句法轉向語義的重要性和必然性,但目前絕大多數NLP研究者仍試圖在句法曲線上保持平衡。以語法為中心的NLP可以大致分為三大類:關鍵詞識別、詞匯關聯和統計方法。
4.1 關鍵詞識別
??????? 關鍵字識別是最天真的方法,也可能是最受歡迎的,因為它的可達性和經濟性。文本根據是否存在相當明確的詞語而被分類。受歡迎的項目包括:(A) Ortony的情感詞匯(Ortony,Clore,&Collins,1988),將單詞分為情感類;(B) Penn Treebank(Marcus,Santorini,&Marcinkiewicz,1994),這是一個由450萬多個美國英語單詞組成的語料庫,為詞性(POS)信息附加注釋;(C) Page Rank (Page,Brin,Motwani,&Winograd,1999年),Google的著名排序算法;(D) Lex Rank (Gnes&Radev,2004),一種基于隨機圖的方法,用于計算NLP文本單元的相對重要性;最后,(E) Tex tRank (Mihalcea&Tarau,2004),一種基于圖表的文本處理排名模型,基于兩種非監督的關鍵詞和句子提取方法。關鍵詞識別的主要弱點在于它依賴于顯而易見的詞的存在,而這些詞只是散文的表面特征。[c14]?例如,一份關于狗的文本文檔中,“狗”這個詞從未被提及過,因為狗是根據它們所屬的特定品種來命名的,所以可能永遠不會被基于關鍵字的搜索引擎檢索。
4.2 詞匯親和力
詞匯親和性比關鍵字發現稍微復雜一些,而不是簡單地檢測明顯的單詞,將概率賦給任意單詞對特定類別的“親和力”(布什,1999;Bybee & Scheibman, 1999;克魯格,1998;丘奇和漢克斯,1989;Jurafskyet al ., 2000)。例如,“accident(事故)”可能有75%的概率表示負面事件,比如“car accident(車禍)”或“hurt in a accident(事故中受傷)”。這些概率通常來自語料庫(Kucera & Francis,1969;戈弗雷,霍利曼,&麥克丹尼爾,1992;史蒂文森,米克爾斯,詹姆斯,2007)。盡管這種方法通常比單純的關鍵字發現性能更好,但是它有兩個主要問題。首先,僅在單詞級別上操作的詞匯關聯性很容易被“I avoid an accident” (否定)之類的句子所欺騙和" I met my girlfriend by accident "(意外驚喜的內涵)。第二,詞匯關聯概率通常偏向于特定類型的文本,由語言語料庫的來源決定。這使得開發可重用的、獨立于域的模型變得困難[c15]?。
4.3 統計NLP
統計NLP自1990年代后期以來一直是主流的NLP研究方向。它依賴于語言模型((Manning & Schütze, 1999; Hofmann, 1999; Nigam, McCallum, Thrun, & Mitchell, 2000)),這些語言模型基于基于諸如最大似然的流行的機器學習算法(Berger, Della Pietra, & Della Pietra, 1996),期望最大化(Nigam et al., 2000)、條件隨機域(Lafferty, McCallum, & Pereira, 2001)和支持向量機(Joachims, 2002)。通過向機器學習算法提供一個包含注釋文本的大型訓練語料庫,系統不僅可以學習關鍵字的效價(如在關鍵字查找方法中),還要考慮其他任意關鍵字的效價(如詞匯親和力),標點符號和詞的共現頻率。然而,統計方法通常在語義上是弱的,這意味著除了明顯的關鍵字之外,統計模型中的其他詞匯或共存元素單獨具有很少的預測值。因此,當給出足夠大的文本輸入時,統計文本分類器僅在可接受的精度下工作。所以,雖然這些方法可以在頁面或段落級別對文本進行分類,但是它們在較小的文本單元如句子或子句中不能很好地工作[c16]?。
5 瀏覽語義曲線
基于語義的NLP側重于與自然語言文本相關的內在意義。而不是簡單地處理語法級別的文檔,基于語義的方法依賴于與自然語言文本相關聯的隱式去噪性[implicit denotative ]特征,因此遠離關鍵字和詞共同出現計數的盲用法。與純粹的語法技術不同,基于概念的方法還能夠檢測以微妙方式表示的語義,例如,通過對不明確傳達相關信息的概念的分析,但這些概念隱含地鏈接到這樣做的其他概念。基于語義的NLP方法可以被廣泛地分組為兩個主要類別:利用外部知識的技術,例如本體知識庫(taxonomic NLP)或語義知識庫(Noetic NLP),以及僅利用文檔的內在語義(endogenous NLP)的方法。
5.1 內源NLP
內源性NLP涉及到利用機器學習技術通過從大量文檔中構建近似概念的結構來執行語料庫的語義分析。它不涉及事先對文檔的語義理解;相反,它只依賴于這些文檔的內生知識(而不是外部知識庫)。與知識工程方法相比,這種方法的優點是有效的。可以大量節省專家人力,并可直接移植到不同領域(Sebastiani,2002年)。
內源性NLP包括基于詞匯語義的方法,即側重于單個單詞的意義的方法,或者是基于組合語義的方法,它看句子的含義和更長的話語。內源性NLP方法的主要內容是基于詞匯語義學,包括眾所周知的機器學習技術。這種例子含有:(a)潛在語義分析(Hofmann,2001),其中文檔被表示為術語空間中的向量;(b)潛在的Dirichlet分配(Porteous等人,2008年),其中涉及將文件術語歸因于專題;(c)已經證明對于數據密集型任務是非常有效的框架,例如大規模RDFS/OWL推理和(d)(D.Goldberg,1989),概率搜索過程,旨在工作在大空間涉及的狀態,可以表示的字符串。
相反,利用組合語義的工作主要包括基于隱馬爾可夫模型的方法(Denoyer, Zaragoza, & Gallinari, 2001; Frasconi, Soda, & Vullo, 2001),關聯規則學習(Cohen, 1995; Cohen & Singer, 1999),特征組合(Xia, Zong, Hu, & Cambria, 2013; Poria, Gelbukh, Hussain, Das, & Bandyopadhyay, 2013),概率生成模型(Lau, Xia, & Ye, 2014)。
5.2分類NLP
分類NLP包括旨在構建用于抓取與自然語言表達式相關聯的包含或分層語義的通用分類法或Web本體的倡議。這樣的分類通常由概念(例如,畫家)、實例(例如,“萊昂納多·達·芬奇”)組成,屬性和值(例如,“萊昂納多的生日是4月15日,1452”)和關系(例如,“蒙娜麗莎是達芬奇畫的”)。具體而言,在IsA關系基礎上構建包含知識表示,它們通常是通過句法模式來自動發現超限的。(Hearst,1992)能夠從諸如“(&C)..藝術家,如畢加索......”或“...pablo畢加索和其他藝術家...”的文本中推斷諸如的三元組。
一般來說,建立分類學資源的嘗試是不計其數的,包括人類專家制作的資源或社區的努力。例如WordNet和Freebase(Bollacker,Evans,Paritish,Strike,并自動建立知識庫。這樣的知識庫的例子包括:(a)Wikitaxonomy(Ponzetto),從維基百科的類別鏈接中提取的分類;(b) YAGO (Suchanek, Kasneci, & Weikum, 2007),從WordNet、Wikipedia和GeoName派生的語義知識庫;Nell(Carlson等人,2010年)(永無止境的語言學習),一個每天從網絡上獲取知識的語義機器學習系統;最后,(d) Probase (Wu, Li, Wang, & Zhu, 2012),一個研究原型,其目的是建立一個統一的分類,從16.8億個網頁在存儲庫中。
其他流行的語義Web項目包括:(a) SHOE (Heflin & Hendler, 1999) (Simple HTML Ontology
Extensions),一種知識表示語言,允許用語義對網頁進行注釋。(b) Annotea (Kahan, 2002),用于共享Web注釋的開放RDF基礎設施(c)SIOC (Breslin, Harth, Bojars,& Decker, 2005) (Semantically Interlinked Online Communities),一種本體,將已經存在的詞匯表中的術語與描述在線社區站點領域中概念之間的關系所需的新術語結合起來;(d)SKOS (Miles & Bechhofer, 2009) (Simple Knowledge Organization System) 一個工作領域,制定規范和標準,以支持使用知識組織系統,如:URI、分類方案、主題標題列表和分類;(e) FOAF (Brickley & Miller, 2010) (Friend Of A Friend) 2014年5月,IEEE 54號計算智能雜志致力于利用網絡將人和信息聯系起來。(f ) ISOS (Ding, Jin, Ren, & Hao, 2013) (Intelligent SelfOrganizing Scheme) 一種由內分泌調節機構激發物聯網的方案,最后,(g) FRED (Gangemi, Presutti, & Reforgiato, 2014) 生成基于事件的RDF/OWL自然語言文本表示的工具。NLP分類學的主要弱點在于其知識庫的典型性。知識在分類法和網絡本體中的表達方式通常是嚴格定義的,不允許對不同的細微概念進行組合處理,因為與概念相關的語義特征的推理受到固定的平面表示的約束。例如,“書”的概念通常與諸如“報紙”或“雜志”之類的概念相關聯,因為它包含知識、具有頁面等。然而,在不同的背景下,書可以被用作紙重量、門擋或甚至作為武器。語義web項目的另一個關鍵弱點是它們不易擴展,因此沒有被廣泛采用(Gueret,schobach,Dentler,Schut,& Eiben,2012)。這增加了在初始客戶反饋成為可能之前所需的時間,并減緩了反饋循環迭代,最終將語義Web應用程序置于用戶體驗和敏捷性劣勢,而與它們的web2.0相比,因為它們的可用性在不經意間讓位于其他復雜問題的數量,而這些問題甚至在客戶看到應用程序之前就必須解決。
5.3 抽象NLP
Noectic NLP包括NLP的所有鼓勵想象的方法,其試圖補償傳統算法的缺乏域適應性和隱式語義特征推斷,例如,第一原理建模或顯式統計建模。Noetic nlp與分類nlp不同,其中noeticnlp不專注于編碼包容知識,而是試圖收集有關對象、操作、事件和人員的特性。此外,Notic NLP以一種自適應和動態的方式執行推理,例如通過生成與上下文相關的結果,或者通過發現沒有在知識庫中顯式編碼的新的語義模式。Noetic NLP的例子包括Connectionnist NLP(Christian Ansen)等范式。它將心理現象建模為簡單單元互聯網絡的緊急過程。例如神經網絡(Collobert et al., 2011);深度學習(Martinez,Bengio 2013);感傷計算(Cambria & Hussain, 2012)一種基于圖形挖掘和降維技術的概念層次情緒分析方法;以及基于能量的知識表示(Olsher,2013),這是一種用于細微常識推理的新框架。
除了知識表示和推理之外,Noetic NLP的一個關鍵方面也是語義分析。大多數當前的NLP技術依賴于部分語音(POS)標記,但這與人類心智從文本中提取意義的方式不同。相反,就像人類的思想一樣,一種基于結構的語義解析器。(CBSP) (Cambria, Rajagopal, Olsher, & Das, 2013),快速識別有意義的文本片段,而不需要花費時間進行短語結構分析。“constructions”的使用,定義為“形式和功能的存儲配對”(A. Goldberg, 2003),使得可以將分布式語言組件鏈接到彼此,從語言結構中放松語義的提取。結構由固定的詞法項和基于類別的插槽組成,或者在文本處理期間由詞匯項填充的“空間”。有關文獻的一個有趣的例子是construction[<ACTION> <OBIECT> <DIRECTION> <OBJECT>]。這方面的例子包括‘打噴嚏在桌子對面的餐巾紙’或‘把球打過籬笆’。句式不僅有助于理解各種詞匯項目是如何協同工作的,從而創造出整個意義,而且還能給出解析器理解使用哪些類別的單詞并因此在哪里期望不同的單詞。
CBSP使用此知識來確定結構、它們的匹配詞匯術語以及每個匹配的良好程度。每個CBSP的構造都有自己獨特的語義并帶有唯一的名稱。為了選擇每個文本跨度的最佳結構,CBSP使用了關于文本中詞法項的知識。這種知識是通過在知識庫中查找單個詞匯來獲得的,從而獲得關于該詞的基本范疇成員的信息。
然后,它有效地將這些潛在成員資格與語料庫中為每個構造指定的類別進行比較,找到最佳匹配,從而使CBSP能夠從一個句子中提取一個概念。一個例子就是從“今天我買了很多非常好的圣誕禮物”這句話中提煉出‘買圣誕禮物’的概念。構造通常是相互嵌套的:CBSP能夠根據構造和構造槽類別的總體語義找到語義上合理的結構重疊,從而大大減少了處理大量文本所需的時間。在大數據環境中,基于構造的語法分析的一個關鍵優點是只需要一小部分文本才能提取意義;詞類信息和一般的小構造意味著解析器仍然可以使用錯誤填充或傳統上無法解析的文本。
6、預測語用學曲線
敘事理解和生成是推理、決策和“感官制造”的核心。敘述除了是人與人之間交流的重要組成部分外,也是建構現實和進行計劃的手段。解讀敘事如何由人腦產生和處理,最終會使我們真正理解和解釋人類的智慧和意識。計算建模是研究敘事理解的有力和有效的途徑。在知識表達、常識推理、社會認知、學習和NLP的保護傘下,人類能夠理解或生成敘述的許多認知過程歷來都是對人工智能研究人員感興趣的。一旦NLP研究能夠將語義理解到與人類文本處理相媲美的水平,就有必要跳轉到語用曲線,就像語義機器學習正逐漸從詞匯進化到組合語義一樣。已經有一些開創性的作品試圖利用話語結構來理解敘事。(Asher & Lascarides, 2003) argument-support hierarchies,(Bex, Prakken, & Verheij, 2007),計劃圖(Young, 2007)和常識推理(Mueller,2007)。在這方面最具代表性的倡議之一是Patrick Winston關于敘事計算模型的工作(Winston, 2011; Richards, Finlayson, & Winston, 2009)。這個基于五個關鍵假設:
基本上,帕特里克·溫斯頓認為,人類的智慧源于我們對講故事和理解的獨特能力(Finlayson & Winston, 2011)因此,他最近的工作重點是開發一個計算系統,它能夠分析敘述性文本,從而推斷出關于這些文本的問題的非顯而易見的答案。這已經出現在Genesis System中。用英文編寫短篇小說摘要,與低級別的常識規則和更高級的反映在英語中的反射模式一起,創世成功地展示了幾個故事理解能力。這就是它確定麥克白和2007年俄羅斯-愛沙尼亞網絡戰爭都涉及報復的能力,盡管在描述這些文本的賬戶中沒有提到"報復"一詞和任何同義詞。
7 討論
單詞和概念層次的nlp方法只是自然語言理解的第一步。NLP的未來在于生物學上和語言上有動機的計算范式,使敘事理解得以理解,因此,“感知”。計算情報有可能在NLP研究中發揮重要作用。例如,模糊邏輯與nlp有著直接的關系(Carvalho, Batista, & Coheur, 2012),用于情緒分析等任務(Subasic & Huettner, 2001)。語言摘要(Kacprzyk & Zadrozny, 2010) ,知識表達(Lai, Wu, Lin, & Huang, 2011),文字意思推理(Kazemzadeh, Lee, & Narayanan, 2013。人工神經網絡可以幫助完成nlp任務,如模糊度解決 (Chan & Franklin, 1998; Costa, Frasconi, Lombardo, & Soda, 2005),語法推斷(Lawrence, Giles, & Fong, 2000),單次表示(Luong, Socher, & Manning, 2013),情感識別(Cambria, Gastaldo, Bisio, & Zunino, 2014),進化計算可以用于語法進化等任務(O’Neill & Ryan, 2001),知識發展(AtkinsonAbutridy, Mellish, & Aitken, 2003),文本分類(Araujo, 2004),規則學習(Ghandar, Michalewicz, Schmidt, To, & Zurbruegg, 2009)。
然而,盡管它的潛力,計算智能技術的使用到目前為止在NLP領域還沒有那么活躍。第一個原因是nlp是一個巨大的領域,目前正在解決數十個不同的問題,其中存在特定的評估指標,而且不可能將整個領域簡化為一個特定的問題,就像在早期的工作中所做的那樣(Novak, 1992)。第二個原因可能是支持向量機的強大技術(Drucker, Wu, & Vapnik, 1999),核主成分分析(Sch?lkopf et al., 1999),和潛在的傳播(Mukherjee & Blei, 2009) 在廣泛使用的nlp數據集上已經取得了顯著的成果,這些數據集還沒有得到計算智能技術的滿足。然而,所有這樣的基于字的算法受到以下事實的限制,即它們只能處理它們能夠“看到”的信息,并且因此遲早會達到飽和。相反,通過模擬人腦處理自然語言的方式,計算智能技術可以超越文檔的語法表示 (例如,利用沒有在文本中顯式表達的語義特征) 因此,有更大的潛力來處理互補的NLP任務。例如,在相同的NLP模型中,可以利用一組計算智能技術(通過神經網絡)在線學習自然語言概念。概念分類和語義特征泛化(通過模糊集)和概念意義進化和連續系統優化(通過進化計算)。
8 結論
在用戶生成的內容已經達到臨界質量的Web中,合理計算和信息聚合的需求呈指數級增長,這在行業中“大數據專家的狂潮”和新的“數據科學學科”的增長證明了這一點。網絡內容創作的民主化導致了網絡碎片的增多,不可避免地對信息檢索和提取產生了負面影響,分析這一消極趨勢并提出可能的解決辦法。本文根據三個不同的范式,即bags of word、bags of concept和bags of narration模式,著重研究了NLP研究的演變過程。本文從業務管理領域借用“跳躍曲線”的概念,闡述了NLP研究如何從詞匯語義逐步轉變為組成語義,并為下一代基于敘事的NLP技術提供了見解。
然而,跳躍曲線不是一件容易的任務:人類語言的起源有時被稱為科學最困難的問題。(Christianse & Kirby, 2003)。NLP技術是從打孔卡和批處理時代發展而來的(在這種時代,對自然語言句子的分析可能需要7分鐘的時間(Plath, 1967))到谷歌及其類似的時期(其中數百萬的網頁可以在不到一秒鐘的時間內被處理)。然而,即使是最有效的基于單詞的算法,如果沒有經過適當的訓練或上下文和域發生變化,也表現得非常差。這樣的算法受到這樣一個事實的限制:他們只能處理他們可以看到的信息。然而,語言是一種系統,其中所有術語都相互依賴,其中一個術語的價值是其他術語同時存在的結果。(De Saussure, 1916)
作為人類文本處理器,我們看到的不僅僅是我們看到的東西(Davidson, 1997)其中,每個單詞都激活一系列語義相關的概念,從而能夠以一種快速、輕松的方式完成復雜的nlp任務,如詞義消歧、文本包含和語義角色標記。
概念是把我們的精神世界保持在一起的膠水(Murphy, 2004),如果沒有概念,首先就不會有精神世界(Bloom, 2003)。不用說,將知識組織到概念中的能力是人類心理的一個定義特征。一個真正的智能系統需要關于物體行為的物理知識,關于人們如何互動的社會知識,關于事物外觀和味道的感官知識,關于人思考的心理學知識。然而,擁有數以百萬計的常識事實的數據庫對于計算自然語言的理解是不夠的:我們需要教nlp系統如何處理這些知識 (IQ),而且解釋情感(EQ)和文化細微差別(CQ)。
總結
以上是生活随笔為你收集整理的Jumping NLP Curves: A review of NLP research (翻译)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果新产品中的机器学习算法
- 下一篇: c++灵魂科普(1)