| 知網(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。 1. 問題的提出 1988年前后,董振東曾在他的幾篇文章中提出以下的觀點: (1) 自然語言處理系統最終需要更強大的知識庫的支持。 (2) 關于什么是知識,尤其是關于什么是計算機可處理的知識,他提出:知識是一個系統,是一個包含著各種概念與概念之間的關系,以及概念的屬性與屬性之間的關系的系統。一個人比另外一個人有更多的知識說到底是他不僅掌握了更多的概念,尤其重要的是他掌握了更多的概念之間的關系以及概念的屬性與屬性之間的關系。 (3) 關于如何建立知識庫,他提出應首先建立一種可以被稱為知識系統的常識性知識庫。它以通用的概念為描述對象,建立并描述這些概念之間的關系。 (4) 關于由誰來建立知識庫,他指出知識掌握在千百萬人的手中,知識又是那樣博大精深,靠三、五個人甚至三、五十個人是不可能建成真正意義上的全面的知識庫的。他提出:首先應由知識工程師來設計知識庫的框架,并建立常識性知識庫的原型。在此基礎上再向專業性知識庫延伸和發展。專業性知識庫或稱百科性知識庫主要靠專業人員來完成。這里很類似于通用的詞典由語言工作者編纂,百科全書則是由各專業的專家編寫。 知網的研究和建設是實踐上述觀點的努力。 2. 知網的哲學 要掌握和利用好知網系統,必須首先了解知網系統的哲學思想。知網系統的哲學也就是它對客觀世界的認識與把握。知網哲學的根本點是:世界上一切事物(物質的和精神的)都在特定的時間和空間內不停地運動和變化。它們通常是從一種狀態變化到另一種狀態, 并通常由其屬性值的改變來體現。試以人為例,人的生老病死是一生的主要狀態。這個人的年齡(屬性)一年比一年大{屬性值},隨著年齡的增長頭發的顏色(屬性)變為灰白{屬性值}。另一方面,一個人隨著年齡的增長他的性格(精神)變得日益成熟{屬性值},他的知識(精神產品)愈益豐富{屬性值}。基于上述,知網的運算和描述的基本單位是:萬物,其中包括物質的和精神的兩類,部件,屬性,時間,空間,屬性值以及事件。 特別要強調的是,部件和屬性,這兩個基本單位在知網的哲學體系中占有著重要的地位。關于對部件的認識是:每一個事物都可能是另外一個事物的部件,同時每一個事物也可能是另外一個事物的整體。門和窗是建筑物的部件;手和腳是動物的部件。但與此同時,一個建筑物又可能是一個社區的部件;一個人又可能是他所屬的家庭或社會的部件。一切事物都可以分解為部件。空間可以分解為上下左右;時間可以分解為過去、現在和未來。沒有一種事物只能是部件,而不能是整體;也沒有一種事物只能是整體,而不會是部件。我們認為一個事物被視為是整體還是部件,可以因系統的不同,而不同對待。關于部件在整體中的部位和它的功能,知網遵循這樣一種認識:事物的部件在它整體中的部位和功能的描述大體上比照人體。例如:山頭、山腰、山腳、桌腿、椅背、河口,建筑物的門和窗比照人體的口和眼等等。漢語用擬人的手法來描述部件,別的語言也類似,這反映了人類認識事物方法的共性。 關于對屬性的認識是:任何一個事物都一定包含著多種屬性,事物之間的異或同是由屬性決定的,沒有了屬性就沒有了事物。人有種族、膚色、性別、年齡、性格、會思維、會使用語言等自然屬性以及國籍、出身、職業、貧富等社會屬性。在某些特定的情況下可以說屬性比事物更重要,這一點在人們的日常生活的替代活動中可以得到體現。如:當我們要把一個釘子釘到墻上,但我們沒有錘子,于是我們要找錘子的替代物,那么什么是錘子的替代物呢?那應該是屬性最接近錘子的屬性的物品才可能是替代物,而這時重量和硬度是關鍵性的屬性。屬性和它的宿主之間的關系是固定的,這是說有什么樣的宿主就有什么樣的屬性,反之亦然。屬性與宿主之間的關系同部件與整體之間的關系是不同的。這也體現在知網在涉及屬性的標注規范上,知網規定在標注屬性時必須標注它可能的宿主的類型。知網還規定在標注屬性值時都必須標注它所指向的屬性。 3. 知網的特色 計算機化是知網的重要特色。知網是面向計算機的,是借助于計算機建立的,將來可能是計算機的智能構件。 知網作為一個知識系統,實副其名是一個網而不是樹。它所著力要反映的是概念的共性和個性,例如:對于“醫生”和“患者”,“人”是它們的共性。知網在主要特性文件中描述了“人”所具有的共性,那么“醫生”的個性是他是“醫治”的施事,而“患者”的個性是他是“患病”的經驗者。對于“富翁”和“窮人”,“美女”和“丑八怪”而言,“人”是它們的共性。而它們的個性,即:“貧”、“富”與“美”、“丑”等不同的屬性值,則是它們的個性。 同時知網還著力要反映概念之間和概念的屬性之間的各種關系。知網把下面的一種知識網絡體系明確的教給了計算機進而使知識對計算機而言是可操作的。 ? (圖1) 總的來說,知網描述了下列各種關系: (a) 上下位關系 (由概念的主要特征體現,請參看《知網管理工具》) (b) 同義關系(可通過《同義、反義以及對義組的形成》獲得) (c) 反義關系(可通過《同義、反義以及對義組的形成》獲得) (d) 對義關系(可通過《同義、反義以及對義組的形成》獲得) (e) 部件-整體關系(由在整體前標注 % 體現,如"心","CPU"等) (f) 屬性-宿主關系(由在宿主前標注 & 體現,如"顏色","速度"等) (g) 材料-成品關系(由在成品前標注 ? 體現,如"布","面粉"等) (h) 施事/經驗者/關系主體-事件關系(由在事件前標注 * 體現,如"醫生","雇主"等) (i) 受事/內容/領屬物等-事件關系(由在事件前標注 $ 體現,如"患者","雇員"等) (j) 工具-事件關系(由在事件前標注 * 體現,如"手表","計算機"等) (k) 場所-事件關系(由在事件前標注 @ 體現,如"銀行","醫院"等) (l) 時間-事件關系(由在事件前標注 @ 體現,如"假日","孕期"等) (m) 值-屬性關系(直接標注無須借助標識符,如"藍","慢"等) (n) 實體-值關系(直接標注無須借助標識符,如"矮子","傻瓜"等) (o) 事件-角色關系(由加角色名體現,如"購物","盜墓"等) (p) 相關關系(由在相關概念前標注 # 體現,如"谷物","煤田"等) 知網的一個重要特點是:類似于同義、反義、對義等種種關系是借助于《同義、反義以及對義組的形成》由用戶自行形成而不是逐一地、顯性地標注在各個概念之上的。 知網是一個知識系統,而不是一部語義詞典。盡管被我們稱為知識詞典的常識性知識庫是知網的最基本的數據庫。知網的全部的主要文件包括知識詞典構成了一個有機結合的知識系統。例如,主要特征文件、次要特征文件、同義、反義以及對義組的形成,以及事件關系和角色轉換等都是系統的重要組成部分,而不僅僅是標注的規格文件。我們預計用戶將來把它們與知識詞典一起加以利用。 4. 知網建設的方法 知網是一個以上述各類概念為描述對象的知識系統。知網不是一部義類詞典。知網是把概念與概念之間的關系以及概念的屬性與屬性之間的關系形成一個網狀的知識系統。這是它與其他的樹狀的詞匯數據庫的本質不同。知網的哲學和它的根本特性決定了它的特別的建設方法。 4.1 義原的提取 什么是義原,跟什么是詞一樣的難以定義。但是也跟詞一樣并不因為它難于定義人們就無法把握和利用它們。大體上說,義原是最基本的、不易于再分割的意義的最小單位。例如:“人”雖然是一個非常復雜的概念,它可以是多種屬性的集合體,但我們也可以把它看作為一個義原。我們設想所有的概念都可以分解成各種各樣的義原。同時我們也設想應該有一個有限的義原集合,其中的義原組合成一個無限的概念集合。如果我們能夠把握這一有限的義原集合,并利用它來描述概念之間的關系以及屬性與屬性之間的關系,我們就有可能建立我們設想的知識系統。利用中文來尋求這個有限的集合,應該說是個捷徑。中文中的字(包括單純詞)是有限的,并且它可以被用來表達各種各樣的單純的或復雜的概念,以及表達概念與概念之間、概念的屬性與屬性之間的關系。 我們的方法的一個重要特點是對大約六千個漢字進行考察和分析來提取這個有限的義原集合。以事件類為例,在中文中具有事件義原的漢字(單純詞)中我們曾提取出3200個義原。試以下面為例我們得到了9個義原但其中有兩對是重復應予合并。 治:醫治 管理 處罰 …… 處:處在 處罰 處理 …… 理:處理 整理 理睬 …… 3200個事件義原在初步合并后大約可以得到1700個,然后我們再進一步加以歸類,我們便得到大約700多個義原。請注意,到現在為止完全不涉及多音節的詞語。然后我們用這700多個義原作為標注集去標注多音節的詞,當我們發現這700多個義原不符合或不滿足要求時,我們便進行的合理調整或適當擴充。這樣就形成了今天的800多個事件義原的標注集以及由它們標注的中文的事件概念。 綜上所述,知網的建設方法的一個重要特點是自下而上的歸納的方法。它是通過對全部的基本義原進行觀察分析并形成義原的標注集,然后再用更多的概念對標注集進行考核,據此建立完善的標注集。 4.2 義原的考核與確定 在初步確定了一批義原并形成了一個基本的標注集之后,如何加以考核和確定? 第一、在擴大標注中觀察該義原的覆蓋面。我們有一條原則:我們已有的義原一定要能夠描述全部的概念。這里有一個比較硬性的規定,即當我們發現一個具有多個概念的詞語,例如八個,而我們以有的義原不能夠把這八個概念區別開來時,我們就必須對我們的標注集加以調整,這是絕大多數的情況。在很個別的情況下我們不排除懷疑其中某個概念是否存在,以決定取舍。 第二、觀察某一個義原在概念之間關系中的地位。如果一個義原在同類別的許多概念中出現或者不同類別的概念中出現,那么這樣的義原就是穩定的義原是一個必須確定的義原。以事件類“醫治”這個義原為例,它不僅出現在“醫”、“治”、“治療”、“醫療”、“治病”、“求醫”、“看病”等概念中,并且還出現在“醫生”、“醫院”、“醫藥”、“診所”、“不治之癥”、“有病亂投醫”。因此,“醫治”這個義原是穩定的、是必須確定的。 無論是義原的提取還是義原的考核與確定,在知網的建設中都是至關重要的和具有決定意義的。它們貫穿于知網建設的全過程。因此,知網建設的方法的主要特點是:(1)自下而上的;(2)標注集的形成和知網建設是互動的。 5. 知網系統的概貌 5.1 知網系統包括下列數據文件和程序: 1.知網管理系統 2.中英雙語知識詞典 知網的規模主要取決于雙語知識詞典數據文件的大小。由于它是在線的,修改和增刪都很方便,因此它的規模是動態的。它的規模通常以詞語的條數以及由詞語所表述的概念的條數計算。 5.2 知識詞典的記錄樣式 知識詞典是知網系統的基礎文件。在這個文件中每一個詞語的概念及其描述形成一個記錄。每一種語言的每一個記錄都主要包含4項內容。其中每一項都由兩部分組成,中間以“=”分隔。每一個“=”的左側是數據的域名,右側是數據的值。它們排列如下: W_X= 詞語 E_X= 詞語例子 G_X= 詞語詞性 DEF= 概念定義 5.2.1 詞語及其概念的選擇 《知網》的知識詞典是以詞語及其概念為基礎的。我們是怎樣選擇和確定詞語及其概念的呢? 這里要回答以下幾個問題 第一,我們不認為漢語有很嚴格的、如印歐語言那樣的"詞"。因此知識詞典的描述的最基本單位,不必要去追求嚴格的關于詞的定義。我們選擇詞語的依據是建立于4億字漢語語料庫按出現頻率形成的詞語表,而不是僅僅依據某一本現成的詞典。知識詞典很注意收集已經流行又有較固定可能的詞語,如"因特網"、"歐元"、"二惡英"、"下載"、"點擊"、"黑客"等,但又不盲目求新,如不收"打的"。 第二,詞語的概念或稱義項的選擇也是經過精心考慮的。一般很注意某一義項的現代的流通性。例如"曹"在普通詞典中至少有兩個義項,一是"姓",另一是"輩"如用于"爾曹"。而知識詞典只選擇第一個義項。 第三,我們同時給出了與詞語相對應的英文釋義。我們的目的是體認知識詞典對概念的描述方法是否也適用于另一種語言。按理是應該能夠適合的。我們的目的當然不是為最終用戶提供普通的漢英詞典。 5.2.2 關于詞語的例子 迄今為止,我們主要是為那些具有多個義項提供例子。這些例子的要求是:強調例子的區別能力而不是它們的釋義能力。它們的用途在于為消除歧義提供可靠的幫助。這里試以"打"的兩個義項為例,一個義項是"buy/買",另一個是"weave/辮編"。 NO.=000001 W_C=打 G_C=V E_C=~醬油,~張票,~飯,去~瓶酒,醋~來了 W_E=buy G_E=V E_E= DEF=buy/買 NO.=015492 W_C=打 G_C=V E_C=~毛衣,~毛褲,~雙毛襪子,~草鞋,~一條圍巾,~麻繩,~條辮子 W_E=knit G_E=V E_E= DEF=weave/辮編 設我們要判定的歧義語境是"我女兒給我打的那副手套哪去了"。我們通過對"手套"與"醬油"等的語義距離的計算以及跟"毛衣"等的語義距離的計算的比較, 我們將會得到一個正確的歧義判定結果。這種方法的好處有二:第一,多數的判定可以避免采用規則; 第二,多數的情況基本的算法可以是不依賴特定語言的。 填寫例子是一項具有研究性質的工程。這項工作是由國家語委97@YY001課題支持的,由北京大學中文系部分師生承擔的。迄今為止還沒有全部完成。另外,我們需要資助者的同意才可以全部公布。 我們在第二版中只給出前三個字母的多義詞語的例子,以饗讀者。 6. 概念定義的標注方法和規定 知網對概念的描述是要著力體現概念與概念和概念的屬性與屬性之間的相互關系,因此,知網對于概念的描述必然是復雜的。這就必須有一套明確的規范,否則便無法保證描述的復雜度和描述的一致性。概念描述既有總的、一般性的描述,也有因不同類別的細節性描述。 但是,描述的方法和規定又必須保證能夠最大限度地表現概念與概念和概念的屬性與屬性之間的相互關系。事實證明滿足復雜性和一致性統一的要求的可行途徑是設計一種知識詞典的描述語言。知網建設的過程也是設計與建立這樣的描述語言的過程。迄今為止,知網的知識詞典的描述語言(Knowledge Dictionary Mark-up Language,KDML)包含下列幾部分: 1. 它的詞匯近1500個特征及動態角色; 2.標識符號和標點; 3.詞序; 6.1 總規定 (1) 任何一個概念的DEF項是必須填寫的,不得為空。 (2) DEF項中用以定義的特性至少是一個,但也可以是多個,數量沒有限制,只要內容是合理的且形式是合乎規范的。 (3) DEF項的第一位置所標注的必須是知網所規定的主要特征(詳見《知網管理工具》),否則視為語法錯誤。但是有些關系意義,可以把次要特征置于{}中后,作為第一位置標注。例如一些介詞、連詞等虛詞,嚴格地說它們本身沒有概念意義 (4) 多個特征之間應以英文逗號“,”分隔,且逗號與特征之間沒有空格。 (5) 除第一位置以外,其他位置也可以填有主要特征,但應該說明的是,當主要特征在非第一位置時它失去了原有的上下位關系。 (6) DEF項中任何一個位置上的信息都可以帶有知網所規定的標示符號。 6.2 細節規定 6.2.1 關于事件類概念的規定 (1) DEF項的第一位置只能是事件類文件所規定的主要特征; (2) 對于那些以事件為中心的復雜概念的標注則應遵循如下規定: (a) 應利用動態角色來標注復雜概念,因為所謂的復雜概念多半是除了事件中心本身以外還有一個或一個以上的動態角色,例如: 嚴禁: 包含動態角色--方式 (manner) ? 貸款: 包含動態角色--所有物 (possession) 盜墓: 包含動態角色--來源 (source) 救災: 包含動態角色--原狀態 (StateIni) 呼救: 包含動態角色--內容 (content) (b) 在表示上述動態角色時它的書寫格式是:動態角色名稱 = 主要特征或次要特征,例如“救災”的標注應為: DEF=rescue/救助,StateIni=unfortunate/不幸 更為復雜的例子如:“扭虧為盈” DEF=alter/改變,StateIni=InDebt/虧損,StateFin=earn/賺 6.2.2 關于屬性值和數量值類概念的規定 (1) “屬性值”是所有屬于屬性值概念的唯一的主要特征,“數量值”是所有屬于數量值概念的唯一的主要特征,因此他們分別是兩類概念的首位標識; (2) 屬性值概念和數量值概念除首位標識外必須還包含有一個次要特征。在第二位上一定要標注該屬性值或數量值所指向的屬性或數量特征; (3) 通常絕大多數情況下在第三位置上標注該屬性值或數量值的具體值; 例如: 美味: DEF=aValue/屬性值,taste/味道,good/好 八成: DEF=qValue/數量值,amount/多少,many/多 巨大1: DEF=aValue/屬性值,size/尺寸,big/大 巨大2: DEF=QValue/數量值,amount/多少,many/多 大量1: DEF=aValue/屬性值,tolerance/氣量,generous/慷 大量2: DEF=QValue/數量值,amount/多少,many/多 6.2.3 關于屬性和數量類概念的規定 (1) “屬性”是所有屬于屬性概念的唯一的主要特征,“數量”是所有屬于數量概念的唯一的主要特征,因此他們分別是兩類概念的首位標識; (2) 所有屬性或數量概念都必須借助“&”標注其宿主的類型; 例如: 味道: DEF=attribute/屬性,taste/味道,&edible/食物 氣量: DEF=attribute/屬性,tolerance/氣量,&human/人 班次: DEF=quantity/數量,amount/多少,&transport/運送 | 比價: DEF=quantity/數量,rate/比率,&price/價格 6.2.2和6.2.3兩節的敘述具體的體現了知網哲學的關于概念關系的觀點。這種觀點簡單的說是:事物包含屬性而成為其宿主,屬性必有一定的屬性值體現。 6.2.4 關于單位類概念的規定 (1) 單位通常是指“米”、“公里”、“噸”等,對于中文而言還包含中文所特有的名量和動量; (2) 跟屬性類一樣,除在首位標注的是單位、名量或動量外,還必須借助“&”標注其指向的屬性或事物的類型; 例如: 公里: DEF=unit/單位,&length/長度 本: DEF=NounUnit/名量,&publications/書刊 次: DEF=ActUnit/動量,&event/事件 6.2.5關于事物的規定 (1) 所謂事物包含下列的概念類型:物質(包括有生命和無生命)、精神(包括情感、欲望、思想、經驗)、時間、空間、事情以及它們的部件。這里應該強調說明的是知網中所描述的“事情”,實際上也是事件。關于這方面的問題我們將在第七節中詳細討論。 (2) 知網對于事物類概念的標注的規定較為瑣細,不同類的概念有著不同的要求。大體上,應注意到兩個方面,其一采用適合的標識符號;其二是多位標識之間的順序。 (3) 當我們要標注某概念所具有的特定的屬性值時可以將此屬性值直接標注,而無須借助于任何標識符號。如: 男士: DEF=human/人,male/男 高手: DEF=human/人,able/能,desired/良 難題: DEF=problem/問題,difficult/難,undesired/莠 (4) 關于部件類概念的規定 第二位標識必須借助于“%”指明其所屬的整體的類型,并盡可能標注它在整體中的部位或它的功能,如: 心臟: DEF=part/部件,%AnimalHuman/動物,heart/心 CPU: DEF=part/部件,%computer/電腦, heart/心 這樣的標注意味著“心臟”和“CPU”的分別是“動物”和“電腦”的部件,同時“動物”和“電腦”又分別是“心臟”和“CPU”的整體。它們的功能都是整體的“心”。就常識而言如果“心”的功能受損,那么其整體的功能也必受損。這有助于推理。 (5) 當標注某一概念與事件之間的關系時,應遵循下列規定: (a) 當此概念本身是事情時,其首位標識自然為“事情”,一般應在第二位上標注它應屬于的事件的主要特征,無須借助于標識符號,如: 拔河:DEF=fact/事情,exercise/鍛練,sport/體育 (b) 當此概念與事件之間存在一定的動態角色關系時,則必須借助于標識符號,如: 雇主: DEF=human/人,*employ/雇用 雇員: DEF=human/人,$employ/雇用 熨斗: DEF=tool/用具,*AlterForm/變形狀,#level/平 假期: DEF=time/時間,@rest/休息,@WhileAway/消閑 旅館: DEF=InstitutePlace/場所,@reside/住下,#tour/旅游 救生艇: DEF=ship/船,*rescue/救助 (c) 如果此概念與事件存在更復雜的動態角色關系時,則必須借助于多標識符號和多標識位,這時有順序的要求,如: 洗衣機:DEF=tool/用具,*wash/洗滌,#clothing/衣物 上例中“洗滌”為“用具”的功能,或該“用具”用于“洗滌”,“衣物”借助于“#”表示其為“洗滌”的受事。他們之間的順序是不可以顛倒的。又如: 熨斗: DEF=tool/用具,*AlterForm/變形狀,#level/平 這里“平”是“變形狀”的受事屬性,這就是說,“變形狀”的受事在接受了該事件之后,其屬性將有變化,以至于獲得一個“平”的屬性值。 綜上所述,相信讀者已經對知識詞典描述語言(KDML)有了較詳盡的了解。應該說,這種描述語言會隨著知網的發展而完善,以獲得表達能力更強的、語法更嚴密的描述語言。 7. 關于事件類概念 事件的主要特征可在《知網管理工具》中看到。其總數800以上,占整個知網特征總數的一半以上,足以見得事件類概念的重要以及知網對事件類概念的重視。上述文件中每一個主要特征附有一個必要角色框架,置于“{}”中,還有一個“[]”其中也標有各種特征。角色框架和置于“[]”中的各種特征為事件類概念的共性的次要特征。 7.1 主要特征之間的關系 知網認為事件概念粗略可以做這樣的分類 知網通過自下而上的事件概念的逐一考察,認定事件的主要特征之間的關系有三類: 1.上下位關系 2.靜與動的對應關系 3.動態相互感應關系 上下位關系在上述文件中已清楚列出。 下面先討論靜與動的對應關系。關系和狀態是屬于上述靜態之下的兩類。上述動態之下的兩類即泛動和實動是造成關系和狀態的動力。這樣就形成了知網所稱的靜與動的對應關系,簡單的說,有什么樣的關系或有什么樣的狀態,就有什么樣的行為動作。例如事物之間有領屬關系,如:“我有書”表明了“我”和“書”的關系。 與之相對應的、可以改變這種領屬關系的行為動作則是“取”或“給”。 知網認定事件中表示關系的有九類,事件中表示狀態的分為物質狀態和精神狀態兩大類。物質狀態包括:存現、常態、良態、衰態、消失(如:生物的生、老、病、死)。精神狀態包括:情感、態度、欲望、認知。知網認定事件中表示行為動作的都是與上述關系和狀態一一對應的,歸根結底體現一個“變”字,即變關系和變狀態。需要提請注意的有兩類:一是變具體屬性的行為動作,如:“提高”、“降低”、“美化”、“加溫”等;二是變使動或制動的行為動作,如:“使”、“讓”、“命令”、“靜止”等。粗略的看這兩類行為動作與關系或狀態沒有具體的一一對應的關系,但是實際上它們也是變關系或狀態的。任一個實體,當其屬性改變的時候,如由冷變熱(在“加溫”的作用下),就是其自身內在狀態的變化。任一實體,當在使動或制動的行為動作的作用下發生某種行為或停止某種行為,都是其與外界關系的變化。為使讀者獲得一個宏觀的把握,我們把知網事件主要特性的骨架顯示如下: V event/事件 V1 static/靜態 V2 act/行動 V1.0 relation/關系 V2.0 AlterRelation/變關系 V1.01 isa/是非關系 V2.01 AlterIsa/變是非 V1.02 possession/領屬關系 V2.02 AlterPossession/變領屬 V1.03 comparison/相比關系 V2.03 AlterComparison/變相比 V1.04 suit/相適關系 V2.04 AlterFitness/變相適 V1.05 inclusive/蘊涵關系 V2.05 AlterInclusion/變包含 V1.06 connective/關聯關系 V2.06 AlterConnection/變關聯 V1.07 CauseResult/因果關系 V2.07 AlterCauseResult/變因果 V1.08 TimeOrSpace/時空關系 V2.080 AlterLocation/變空間位置 V2.081 AlterTimePosition/變時間位置 V1.09 arithmetic/數量關系 V1.1 state/狀態 V2.1 AlterState/變狀態 V2.11 AlterPhysical/變本體 V1.11 StatePhysical/物理狀態 V1.111 ExistAppear/存現 V2.111 CauseToExist/使存現 V1.112 begin/起始 V1.113 BeNormal/常態 V2.113 AlterStateNormal/變常態 V1.114 BeGood/良態 V2.114 AlterStateGood/變良態 V1.115 BeRecovered/復原 V2.115 resume/恢復 V1.116 change/變 V1.1161 AppearanceChange/外觀變 V1.1162 QuantityChange/量變 V2.1162 AlterQuantity/變數量 V1.1163 >BeBad/衰變 V2.1163 AlterStateBad/變莠態 V1.1164 end/終結 V2.1164 kill/殺害 V1.1165 disappear/消失 V2.1165 CauseToBeHidden/使消失 V1.1166 WeatherChange/天變 V1.117 ChangeNot/不變 V2.117 stabilize/使不變 V1.117 ChangeNot/不變 V2.2 AlterAttribute/變屬性 V1.117 ChangeNot/不變 V2.3 MakeAct/使之動 V1.12 StateMental/精神狀態 V2.12 AlterMental/變精神 V1.121 feeling/情緒 V2.1210 AlterEmotion/變情感 V2.1211 ShowEmotion/表示情感 | V1.122 Attitude/態度 V1.123 volition/意向 V1.124 recognition/感知狀態 V2.124 AlterKnowledge/變感知 V1.1241 HaveKnowledge/有知 V2.12410 MakeOwnKnowledge/使自我感知 V2.12411 MakeOthersKnowledge/使他人感知 V1.1242 NoKnowledge/無知 V2.1242 MakeNoKnowledge/使不知 V1.1243 misunderstand/誤信 V2.1243 MakeMisunderstand/使誤知 V1.1244 BeUnable/無能 ? ? V2.2 AlterAttribute/變屬性? V2.3 MakeAct/使之動 關于動態相互感應關系,簡稱互感關系。事件的互感關系體現在兩個方面。第一,事件與事件之間的互感關系;第二,事件的動態角色的相互轉換關系。 事件與事件之間的互感關系包括同類的(都是靜態的或者都是動態的),也包括跨類的。例如,"有"和"丟失"是同類的,它們之間的關系前者為后者的必要前提,若"無",便不可能"丟失"。再如,"買"和"有"是不同類的,它們之間的關系則是前者為后者的前提。又如,"抱歉"和"道歉"是不同類的,前者是靜態的,一種感情狀態,后者是動態的,是一種表達感情的行為動作,但它們存在著一種內在的關系,后者為前者的邏輯結果。"罹患"、"醫治"和"復原"是不同類的,"罹患"和"復原"是靜態的,"醫治"是動態的。它們之間的關系是"醫治"轉化"罹患"這個"衰態"到"復原"這個"良態"。 事件動態角色相互轉換關系說的是在某一事件發生時它的動態角色會自然地轉化成為另一事件的動態角色,或者它原來就應該是另一事件的某一個動態角色。例如,“買”的施事將轉化為“有”的“關系主體”。又如,“患病”的經驗者原來就應該是“醫治”的受事。“醫治”的受事將轉化為“康復”的經驗者。 7.2 必要角色框架 在知網中,800個事件主要特征中的每一個都標識有一個角色框架。知網所規定的動態角色載于文件"動態角色與屬性"。在框架中所列出的角色是該主要特征的必要絕對角色,這就是說,少了其中的一個,該事件將不成立。我們特別提請注意:這里說的是當某一類事件發生時框架中的全部必要角色都將參與,這與實際的語言中是否出現并無關系,例如:"買"這一事件發生時,必要絕對角色是:誰(施事)買,買什么(領屬物),從哪(來源)買,付多少錢(代價),為誰(受益者)買。又如:"同情"這一事件發生時,必要絕對角色是:誰(經驗者),同情誰(對象),因為什么(原因)。在《概念的主要特征(1)》中,它們被分別規定如下: buy /買 {agent,possession,source,cost,~beneficiary}? pity /憐憫 {experiencer,target,cause} 誠然在實際語言中在一句話中把上述角色都表達出來時不多見的,但不表達并不等于不存在。由于任何一個事件的發生都是在特定的時間與空間中,因此我們在必要角色框架中沒有列入時間和空間。 必要角色框架體現了事件的共性。因此,在知網的建設中它也成為判定概念的重要依據。例如,“致歉”這一概念在判定它是屬于“抱歉”這一類,還是“道歉”這一類時,如果我們利用必要角色框架就比較容易判定。“致歉”和“道歉”一樣,它們都可以有“對象”這一動態角色。再例如,“呼救”這一概念為什么我們判定它的主要特性是“呼喊”而不是“救助”是因為它不會具備“救助”的動態角色框架,“呼救”的主要特征是“呼喊”,而“救”是“呼喊”的動態角色框架中的“內容”一項。 8. 關于事物類概念 事物的主要特征也可在《知網管理工具》中看到。。這些主要特征被組織成一個層級框架體現它們的上下位關系。事物類層次較淺,知網對于事物類的描述主要是要體現它們的共性和個性。每一個主要特征的共性在文件中置于“[]”中。而概念的個性則逐一的標注在個別的概念的DEF中。 9. 結論 知網的研究與建設前后經歷了十多年的時間,作者體會其最困難部分是: 1.確定主要特征和次要特征,以及對它們的組織; 2.確定描述的方法和建立概念的描述語言; 3.逐一地標注概念,而其總量又應在50000以上; 知網的研究與建設不僅有很高的探索性,而且有很強的工程性。我們相信它作為一種知識資源能夠得到廣泛的應用。 知網的今后發展會在四個方面進行: 1.增加已有語種的概念總量 2.擴充至其他的語種 3.優化知識詞典描述語言(KDML),強化其描述能力 4.挑選一個小范圍的專業知識領域進行專業知識庫建立的實驗 以上講的是知網自身的發展,當然更重要的應該是它的推廣和應用。這就是為什么我們要把它放在網上的原因。 我們感謝在這十年中曾經以這樣和那樣的方式支持和幫助過我們的機構和個人。 他們有:中國中文信息學會、計算機與微電子發展研究中心、原新加坡系統科學研究院、中科院計算所機譯中心等。我們還要感謝國家語委97@YY001課題和香港大學教育資助委員會基金項目HKUST6149/98E為知網的后續發展提供的贊助。我們還特別要感謝北京創新未來電腦有限公司,感謝他們多年的支持,感謝他們為知網提供的網站。最后我們還要感謝新加坡南洋理工大學的譚慧敏博士,她把本文翻譯成英文,以及香港科技大學的顏國偉博士,他為知網的修訂和改進提出了很多十分寶貴的意見。 ? 參考書目 (我們下面只列出在我們建設《知網》時,主要的、不可或缺的參考辭書,而略去了在我們十余年研究過程中曾經參考和學習過的其他許多參考書。) [1] 現代漢語通用字典,中國人民大學語言文字研究所,外語教學與研究出版社,1987 [2] 現代漢語詞典(修訂本),中國社科院語言研究所詞典編輯室,商務印書館,1996 [3] 漢英詞典(修訂本),北京外國語大學英語系詞典組,外語教學與研究出版社,1995 [4] WordNet 1.6, 普林斯敦大學,1999 [5] SenseWeb, 原新加坡系統科學研究院,1996 [6] 牛津-杜登英漢圖解詞典,卜純英譯,輕工業出版社,1988 [7] LONGMAN English-Chinese Dictionary Of Contemporary English, Longman Group UK Limited, 1988? [8] 現代漢語語法信息詞典詳解,俞士汶等,清華大學出版社,1998 [9] 英漢大詞典,陸谷孫,上海譯文出版社,1995 [10] 同義詞詞林,梅家駒、高蘊奇, 上海辭書出版社,1983 |