知识图谱学习笔记(三)——知识表示方法
知識表示方法
1.概述
1.1 知識分類
- 陳述性知識:用于描述領域內有關概念、事實、事務的屬性和狀態等。
1.太陽從東方升起
2.一年有春夏秋冬四個季節 - 過程性知識:用于指出如何處理與領域相關的信息,以求得問題的解。例如:
1.菜譜中的炒菜步驟
2.如果信道暢通,請發綠色信號 - 元知識:關于知識的知識,包括怎樣使用規則、解釋規則、校驗規則、解釋程序結構等知識。
1.2 知識表示
知識表示可看成是一組事務的約定,以把人類知識表示成機器能處理的數據結構。對知識進行表示的過程就是把知識編碼成某種數據結構的過程。
知識表示方法分為:
1.3 知識表示準則
- 表示知識的范圍是否廣泛
- 是否適于推理
- 是否適于加入啟發信息
- 是否適于計算機處理
- 是否有高效的求解算法
- 陳述性表示還是過程性表示
- 能夠表示不精確知識
- 能夠在同一層次上和不同層次上模塊化
- 知識和元知識能夠用統一的形式表示
- 表示方法是否自然
2. 一階謂詞邏輯表示法
一階謂詞邏輯以樹立邏輯為基礎,是到目前為止能夠表達人類思維和推理的一種最精確的形式語言。其表現方式和人類自然語言也非常接近,容易為計算機理解和操作,并支持精確推理。
基本概念
- 命題:具有真假意義的陳述句。
- 邏輯聯結詞:用于將多個原子命題組合成復合命題。(包括否定、合取、析取、蘊含、等價聯結詞)
- 個體詞:領域內可以獨立存在的具體或抽象的客體。
- 在謂詞邏輯中,個體可以是常量也可以是變量(變元)
1.個體常量:表示具體的或特定的個體
2.個體變量:表示抽象的或泛指的個體
3.個體域(論域):個體變量的取值范圍,可以是有限集合,也可以是無窮集合。 - 謂詞:用來刻畫個體性質以及個體之間相互關系的此。
eg:命題:x是有理數。其中x是個體變量,“……是有理數”是謂詞,幾維Rational,命題符號化為Rational(x)。 - n元謂詞:含有n個個體符號的謂詞P(x1,x2,...,xn)P(x_1,x_2,...,x_n)P(x1?,x2?,...,xn?)
- 函數:又稱函詞,是從若干個個體到某個個體的映射。
eg:Sun(1,2)表示1與2的加和。 - 謂詞與函數的區別:
1.謂詞實現的是從個體域中的個體到真或假的映射,而函數實現的是從個體域中的一個個體到另一個個體的映射,無真值可言。
2.在謂詞邏輯中,函數本身不能單獨使用它必須嵌入到謂詞中。 - 量詞:是表示個體數量屬性的詞。包括全稱量詞和存在量詞。
謂詞邏輯表示法特性
- 優點:
1.精確性:可以較準確地表示知識并支持精確推理
2.通用性:擁有通用的邏輯演算方法和推理規則
3.自然性:是一種接近于人類自然語言的形式語言系統。
4.模塊化:各條知識相對獨立,它們之間不直接發生聯系,便于知識的添加、刪除和修改。 - 缺點:
1.表示能力差:智能表示確定性知識,不能表示非確定性知識、過程性知識和啟發式知識。
2.管理困難:缺乏知識的組織原則,知識庫管理困難
3.效率低:把推理演算與知識含義截然分開,往往使推理過程冗長,降低了系統效率。
3.產生式規則表示法
產生式系統是用規則序列的形式來描述問題的思維過程,形成求解問題的思維模式。系統中的每一條規則稱為一個產生式。目前產生式規則表示法已成為專家系統首選的知識表示方式,也是人工智能中應用最多的一種知識表示方式。
基本概念:事實與規則
- 事實:斷言一個語言變量的值或斷言多個語言變量之間關系的陳述句。
eg.路是平的
語言變量:路;語言變量的值:平的 - 確定性事實:一般用三元組的形式表示為(對象,屬性,值)或(關系,對象1,對象2)
- 不確定性事實:一般用四元組的形式表示為(對象,屬性,值,置信度)(關系,對象1,對象2,置信度)
- 規則:也稱為產生式,通常用于表示事物之間的因果關系。
- 確定性規則:通常表示為p→Q或IFPTHENQp \rightarrow Q \quad 或\quad IF~ P ~THEN~Qp→Q或IF?P?THEN?Q
1.P是產生式的前提或條件;
2.Q是一組結論或操作,用于指出前提P所指示的條件被滿足時,應該得出的結論或應該執行的操作。 - 不確定性規則:通常表示為P→Q(置信度)或IFPTHENQ(置信度)P \rightarrow Q(置信度) \quad 或 \quad IF~P~THEN~Q(置信度)P→Q(置信度)或IF?P?THEN?Q(置信度)
1.P是產生式的前提或條件,Q是一組結論或操作。
2.已知事實與前提條件不能精確匹配時,只要按照置信度的要求模糊匹配,再按特定算法將不確定傳遞到結論。
產生式體統結構
產生式系統由數據庫、規則庫和推理機三部分組成。
- 數據庫:用來存放問題的初始狀態、已知事實、推理的中間結果或最終結論等。
- 規則庫:用來存放與求解問題有關的所有規則。
- 推理機:用來控制整個系統的運行、決定問題求解的線路,包括匹配、沖突消解、路徑解釋等。
正向推理的產生式系統
正向推理:從已知事實出發,通過規則求得結論,也稱為數據驅動方式或自底向上的方式。
推理過程:
1.規則庫中的規則前件與數據庫中的事實進行匹配,得到匹配的規則集合;
2.使用沖突消解算法,從匹配規則集合中選擇一條規則作為啟用規則;
3.執行啟用規則的后件,并將改規則的后件送入數據庫;充數上述過程直至達到目標。
示例如下:
反向推理的產生式系統
反向推理:從目標出發,反向使用規則,求得已知事實,也稱為目標驅動方式或自頂向下的方式。
推理過程:
1.規則庫中的規則后件與目標事實進行匹配,得到匹配的規則集合;
2.使用沖突消解算法,從匹配規則集合中選擇一條規則作為啟用規則;
3.將啟用規則的前件作為字母表;
重復上述過程。
- 優點:
1.有效性:既可以表示確定性知識,又可以表示不確定性知識,有利于啟發性和過程性知識的表達。
2.自然性:用“如果…,則…”表示知識,直觀、自然。
3.一致性:所有規則具有相同的格式,并且數據庫可被所有規則訪問,便于統一處理。
4.模塊化:各條規則之間只能通過數據庫發生聯系,不能相互調用,便于知識的添加、刪除和修改。 - 缺點:
1.效率低:求解是反復進行的“匹配——沖突消解——執行”過程,執行效率低。
2.表示的局限性:不能表示結構性或層次性知識。
4. 框架表示法
框架表示法是以框架理論為基礎發展起來的一種結構化知識表示方式,適用于表達多種類型的知識。框架理論認為人們對現實世界中各種事物的認識都是以一種類似于框架的結構存儲在記憶當中的,當面臨一個新事物時,就從記憶中找出一個適合的框架,并根據實際情況對其細節加以修改補充,從而形成對當前事物的認識。
基本概念
- 框架(Frame):是一種描述所論對象屬性的數據結構
1.框架名:用來指代某一類或某一個對象
2.槽:用來表示對象的某個方面的屬性
3.側面:有時一個屬性還要從不同側面來描述。
4.槽/側面的取值,可以為原子型,也可以為集合型。
- 框架分為兩種類型 :
1.類框架:用于描述一個概念或一類對象
2.實例框架:用于描述一個具體的對象
-框架的層次結構:
1.子類→subclassof]父類子類 \xrightarrow{subclass of]} 父類子類subclassof]?父類:類框架之間的包含關系
2.實例→instanceof]類實例 \xrightarrow{instance of]} 類實例instanceof]?類:實例框架和類框架的從屬關系。
下層框架可以從上層框架集成某些屬性和值。
框架示例:
- 優點:
結構化:分層次嵌套式結構,既可以表示知識的背部結構,又可以表示知識之間的聯系。
繼承性:下層框架可以從上層框架集成某些屬性或值,也可以進行補充修改,減少冗余信息并節省存儲空間。
自然性:框架理論符合人類認知的思維過程。
模塊化:每個框架是相對獨立的數據結構,便于知識的添加、刪除和修改。 - 缺點:
不能表示過程性知識
缺乏明確的推理機制
5.腳本表示法
腳本是一種與框架類似的知識表示方法,由一組槽組成,用來表示特定領域內一些時間的發生序列,類似于電影劇本。腳本表示的知識有明確的時間或因果順序,必須是前一個動作完成后才會觸發下一個動作。與框架相比,腳本用來描述一個過程而非靜態知識。
腳本組成
- 進入條件:給出腳本中所描述時間的前提條件。
- 角色:用來描述實踐中可能出現的人物。
- 道具:用來描述事件中可能出現的相關物體。
- 場景:用來描述事件發生的真實順序。一個事件可以由多個場景組成,而每個場景又可以是其它事件的腳本。
- 結果:給出在腳本所描述事件發生以后所產生的結果。
示例
- 優點:在非常狹小的領域內,腳本表示卻可以更細致地刻畫步驟和時序關系,適合于表達預先構思好的特定知識或順序性動作及事件,如故事情節理解、智能對話系統等。
- 缺點:相較于框架表示,腳本表示表達能力更受約束,表示范圍更窄,不具備對于對象基本屬性的描述能力,也難以描述復雜事件發展的可能方向。
6.語義網表示法
語義網的概念來源于萬維網,是萬維網的變革與延伸,是Web of documents向Web of data的轉變,其目標是讓機器或設備能夠自動識別和理解萬維網上的內容,使得高效的信息共享和機器智能協同成為可能。
簡介
-
本質:以Web數據的內容(即語義)為核心,用機器能夠理解和處理的方式鏈接起來的海量分布式數據庫。
-
特征:
1.Web上的事物擁有唯一的URI
2.事物之間由鏈接關聯。
3.事物之間鏈接顯式存在并擁有不同類型
4.Web上事物的結構顯式存在語義網提供了一套為描述數據而設計的表示語言和工具,用于形式化的描述一個知識領域內的概念、術語和關系
-
第一層:Unicode和URI(uniform resource identifier),是整個語義網的基礎,Unicode處理資源的編碼,實現網上信息的統一編碼;URI負責標識資源,支持網上對象和資源的驚喜標識。
-
第二層:XML+NS(name space)+XML Schema,用于表示數據的內容和結構,通過XML標記語言將網上資源信息的結構、內容和數據的表現形式進行分離。
-
第三層:RDF+RDF Schema,用于描述網上資源及其類型,為網上資源描述提供一種通用框架和實現數據集成的元數據解決方案。
-
第四層:Ontology,用于描述各種資源之間的聯系,揭示資源本身及資源之間更為復雜和豐富的語義聯系,明確定義描述屬性或類的術語語義及術語間關系。
-
第五層:邏輯層,主要提供公理和推理規則,為智能推理提供基礎,該層用來產生規則。
-
第六層:證明層,執行邏輯層產生的規則,并結合信任層的應用機制來評判是否能夠信賴給定的證明。
-
第七層:信任層,注重于提供信任機制,以保證用戶代理在網上進行個性化服務和彼此間交互合作時更安全可靠。
XML,RDF和Ontology為核心層,用于表示信息的語義
RDF,資源描述框架,是一種資源描述語言,利用當前的多種元數據標準來描述各種網絡資源,形成人機可讀,并可由機器自動處理的文件。
RDF核心思想:利用Web標識符來標識事物,通過指定的屬性和相應的值描述資源的性質或資源之間的關系。
RDF的基本數據模型包括資源(resource)、屬性(property)和陳述(statement)。
陳述:特定的資源加上一個屬性和相應的屬性值就是一個陳述,其中資源是主題,屬性是謂詞,屬性值是客體。
RDFS是RDF的擴展,它在RDF的基礎上提供了一組建模原語,用來描述類、屬性以及它們之間的關系。
1.Class, subClassOf:描述類別層次結構。
2.Property,subPropertyOf:描述屬性層次結構。
3.domain,range:聲明屬性所應用的資源類和屬性值類。
4.type:聲明一個資源是一個類的實例。
- 優點:
簡單:資源以三元組的形式描述,簡單、易控制。
易擴展:描述和詞匯集分開,具備良好的可擴展性。
包容性:允許定義自己的詞匯集,并可以無縫使用多種詞匯集來描述資源。
易綜合:RDF認為一切都是資源,這樣很容易綜合描述。 - 缺點:
1.不能準確描述語義:同一個概念有多種詞匯表示,同一個詞匯有多種含義。
2.沒有推理模型,不具備推理能力。
Ontology
本體通過對概念的嚴格定義和概念與概念之間的關系來確定概念的精確含義,表示共同認可的、可共享的知識。在語義網中,ontology具有非常重要的地位,是解決語義層次上Web信息共享和交換的基礎
-
本體的定義:
哲學界:對世界上客觀存在物的系統地描述,即存在論。
工業界:Studer:本體是共享概念模型的明確的形式化規范說明。
1.概念模型(conceptualization):本體是通過抽象客觀世界的概念而得到的模型,其表示的含義獨立于具體的環境狀態。
2.明確性(explicit):本體所使用的概念及使用這些概念的約束都有明確的定義,沒有二義性。
3.形式化(formal):本體是計算機可處理的,而非自然語言。
4.共享(shared):本體體現的是共同認可的知識,反映的是相關領域中公認的概念集合,它所針對的是團體而非個體。 -
本體的組成:O={C, R, F, A, I}
概念(concept)或類(class),關系(relation),函數(function),公理(axiom),實例(instance)
7.知識圖譜概念起源
知識圖譜的概念最早出現于Google公司的知識圖譜項目,體現在使用Google搜索引擎時,出現于搜索結果右側的相關知識展示。
-
實體(entity):現實世界中可區分、可識別的事物或概念
-
關系(relation):實體和實體之間的語義關聯
-
事實(fact):陳述兩個實體之間關系的斷言,通常表示為(head entity, relation, tail entity)三元組形式。
-
狹義知識圖譜:具有圖結構的三元組知識庫。
知識庫中的實體作為知識圖譜中的節點。
知識庫中的事實作為知識圖譜中的邊,邊的方向由頭實體指向尾實體,邊的類型就是兩實體間關系類型。
-
知識圖譜不太專注于對知識框架的定義,而專注于如何以工程的方式,從文本中自動抽取或依靠眾包的方式獲取并組件廣泛的、具有平鋪結構的知識實例,最后再要求使用它的方式具有容錯、模糊匹配等機制。
-
知識圖譜的真正魅力在于其圖結構,可以在知識圖譜上運行搜索、隨機游走、網絡流等大規模圖算法,使知識圖譜與圖論、概率圖等碰撞出火花。
8. 分布式知識表示
- 核心思想:將符號化的實體和關系在低維連續向量空間進行表示,在簡化計算的同時最大程度保留原始的圖結構。
1.將實體和關系在向量空間進行表示(向量/矩陣/張量)。
2.定義打分函數,衡量每個三元組成立的可能性。
3.構造優化問題,學習實體和關系的低維連續向量表示。
- 方法類型:
1.位移距離模型(translational distance models):采用基于距離的打分函數來衡量三元組成立的可能性。
2.語義匹配模型(semantic matching models):采用基于相似度的打分函數來衡量三元組成立的可能性。
參考:Wang et al. Knowledge Graph Embedding: A Survey of Approaches and Applications. IEEE TKDE, to appear, 2017.
https://ieeexplore.ieee.org/document/8047276
小結
- XML: 提供了一種結構化文檔的表層語法,但沒有對文檔含義施加任何語義約束。https://www.w3.org/XML/
- RDF:是一種關于對象(資源)和它們之間關系的數據模型,該模型具備簡單語義,能夠用XML語法表示。https://www.w3.org/TR/rdf-concepts/
- RDF Schema:十一組描述RDF資源的類和屬性的建模原語,提供了關于這些類和屬性的層次結構的語義。https://www.w3.org/TR/rdf-schema/
- OWL:添加了更多用于描述類和屬性的建模原語,支持更加豐富的語義表達并支持推理。https://www.w3.org/TR/2004/REC-owl-ref-20040210/
總結
以上是生活随笔為你收集整理的知识图谱学习笔记(三)——知识表示方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Week7 B - TT 的旅行日记
- 下一篇: 女生也玩橄榄球?而且还有世界杯?!