當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【译】Build Knowledge Graph from unstructured corpus using Machine Learning

發布時間：2025/3/15 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了【译】Build Knowledge Graph from unstructured corpus using Machine Learning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

從非結構化數據創建知識圖的問題是眾所周知的機器學習問題。?甚至沒有一個組織為完全豐富的知識圖達到100％的準確率。?我沒有什么發現可以幫助一個新手入門。

在轉向調查結果之前，我會讓你從非結構化語料庫中解讀構建知識圖的問題。?讓我們考慮這種情況。?假設我們有非常小的語料庫：

“蘋果公司由史蒂夫喬布斯創立，現任首席執行官是蒂姆庫克，蘋果公司推出了多款產品，如Ipad，iphone，MAC等。”

語料庫也可能是非常復雜的句子。?問題是我們如何才能從這些非結構化的尸體中建立知識圖。?如果我們創建通用知識圖，那么我們的系統應該能夠提供像“誰創立了蘋果公司？”這樣的答案。?，“蘋果公司推出的產品是什么？”?等等。

幾種技術來創建知識圖：

1.）監督技術：

在信息提取領域中使用的監督模型涉及將問題描述為分類問題，并且他們通常在給定一組正面和負面示例的情況下學習辨別分類器。?這些方法從句子中提取一組特征，一般包括上下文單詞，3個詞性標簽，實體之間的依賴路徑，編輯距離等，并從大型標注訓練語料庫中獲取相應的標簽。

句子分段：它將輸入作為一個原始語料庫，并將其分成多個句子，這些句子基本上是一個字符串列表。
Tokenization：它將采用拆分句子列表并將其轉換為基本上是字符串列表列表的標記。
POS標記：它將轉換為pos標記的句子，它基本上是元組列表的列表。
實體檢測：它將檢測實體并創建基本上是樹列表的句子塊。
關系檢測：它將分類特定的關系是否滿足給定的實體集合。

這里有幾點關于監督方法及其利弊。

它需要一組關系類型。
一個命名實體標記器
大量的標記數據（分解為訓練集，開發集和測試集）
功能表示
分類器（Na?veBayes，MaxEnt，SVM ...）

以下是我們在監督式方法中可以使用的所有功能

輕量級功能 - 只需要很少的預處理

詞：詞目，詞袋，雙格（之間或之后）

實體類型：人員，組織，設施，地點和地理政治實體/ GPE

實體級別：NAME，NOMIAL和PRONOUN

中等重量的功能 - 需要基準短語組塊

基本短語塊路徑

袋頭大袋

重量級功能 - 需要完整的句法分析

實體之間的依賴樹路徑

分析實體之間的樹形路徑

優點?：

可以適應不同的域
具有足夠的手標記訓練數據和足夠的訓練測試的高準確性

缺點?：

必須標注大型訓練集（昂貴）
無法很好地推廣到不同的流派
對高階實體關系的擴展也很困難。

2.）半監督技術

這種方法從一些已知的關系三元組開始，然后遍歷文本以提取與種子三元組相匹配的模式。?這些模式用于從數據集中提取更多關系，然后將學習關系添加到種子示例中。?重復該方法直到不能從數據集中學習到更多的關系。

它的一個更流行的算法算法是Snowball ML算法。

SnowBall算法：

1.）從元組的種子集合R開始。

2.）從R生成模式的集合P.?計算P中每個Pattern的支持度和置信度，并以較低的支持度或置信度放棄這些模式。

3.）生成新的匹配模式P的元組Set T。?計算T中每個元組的置信度，用conf（t）> threshold將T中的元組t添加到R中。

4.）返回到第2步。

算法的進一步說明：

1.）從Seed例子開始

2.）使用實體標記器來標記實體

3.）抓住提取的圖案

一般來說，模式是5元組形式:(左，標簽1，中間，標簽2，右側）

Tag1，tag2是實體標簽。?左，中，右是加權項的向量

4.）通過計算支持和置信度對模式進行聚類并過濾每個聚類中的模式

????????5.）使用模式，掃描集合以生成新的種子元組

初始種子元組的形式為：（tag1，tag2，tag3，tag4等）

例如：（組織，產品，位置等），因此種子示例可能是（Apple，ipad，california）或（ibm，db2，Armonk）等。

優點?：

避免手動標記大量數據

缺點?：

為每個關系需要種子（原始種子的質量很重要）
每次迭代時語義漂移的大問題
精度不高

3.）遠程監督方式

它使用Freebase關系數據庫來獲得大量訓練實例。?我們通過隨機選擇沒有出現在任何Freebase關系中的實體對并為它們提取特征，在訓練階段為“不相關”關系建立一個特征向量。

我們使用利用L-BFGS和高斯正則化進行優化的多級邏輯分類器。?我們的分類器將實體對和特征向量作為輸入，并基于屬于該關系的實體對的概率返回關系名稱和置信度分數。?一旦在測試過程中發現的所有實體對都被分類后，就可以通過置信度評分進行排序，并用于生成n個最可能的新關系實例的列表。

優點：

利用無限量的文本數據
允許非常大量的弱功能
對訓練語料庫不敏感：類型獨立

https://www.linkedin.com/pulse/build-knowledge-graph-from-unstructured-corpus-using-machine-anish/

總結

以上是生活随笔為你收集整理的【译】Build Knowledge Graph from unstructured corpus using Machine Learning的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【译】CREDITS: Peer-to-
下一篇：【译】KNOWLEDGE EXTRACT