无需人工!无需训练!构建知识图谱 BERT一下就行了!
文:Sherry
今天給大家帶來的是一篇號稱可以自動建立知識圖譜的文章《Language Models are Open Knowledge Graphs》,文中提出了一個叫Match and Map(MAMA)的模型,無需人工!無需訓練!只需語料和預訓練好模型,就可以從頭建立出知識圖譜,甚至可以挖掘出人類發現不了的新關系。當Wikipedia再次邂逅BERT,知識圖譜就誕生啦!
通常來說知識圖譜的建立需要人工定義好的關系或者是實體類別,然后基于這些我們稱之為schema的骨架進行建立整個圖譜。而傳統的自動識別關系及實體的方法大都基于訓練。而MAMA就不一樣了,它就像媽媽一樣可以幫我們實現全自動圖譜建立:
不需要人工定義的schema,而是依靠開放實體抽取和開放關系抽取的方法去建立圖譜。
不需要在開放關系抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。
模型不針對一個單一的關系逐條分析,一次喂給MAMA整個段落,她就回報給你所有triple
到底是怎么做到的呢?
開放知識圖譜
想要建立MAMA,我們先回顧一下知識圖譜中都有哪些基本元素:(熟悉知識圖譜的同學們可以跳過這部分)知識圖譜,我們想要把大量的非結構化的知識(一般是大量的網頁及其中的文本)轉化成結構化的圖結構,那我們的基本結構中既要有知識也要有圖。目前,知識圖譜中一共儲存兩類知識:一類是實體,一般是諸如人名地名這類的名詞;另外一類是這些實體之間的關系,比如出生地,職業。有了知識,我們只需要把它建立成圖結構,那么把實體看成圖中的點,關系看成圖中的邊就可以了。開放知識圖譜一般用三元組(起始實體,關系,結束實體)來表示邊,所有邊都被以這個形式儲存之后圖譜就建立好啦。MAMA怎樣構建圖譜呢?
要構建知識圖譜第一步是獲取基本原料:一個清洗好的語料庫和一個預訓練模型。?文中直接采用了維基百科作為語料,預訓練模型則直接用發布的模型就可以了。
接下來關鍵的一步是自動抽取三元組,也是本文的主要貢獻點。?實體抽取的技術已經相對成熟,給定一個語料中的段落,我們先用開源工具抽取出它的所有實體,來構成我們可能建立的關系候選。我們按照他們在句子中出現的順序,分為頭實體和尾實體。然后重點來了!我們利用BERT這類預訓練模型的注意力權重來提取實體間的關系。
對于一個(頭實體,尾實體)對,我們用Beam search的方法從一個頭實體出發生成一個到尾實體的序列。比如圖中從Dylan出發,以songwriter結束。對于每一位置,我們看注意力權重矩陣里attend到這個實體的這一列,并且只關注在句子中當前位置之后的token的注意力權重,選擇權重最大的下一個token加入當前序列。例子中從Dylan出發選擇了is這個token,然后重復之前的操作,下一個我們選到了songwriter,那么搜索結束,我們就得到了一個(Dylan,is, songwriter)的序列。聰明的小伙伴們已經發現了,這樣提取出來的序列不就是我們想要的三元組嗎?沒錯!我們再加上一些修修補補,MAMA就可以為我們完成構建圖譜的工作啦!
按上面這樣選出來的序列雖然可以簡要表示我們所需要的信息,但它還不是嚴格意義上的關系三元組——我們有可能提取出多個token作為關系,文中針對這個問題對關系提取加入了一些限制:
首先,我們只保留注意力權重和大于閾值的序列。這是為了防止BERT這類模型單純地提取出符合語言模型的序列,而不是那些對實體有特殊意義的關系。
一個反例:在閾值篩選之前,模型會從句子 Rolling Stone wrote: “No other pop song has so thoroughly challenged artistic conventions” 中抽取關系(Rolling Stone, wrote, pop song)
提取出來的關系必須在整個語料中出現足夠多的次數。這樣是為了防止出現一些過于細節偏門的關系。
例如 (Dylan, signed to Sam Peckinpah’s film, Pat Garrett and Billy the Kid),這里的關系特指簽約了Sam Peckinpah的電影,非常罕見且缺乏泛化性。
關系序列必須是句子中出現的連續token。這樣可以防止提取出沒有意義的關系。
例如(Rolling Stone, wrote challenged, conventions),這里wrote 和chanllanged不表示合理的關系。
現在,我們就已經可以用MAMA從語料庫中建立一個知識圖譜啦!
MAMA效果如何?
為了方便和其他方法比較,我們需要把這個開放圖譜和已有的數據集對應上。使用已經比較成熟的實體鏈接,關系映射方法就可以了。
這樣造出來的MAMA無論在準確率還是召回率上都超過了之前的方法。
除了那些可以被對應到人造數據集中的關系之外,MAMA的一大亮點在于她可以發現其他沒有被schema預先定義的關系:
圖中藍色的關系是在預定義schema中出現的部分,MAMA額外還生成了33%的新關系(黃色)。其中像Dylan和其他歌手曾經合作過,曾經是某個樂隊的成員等,這樣的信息是人工schema中所沒有的,但對于歌手來說卻是很重要。如果可以自動完善知識圖譜和schema的構建,那就解決了KG中很難窮盡所有關系的難題了。
一些評價
個人認為,MAMA的整體思想還是很新穎且值得借鑒的。但是實驗部分以及一些細節上的設置還需要更精細的設置。一大缺陷在于他沒有和其他的SOTA進行比較,效果尚未可知。總體來說,為自動化的知識圖譜構建提供了一個不錯的思路。
論文鏈接:
https://arxiv.org/pdf/2010.11967.pdf
講解視頻:
https://www.youtube.com/watch?v=NAJOZTNkhlI&t=276s
萌屋作者:Sherry。
本科畢業于復旦數院,轉行NLP目前在加拿大滑鐵盧大學讀CS PhD。經歷了從NOIer到學數學再重回CS的轉變,卻堅信AI的未來需要更多來數學和自認知科學的理論指導。主要關注問答,信息抽取,以及有關深度模型泛化及魯棒性相關內容。
作品推薦:
Google Cloud TPUs支持Pytorch框架啦!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的无需人工!无需训练!构建知识图谱 BERT一下就行了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021,你好哇!发个小红包可好~
- 下一篇: 老板让我用少量样本 finetune 模