知识图谱还有哪些方向值得深入研究?这 6 篇最新论文给你答案
寫在篇首
本文精選 6?篇浙江大學 AFZT 知識引擎實驗室發表在 ACL 2022、WWW 2022、?WSDM 2022、AAAI 2022 等頂會的知識圖譜相關工作,帶你快速了解知識圖譜領域最新研究進展。歡迎關注實驗室公眾號「浙大KG」。
#01.
基于強化學習的實體對齊
論文標題:
Deep Reinforcement Learning for Entity Alignment
收錄會議:
ACL 2022 Findings
論文鏈接:
https://openreview.net/pdf?id=CRBzhRdkycU
代碼鏈接:
https://github.com/guolingbing/RLEA
1.1 引言
實體對齊(Entity Alignment)是知識圖譜表示學習研究中關鍵任務之一,其基本目標在于發現兩個知識圖譜間指向同一現實對象的實體對,以便將不同知識圖譜鏈接起來,更好地支持下游應用。
目前,基于知識圖譜嵌入(Knowledge Graph Embedding)的方法,如 MTransE、JAPE,受到了廣泛關注,它們提供了一種端到端的、具有強魯棒性的實體對齊手段。盡管這些方法在性能和效率上相較以往有了顯著提升,但它們很少考慮如何根據訓練得到的實體嵌入(Entity Embedding)高效地搜尋和評估匹配的實體對,往往只是強行把相似度最高的候選實體直接作為輸入實體的匹配,而不考慮該候選實體也許已經找到了更優的匹配。
下圖中的例子說明了這一現象,對角線對應的為正確匹配,顏色越深則表示兩個實體相似度越高。目前主流方法貪心地選擇相似度最高的匹配對,如左圖所示,將會錯誤地只選擇第一列作為匹配結果。而如果將匹配過程視為一個序列,如右圖所示,已經匹配的候選實體不能再被后續輸入實體匹配,就能避免落入高相似度陷阱。
1.2?基于強化學習的知識圖譜實體對齊
上述序列決策方式盡管能夠正確地排除一些候選實體,但也存在著累積錯誤的風險。因此,本文提出了一種基于強化學習的方法來克服這一缺陷,其并不直接使用實體嵌入的相似度作為判斷依據,而是直接把嵌入作為輸入,訓練一個策略網絡(Policy Network)使其能夠尋找到盡可能多的實體對,以實現最大回報(Reward)。同時,本文還采用了一種課程學習(Curriculum Learning)的策略,在訓練過程中逐步增加難度,避免因任務復雜性而導致學習失敗。
下圖展示了策略網絡的基本構成,對于輸入實體和候選實體,我們選擇了額外k個與輸入實體接近的實體(即 opponent entities)作為context信息,可以用于拒絕當前匹配。對于每個實體,我們使用GNN模型同時編碼其鄰居向量以得到中間表示。除了線性層以外,最終的輸出層還考慮了實體對間的互信息,綜合兩個評估器得到最終的輸出標簽,即匹配或不匹配。
下圖中展示了學習過程中,策略網絡是如何與環境(Environment)互動的。在環境中維持了一個匹配對序列,其排序方法為實體對間的相似度,以保證在測試階段該序列仍可用。如前文所述,相似度高的實體對未必真正匹配,因此在訓練過程中本文通過對比實際標簽與相似度信息來判斷一個匹配對的難易程度,根據當前訓練輪數,一些較高難度的匹配對將有更大的概率直接逃過訓練。在一個情節(Episode)中,環境所給出的實體對將被策略網絡一一判斷,被認為匹配的實體對將會直接排除環境序列中的所有涉及這些實體的匹配對,這一過程一直持續到序列終止或所有實體均被匹配。
1.3?實驗
本文選取了數個性能領先且具有不同特點的實體對齊模型作為對比,并在 OpenEA 數據集上進行了實驗。結果如下表所示:本文所述方法 RLEA 在全部四種數據集上均相較原有方法有明顯提升。Seq 為僅僅采用序列決策而不涉及強化學習的對比方法,可以看出,其仍在絕大多數情況下也優于目前所采用的貪心策略。
同時,本文還與傳統實體對齊方法進行了對比。在此之前,盡管基于知識圖譜嵌入的方法具有許多優點,但在絕對性能上與基于字符匹配等技術的傳統方法有著較大差距。本文所提出的基于強化學習的方法不但縮小了這一差距,并且在一些數據集上(如D-Y)顯著優于傳統方法。
#02.
“知識提示”學習之知識約束
論文標題:
KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction
收錄會議:
WWW 2022
論文鏈接:
https://arxiv.org/abs/2104.07650
代碼鏈接:
https://github.com/zjunlp/KnowPrompt
2.1 動機
提示學習在具體的任務中面臨諸多挑戰。以關系抽取(RE)為例,如下圖所示:一方面,為關系抽取構建合適的提示模板需要專業的領域知識,且模板需要大量的驗證集進行驗證,成本高昂;另一方面當關系抽取的標簽的個數發生變化時,標簽詞搜索過程的計算復雜度非常高(通常與類別個數呈指數關聯),因此較難在語言模型詞匯表中針對特定的關系標簽獲得合適的標簽詞。我們觀察到,關系標簽之間存在豐富的語義知識,即關系三元組之間存在結構約束。例如,如果一對實體包含“person”和“country”的類型,則 [MASK] 在關系“org:city_of_headquarters”上的預測概率會相對較低。此外,關系也約束它的實體的類型。
受此啟發,我們將實體關系約束知識植入提示學習過程,并提出了 KnowPrompt 方法。我們通過可學習的虛擬答案詞和虛擬類型詞構建知識注入的提示,并通過實體關系約束植入外部結構化知識,以降低模板構建成本并提升任務對領域任務的感知。
2.2 方法
具體來說,KnowPrompt 模型分為提示的構建和優化兩個步驟:
2.2.1 Prompt Construction with Knowledge Injection
因為一個經典的提示由兩個部分組成,即模板和一組標簽詞映射,我們提出了虛擬類型詞(實體)和虛擬答案詞(關系)的構建,用于關系抽取任務的知識注入。
(1) Entity Knowledge Injection
Type Marker 方法可以額外引入實體的類型信息以提高性能,但需要對類型信息進行額外注釋,而實體類型標注在數據集中并不總是可用的。因此,我們通過特定關系中包含的先驗知識而不是注釋來獲得潛在實體類型的范圍。例如,給定關系“per:country_of_birth”,很明顯與該關系匹配的頭實體屬于“人”,而與該關系匹配的尾實體屬于“國家”。
直觀地說,我們根據關系類型分別估計在候選集 和 上的潛在實體類型對應的先驗分布 和 ,其中先驗分布是通過頻率統計來得到的。我們在實體周圍分配虛擬類型詞,這些詞使用一組潛在實體類型的聚合嵌入進行初始化。由于初始化的虛擬類型詞對于特定實體來說不是精確類型,這些可學習的虛擬類型詞可以根據上下文動態調整,起到類弱化的 Type Marker 的作用。具體初始化方法如下:
(2)?Relation Knowledge Injection
以往關于提示學習的研究通常通過自動生成在詞匯表中的一個標簽詞和一個任務標簽之間建立一對一的映射,這種搜索計算復雜度高,且未能利用關系標簽中豐富的語義知識。為此,我們假設在語言模型的詞匯空間中存在一個虛擬答案詞 ,它可以表示關系的隱含語義。從這個角度來看,我們在 MLM Head 層拓展額外的可學習關系嵌入來作為虛擬答案詞集 ,以表示相應的關系標簽 Y。我們用掩碼位置處的 上的概率分布重新形式化 。
具體來說,我們設置 和 ,其中 表示通過分解關系標簽 r 得到的關系語義詞在候選集 上的概率分布,m 是關系標簽的數量。此外,我們采用 的加權平均函數來平均 中每個單詞的嵌入并初始化這些關系表示,這可以為提示構建注入關系的語義知識。虛擬答案詞 的可學習關系嵌入初始化如下:
其中 是虛擬標簽詞 的嵌入,e 表示 L 的詞嵌入層。
2.2.2 Synergistic Optimization with Knowledge Constraints
由于實體類型和關系標簽之間存在密切的交互和聯系,且虛擬類型詞以及答案詞應該與周圍的上下文相關聯,我們進一步引入了包含結構約束的協同優化方法來優化虛擬類型詞和虛擬答案詞 以植入關系約束知識。
(1) Context-aware Prompt Calibration
盡管虛擬類型和答案詞是基于知識初始化的,但它們在潛在變量空間中并非最優,它們應該與周圍輸入的上下文相關聯。因此,需要通過感知上下文來校準它們的表示。給定掩碼位置 上的概率分布
402 Payment Required
,我們通過下列損失函數優化虛擬類型詞以及答案詞:(2) Implicit Structured Constraints
為了融合結構化知識,我們使用了額外的結構化約束來優化提示。具體來說,我們使用三元組 來描述關系事實,并定義隱式結構化約束的損失如下:
其中 是負樣本, 是 margin, 指 sigmoid 函數, 是評分函數。
2.3 實驗
為了驗證 KnowPrompt 的效果,我們在五個常見的關系抽取數據集上評測(具體的數據已在 Github 開源發布),并在全監督和少樣本兩個設定下進行了實驗。如下表所示,KnowPrompt 在全監督場景和低資源少樣本場景都取得了最優的性能。具體的實驗結果和分析可以參見論文。
#03.
“知識提示”學習之選擇性知識植入
論文標題:
Ontology-enhanced Prompt-tuning for Few-shot Learning
收錄會議:
WWW 2022
論文鏈接:
https://arxiv.org/pdf/2201.11332.pdf
3.1 動機
近年來,不少知識植入預訓練語言模型的方法被提出,然而并非所有的外部知識都有利于模型性能的提升,不少外部知識會帶來噪音并損害模型性能。針對提示學習,如何在植入外部知識過程中選擇任務需要的合規、合適、合理的外部知識,并解決知識噪音和知識異構性仍面臨一定的挑戰。比如,在模板構建中,是否所有的外部提示語料和外部領域詞典都有利于知識提示的性能提升?如何高效地選擇合適的任務相關的知識并優化學習知識表示?
在本文中,我們針對上述挑戰,提出了基于本體增強的知識提示方法,并通過知識線性化和選擇性植入來降低知識噪音和異構性帶來的影響。
3.2 方法
具體的說,我們利用任務相關的外部本體知識,將本體知識線性化成文本來作為一種特殊的提示,提出了本體增強知識提示方法 OntoPrompt。一種直覺是,預訓練語言模型可以從大數據中獲取大量的統計信息;而外部知識,如知識圖譜和本體庫,是人類智慧結晶。如下圖所示,本體增強的知識提示學習,可以充分利用大數據先驗和人類的智慧結晶。接下來我們介紹方法的細節。
我們的方法是一個通用的框架。如圖所示,我們遵循之前的提示學習思路,使用特定的任務提示模板來構建任務輸入和生成。提示模板構建如下公式所示:
模型可以得到候選類的概率分布為:
我們的方法將外部的知識以文本形式植入提示學習框架中,以實現模型對任務和領域的感知具體的輸入如下圖所示:
3.2.1 知識線性轉換?
在本文中,外部的本體知識表示為 O={C,E,D},其中 C 是一組概念,E 是本體論之間的邊,D 是每個本體知識的文本描(本體框架包含一段文本描述,它們是概念的詞匯信息,也可以使用屬性信息,記作 rdfs:comment)。我們在關系抽取和事件抽取中利用與實體相關的類型本體,在知識圖補全中利用 Domain(即頭部實體類型)和 Range(即尾部實體類型)約束。對于下游不同任務,我們對每個任務利用不同的本體源進行本體線性化轉換。我們首先從外部知識圖譜中提取每個實例的本體,然后將這些本體轉換為文本形式作為輔助提示,并拼接到原始的提示末尾。?
3.2.2 知識選擇性注入?
由于不加選擇的知識植入可能會給原始文本引入一些噪聲,并導致性能下降。為了解決這一問題,受到 K-BERT 啟發,我們提出了跨片段選擇性知識植入方法。如下圖所示。我們使用一個可見矩陣來限制知識注入對輸入文本的影響。在語言模型體系結構中,我們在 softmax 層之前添加了具有自注意權重的注意掩碼矩陣。
3.2.3 協同訓練算法聯合優化知識和文本?
由于從本體庫植入的知識應與輸入文本序列相關聯。因此,我們使用聯合優化方法來學習外部的本體序列表示和輸入文本序列的表示。首先,我們使用實體詞嵌入來初始化和優化本體詞令牌,同時固定語言模型中的其他參數。然后,我們對模型的所有參數進行優化。?
3.3 實驗結果?
我們在關系抽取、事件抽取、知識圖譜鏈接預測三個任務上驗證了模型的性能。在多個數據集包含 TACRED-Revisit、SemEval-2010Task8、Wiki80、DialogRE、ACE2005、UMLS、WN18RR、FB15K-237,我們的方法在少樣本設定下均取得了較好的效果。囿于篇幅原因,具體的實驗結果可查閱正式論文。
#04.
基于知識圖譜蒸餾的低成本推理
論文標題:
DualDE: Dually Distilling Knowledge Graph Embedding for Faster and Cheaper Reasoning
收錄會議:
WSDM 2022
論文鏈接:
https://arxiv.org/pdf/2009.05912.pdf
4.1 背景
知識圖譜(Knowledge Graph)由以表示事實的三元組形式(頭實體,關系,尾實體)組成,可簡寫為 (h,r,t)。知識圖譜已被證明可用于各種 AI 任務,如語義搜索,信息提取和問答等。然而眾所周知,知識圖譜還遠非完備,這進而也促進了許多關于知識圖譜完備性的研究。其中比較常見且廣泛使用的方法是知識圖譜嵌入(KGE Knowledge Graph Embedding),如 TransE、ComplEx 和 RotatE 等。同時,為了獲得更好的性能,通常首選訓練具有更高維度的 KGE。
但是模型大小(參數的數量)以及推理時間的成本通常隨 embedding 維度的增加而快速增加,如圖 1 所示:隨著 embedding 維度的增大,性能增益越來越小,而模型大小和推理成本卻仍幾乎保持線性增長。此外,高維 KGE 在許多現實場景中是不切實際的,尤其是對于計算資源有限或者是在推理時間有限的應用中,低維的 KGE 是必不可少的。然而,直接訓練一個小尺寸 KGE 通常表現不佳,我們進一步提出一個新的研究問題:是否有可能從預訓練的高維 KGE 中獲得低維 KGE,在更快成本更低的情況下取得良好的效果。
知識蒸餾是一種廣泛使用的技術,用于從大模型(教師模型)中學習知識以構建較小的模型(學生模型)。學生從真實標簽和老師模型中的軟標簽這二者中學習。在本項工作中,我們提出了一種名為 DualDE 的新型 KGE 蒸餾方法,該方法能夠將高維 KGE 蒸餾提取出較小的嵌入尺寸,而精度損失很小或沒有損失。在DualDE中,我們考慮了老師和學生之間的雙重影響:1)教師對學生的影響;2)學生對教師的影響。
在老師對學生的影響方面,眾所周知,老師模型輸出的軟標簽會對學生產生影響。雖然在之前的許多蒸餾工作中,所有樣本都具有相同的硬標簽和軟標簽權重,但它們并沒有從老師模型那里區分不同樣本的軟標簽的質量的能力。
事實上,KGE 方法對不同三元組的掌握程度是不同的。對于一些難以被 KGE 方法掌握三元組,他們通常難以獲得可靠的分數。讓學生按照不可靠的分數模仿老師,會給學生模型帶來負面影響。為了獲得更好的蒸餾效果,我們建議學生應該能夠評估老師提供的軟標簽的質量并且有選擇地向他們學習,而非一視同仁地學習。我們在 DualDE 中引入了軟標簽評估機制來評估老師提供地軟標簽質量,并自適應地為不同地三元組分配不同的軟標簽和硬標簽權重,這將保留高質量軟標簽的積極作用并避免低質量軟標簽的負面影響。
在學生對老師的影響方面,以前的工作研究得并不充分。已有工作證明了蒸餾的整體表現還取決于學生對老師得接受程度。我們希望根據學生目前的學習情況不斷調整老師,讓老師更能被學生接受,提高最終的提煉效果。因此,我們在 DualDE 中提出了一種兩階段的蒸餾方法,通過根據學生的輸出調整教師來提高學生對教師的接受度。其基本思想是,盡管預訓練的老師已經很強了,但對于現在的學生來說,可能不是最適合的。還有相關工作指出,與學生具有相似輸出分布的教師更有利于學生的學習。因此,除了教師始終保持靜止的標準蒸餾階段外,我們還設計了第二階段蒸餾,其中教師解凍并嘗試反向向學生學習,以使其更容易被學生接受。
我們使用幾個典型的 KGE 方法和標準 KG 數據集評估 DualDE。結果證明了我們方法的有效性。本文的貢獻有三方面:
1. 我們提出了一種新穎的框架,能從高維 KGE 中提取低維 KGE,并取得良好的性能;
2. 我們在蒸餾過程中考慮了教師和學生之間的雙重影響,并提出了軟標簽評估機制來區分不同三元組的軟標簽的質量和兩階段蒸餾以提高學生對老師的適應性;
3. 我們通過實驗證明,我們的方案可以在很少的性能損失基礎上,將高維 KGE 的嵌入參數減少 7-15 倍,并將推理速度提高約 2-6 倍。
4.2 方法
模型整體框架如圖 2 所示:
蒸餾目標?
準備一個預訓練好的高維 KGE 模型(教師),并隨機初始化一個低維 KGE 模型(學生)。在 DualDE 中,訓練學生模型的硬標簽損失是KGE方法的原始損失,通常是二元交叉熵損失。此外,我們讓學生從目標三元組的整體可信度和嵌入結構這兩個方面模仿教師。
首先,對一個三元組 (h, r, t),教師和學生模型可以通過評分函數為其分配一個分數:1)學生模仿教師對三元組的整體可信度可以通過擬合兩個模型輸出的三元組分數完成;2)學生模仿教師的嵌入結構可以通過擬合兩個模型中三元組頭實體 embedding 和尾實體 embedding 的長度比和角度來反映。最后我們將教師和學生的三元組分數差異和嵌入結構差異之和作為軟標簽優化目標。
軟標簽評估機制?
軟標簽評估機制可評估教師提供的軟標簽的質量,并自適應地為不同的三元組分配不同的軟標簽和硬標簽權重,從而保留高質量軟標簽的積極作用,避免低質量軟標簽的負面影響。
理論上,KGE 模型會給正三元組更高的分數,給負三元組更低的分數,但對于一些 KGE 模型難以掌握的三元組則相反。具體來說,如果教師給一個負(正)三元組打高(低)分,這意味著教師傾向于將其判斷為正(負)三元組,那么教師輸出的這個三元組的軟標簽是不可靠的,甚至會誤導學生。對于這個三元組,我們需要削弱軟標簽的權重,鼓勵學生更多地從硬標簽中學習。
兩階段蒸餾方法?
上一部分介紹了如何讓學生從 KGE 教師那里提取知識,其中學生用硬標簽訓練,軟標簽由固定教師生成。為了獲得更好的學生,我們提出了一種兩階段蒸餾方法,通過解凍教師并讓其在蒸餾的第二階段向學生學習來提高學生對教師的接受度。
第一階段。第一階段類似于傳統的知識蒸餾方法,其中教師在培訓學生時保持不變。第二階段。在第二階段調整教師的同時,對于那些學生沒有掌握好的三元組,我們也希望減少學生的輸出對教師的負面影響,讓教師更多從硬標簽中學習,從而以保持教師的高準確性。因此,我們也將軟標簽評估機制應用于教師的調整。通過評估學生給每個三元組的分數,教師的硬標簽和軟標簽的權重被自適應分配。在此階段,教師和學生一起優化。
4.3 實驗結果
DualDE 在常用地數據集 WN18RR 和 FB15K237 上進行了實驗,與幾個當前先進的蒸餾方法相比,DualDE 體現了優越的性能。下面是部分實驗結果。
1. DualDE 提取的低維 KGE 比直接訓練的相同大小的 KGE 性能好得多,僅比原始高維 KGE 差一點或相同性能。
2. DualDE 提取的低維 KGEs 推理速度明顯快于原始高維 KGEs。
#05.
針對事件論元抽取學會高效地提問
論文標題:
Learning to Ask for Data-Efficient Event Argument Extraction
收錄會議:
AAAI 2022 SA
論文鏈接:
https://arxiv.org/abs/2110.00479
5.1 摘要
事件參數抽取 (EAE) 是信息抽取時發現特定事件角色參數的重要任務。在本研究中,我們將 EAE 轉換為一個基于問題的完形填空任務,并對固定離散標記模板性能進行實證分析。由于生成人工注釋的問題模板通常是耗時且耗費勞動,我們進一步提出了一種名為“Learning to Ask”的新方法,該方法可以在無需人工注釋的情況下學習 EAE 的優化問題模板。我們使用 ACE-2005 數據集進行實驗,結果表明我們基于優化提問的方法在 few-shot 和全監督設定中都取得了最先進的性能。
5.2 動機
事件參數提取 (EAE) 是信息提取中的一項重要而具有挑戰性的任務,它的目的是發現事件中每個參數的特定角色類型。例如,考慮到“ declared bankruptcy”一詞在“ My uncle declared bankruptcy in 2003 and his case closed in June 2004”中引發了宣布破產事件,EAE 旨在確定“ My uncle”在這句話中的事件角色參數,它的角色參數是“Org”。以前的 EAE 方法嚴重依賴于使用大量的訓練數據,導致在少量數據可用的場景中難以使用傳統方法。?
受啟發于最近的工作,事件提取 (EE) 作為一種機器閱讀理解問題 (MRC) 被重新引入,在這個范式中,問題模板被用于將輸入句子映射到一個合適的序列。然而對于 EAE,這些方法仍然需要優化一個額外的參數矩陣來進行分類,當可用的數據量有限時,這尤其具有挑戰性。因此為了彌補微調和預訓練之間的差距,我們做了一個嘗試,將 EAE 轉換為一個基于問題模板的完形填空任務。我們選擇使用陳述性句子作為問題模板,因為它們可以提高跨上下文的語義一致性,提高預測性能。
由于不同的提問策略會對事件提取方法的性能產生不同的影響,我們提出了一種新穎的 Learning to Ask (L2A) 方法,通過反向傳播優化問題模板,可以在連續嵌入空間中自動搜索最佳的偽問題令牌。如圖 1 所示,我們將一個問題與輸入的句子連接起來,并利用 [MASK] 來指示后續預測的事件類型。從而事件參數提取作為一種基于問題模板的完形填空任務,以掩碼語言建模的方式進行。在第二個優化模板的例子中,我們使用偽問題令牌來搜索最可能的事件參數角色類型。
5.3 模型
我們的 L2A 框架依賴于問題模板,該模板將一個輸入句子映射到一個標準 transformer 輸入序列:[CLS]question[SEP]sentence[SEP]。對于問題的模板構建,我們引入了兩種不同的策略:
1. L2A (base):輸入文本的人工問題模板,它用 [mask] 替換參數角色的令牌,并在問題模板中添加必要的提示信息,如事件類型和參數跨度標記。
2. L2A (pseudo):由于人工提示問題模板是勞動密集型的,并且可能導致EAE性能次優,因此我們進一步引入了問題模板的自動構造方法。具體來說,我們使用幾個未使用的標記 [u1]-[u8] 來形成一個偽問題模板,并固定語言模型的其他權重來學習優化的問題模板。 由于參數角色標簽包含語義信息,所以我們可以將 EAE 中的標簽映射簡化為單射函數。例如,我們可以定義投射到”Transaction.Transfer-Money”的函數為:
我們將事件角色的單個標記的詞匯表分布規范化,并將預測概率定義為:
其中 為對應于 [MASK] 位置的隱藏向量。接著,我們使用交叉熵損失將事件角色預測定義為:
其中 為 EAE 損失, 為交叉熵損失函數。為了使輸入文本更接近自然語言,我們利用了一個輔助優化對象。我們隨機掩蔽句子中的其他標記,并進行掩蔽語言模型預測如下:
其中 u 表示問題格式輸入序列, 為隨機掩碼的原始標記 x,x’ 表示掩碼處理后的輸入句子, 為二進制交叉熵損失函數。最后,我們優化以下對象:
#06.
融入基因本體知識的蛋白質預訓練
論文標題:
OntoProtein: Protein Pretraining With Gene Ontology Embedding
收錄會議:
ICLR 2022
論文鏈接:
https://arxiv.org/pdf/2201.11147.pdf
代碼鏈接:
https://github.com/zjunlp/OntoProtein
6.1 引言
近年來,預訓練模型以強大的算法效果,席卷了自然語言處理為代表的各大 AI 榜單與測試數據集。與自然語言類似,蛋白質的一級結構具有序列特性,這為將語言預訓練模型引入蛋白質表示提供了有利條件。然而,蛋白質本質上不同于自然語言文本,其包含了大量預訓練目標較難習得的生物學知識。事實上,人類科學家已經積累了海量的關于蛋白質結構功能的生物學知識。那么如何利用這些知識促進蛋白質預訓練呢?本文將介紹被 ICLR 2022 錄用的新工作: OntoProtein,其提出一種新穎的融入知識圖譜的蛋白質預訓練方法。
6.2 蛋白質預訓練
蛋白質是控制生物和生命本身的基本大分子,對蛋白質的研究有助于理解人類健康和發展疾病療法。蛋白質包含一級結構,二級結構和三級結構,其中一級結構與語言具有相似的序列特性。受到自然語言處理預訓練模型的啟發,諸多蛋白質預訓練模型和工具被提出,包括 MSA Transformer、ProtTrans、悟道 · 文溯、百度的 PaddleHelix 等。
大規模無監督蛋白質預訓練甚至可以從訓練語料中習得一定程度的蛋白質結構和功能。然而,蛋白質本質上不同于自然語言文本,其包含了諸多生物學特有的知識,較難直接通過預訓練目標習得,且會受到數據分布影響低頻長尾的蛋白質表示。為了解決這些問題,我們利用人類科學家積累的關于蛋白質結構功能的海量生物知識,首次提出融合知識圖譜的蛋白質預訓練方法。下面首先介紹知識圖譜構建的方法。
6.3?基因知識圖譜
我們通過訪問公開的基因本體知識圖譜“Gene Ontology(簡稱 Go)”,并將其和來自 Swiss-Prot 數據庫的蛋白質序列對齊,來構建用于預訓練的知識圖譜 ProteinKG25,該知識圖譜包含 4,990,097 個三元組,其中 4,879,951 個蛋白質-Go 的三元組,110,146 個 Go-Go 三元組,并已全部開放供社區使用。如下圖所示,基于“結構決定功能”的思想,如果在蛋白質預訓練過程中顯式地告訴模型什么樣的結構具備什么樣的功能,顯然能夠促進如蛋白質功能預測、蛋白質交互預測等任務的效果。
6.4?融入基因知識圖譜的蛋白質預訓練
基于構建好的知識圖譜,我們設計了一個特殊的蛋白質預訓練模型 OntoProtein。注意到在預訓練輸入中包含兩種不同的序列:蛋白質序列和描述蛋白質功能、生物過程等的文本描述信息。因此,我們采取兩路不同的編碼器。對蛋白質序列我們采用已有的蛋白質預訓練模型 ProtBert 進行編碼,對文本序列我們采用 BERT 進行編碼。
為了更好地進行預訓練和融合三元組知識信息,我們采用了兩個優化目標。首先是傳統的掩碼語言模型目標,我們通過隨機 Mask 序列中的一個 Token 并預測該 Token。其次是三元組知識增強目標,我們通過類似知識圖譜嵌入學習的方式來植入生物學三元組知識,如下公式所示:
注意到這里的事實知識分為兩類不同的三元組,分別是 Go-Go 和蛋白質-Go,因此我們提出一種知識增強的負采樣方法,以獲得更有代表性的負樣本提升預訓練效果,采樣方式如下 :
6.5?實驗分析
我們在蛋白質測試基準 TAPE,以及蛋白質蛋白質交互、蛋白質功能預測(我們參考 CAFA 競賽構建了一個新的蛋白質功能預測數據集)上進行了實驗。如下表所示,可以發現融合知識圖譜的蛋白質預訓練方法在一定程度上取得了較好或可比的性能。特別地,我們的方法沒有使用同源序列比對(MSA),因此較難超越基于 MSA Transformer 的方法。詳細的實驗結果請參見論文,我們會在近期將預訓練模型整理并發布到 Huggingface 上供社區使用。
6.6 小結與展望
當下蓬勃興起的 AI for Science 正在促使以數據驅動的開普勒范式和以第一性原理驅動的牛頓范式的深度融合。基于“數據與知識雙輪驅動”的學術思想,我們在本文中首次提出了融合知識圖譜的蛋白質預訓練方法 OntoProtein,并在多個下游任務中驗證了模型的效果。在未來,我們將維護好 OntoProtein 以供更多學者使用,并計劃探索融合同源序列比對的知識圖譜增強預訓練方法以實現更優性能。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的知识图谱还有哪些方向值得深入研究?这 6 篇最新论文给你答案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乐享金上征信吗
- 下一篇: 转基因食品的优缺点都有哪些 了解了这些再