【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘
說在前面
剛開始摸索知識圖譜,于是對剛開始讀的一些論文做了筆記,共享一下。筆記首次分享于公眾號“專知”,為人工智能從業(yè)者服務(wù),提供專業(yè)可信的人工智能知識與技術(shù)服務(wù)。有喜歡的朋友微信搜索“專知"。
【導(dǎo)讀】作為文本分析中的基礎(chǔ)任務(wù),短語挖掘旨在從文本語料庫中獲取質(zhì)量短語,并 應(yīng)用在信息獲取、信息檢索、分類構(gòu)建和主題模型中。現(xiàn)存的這些方法大多依賴于復(fù)雜的語義分析器,在一些新領(lǐng)域的語料庫中的效果似乎并不理想,而且還需要大量的人力。因此,在本文中提出一種新的模型AutoPhrase來自動挖掘任意語種的短語。
動機
理想的自動短語挖掘方法應(yīng)該是獨立于不同領(lǐng)域,并且只需要最少的人力或語言分析器。因此提出了AutoPhrase框架,更深層次的避免了人工標注,并提高了性能。
創(chuàng)新點
- 提出了POS-Guided短語分割:提高了詞性標記的性能;
- 本文提出新的自動短語挖掘框架AutoPhrase:獨立于領(lǐng)域,只需要很少的人力或語言分析;
- 提出了一種魯棒的、僅為正的遠程短語質(zhì)量估計訓(xùn)練方法,以最小化人工工作量。
兩種新技術(shù)
Robust Positive-Only Distant Training
利用已有的知識庫做遠程監(jiān)督訓(xùn)練,如維基百科,其中的高質(zhì)量短語免費且數(shù)量多,遠程訓(xùn)練過程中,使用這些詞可以避免手工標注。
具體做法:
- 從通用知識庫中的構(gòu)建正樣本
- 從給定的知識庫中的獲取負樣本
- 訓(xùn)練大量基本分類器
- 將分類器的預(yù)測聚合起來
POS-Guided短語分割
利用詞性信息來增加抽取的準確性。語言處理器應(yīng)該權(quán)衡準確率和領(lǐng)域獨立能力。
- 對于領(lǐng)域獨立能力,如果沒有語言知識,準確率就會受限
- 對于準確性,依賴復(fù)雜的、訓(xùn)練好的語言分析器,就會降低領(lǐng)域獨立能力
解決方法:將預(yù)先訓(xùn)練好的詞性標記加入到文檔集,以提高性能。
Preliminaries
有效識別質(zhì)量短語對于處理大規(guī)模文本數(shù)據(jù)來說十分重要。與提取關(guān)鍵短語相反,它遠超單個文檔的范圍。使用文本檢索算法通常會過濾一些詞并將候選詞限制為名詞短語。使用預(yù)定義的詞性規(guī)則,可以將名詞短語標識為帶有POS標簽的候選單詞。
本篇論文的目的是想實現(xiàn)從文件集中自動挖掘短語來獲取質(zhì)量短語,而不需要消耗人力。對于這個任務(wù),輸入為語料庫(特定語言和特定領(lǐng)域的文本單詞序列)和知識庫,輸出為一個按質(zhì)量遞減排列的短語列表。
質(zhì)量短語被定義為一個單詞序列成為一個完整語義單詞的概率,滿足以下條件:
- 流行度:在給定的文檔集中,質(zhì)量短語出現(xiàn)的頻率應(yīng)該要足夠高
- 一致性:由于偶然,質(zhì)量短語中的tokens發(fā)生的概率要高于預(yù)期
- 信息性:如果一個短語表達了一個特定的話題和概念,那這個短語就是信息化的
- 完整度:長頻繁短語及其子序列均滿足上述3個條件。當一個短語在特定的文檔上下文中解釋為一個完整的語義單元時,就被認為是完整的。
AutoPhrase會根據(jù)正負池對質(zhì)量短語進行兩次評估,分別是在短語分割的前和后。也就是說,POS-Guided短語分割需要一組初始的質(zhì)量短語分數(shù),預(yù)先根據(jù)原始頻率估計分數(shù),然后一旦特征值被糾正,就要重新估計分數(shù)。
只有滿足上述要求的短語才能被認為是質(zhì)量短語。
AutoPhrase的第一部分(上圖中的左部分)候選短語集合包含所有超過最小閾值的n-grams。這里的閾值指的是通過字符串匹配計算出的n-grams的原始頻率。在實際中,設(shè)置短語長度的閾值n<=6,計算候選短語的的質(zhì)量:
紅框中指的是這些單詞構(gòu)成的短語,Q表示的短語質(zhì)量評估,最初是通過數(shù)據(jù)中的統(tǒng)計特征學(xué)習的,目的是為了對一致性和信息性進行建模。要注意的是短語質(zhì)量評估是獨立于POS標簽的,對于unigrams,只需將其詞組質(zhì)量設(shè)置為1。
為了強調(diào)完整度,短語分割會在每個句子中找到最好的分割方式。
在短語質(zhì)量再評估的過程中,相關(guān)統(tǒng)計特征會基于它們的修改頻率再計算,這就表示短語在所識別的分割中成為完整語義單元的次數(shù)。之后,計算Q。
方法
在這個部分,將會介紹兩個新技術(shù)。首先,robust positive-only distant training通過利用質(zhì)量短語來訓(xùn)練模型,其次,介紹POS標簽,它可以使模型學(xué)習到語言相關(guān)信息。
Robust Positive-Only Distant Training
為了評估每一個質(zhì)量短語的質(zhì)量分數(shù),需要人力來完成。在本篇文章中,介紹了一種不需要人工就可以完成的方法。
- 標簽池
公共知識庫(例如維基百科)中獲取的高質(zhì)量短語將其放在正池中;基于n-gram的候選短語熟練非常多,其中大多數(shù)質(zhì)量比較差,因此,從給定語料庫派生的候選短語如果不能匹配到公共知識庫中的的任何高質(zhì)量短語,那么就會用于填充嘈雜的負池。
- 降噪
如果基于嘈雜的負池訓(xùn)練分類器,就會漏掉一些給定語料庫中的高質(zhì)量短語,因為它們不存在于知識庫中。因此,使用一個集成分類器
如圖,對于每個基分類器,分別從正池和負池中隨機抽取K個候選短語,并進行替換(考慮到規(guī)范的平衡分類場景),所有的候選短語中的2K大小的子集稱之為擾動訓(xùn)練集,是因為圖中的部分短語δ的標簽是由正到負。為了使集成分類器能夠減輕這種噪聲的影響,需要使用訓(xùn)練誤差最小的分類器,我們生成了一個未經(jīng)修剪的決策樹,以分離所有短語來滿足這個需求。實際上,當擾動訓(xùn)練集中沒有兩個正負短語具有相同的特征值時,該決策樹的訓(xùn)練精度始終能達到100%。這種情況下,它的理想誤差是δ/2K,大約等于所有候選短語中中轉(zhuǎn)換標簽的比例。因此,K對于未修剪的決策樹的準確性不敏感,在實驗中設(shè)置為100。
上圖中出現(xiàn)的采樣過程,文中使用的是隨機森林,將特定短語的短語質(zhì)量得分計算為預(yù)測該短語為質(zhì)量短語的所有決策樹的比例。假如在隨機森林中有T個樹,可以將整體錯誤估計為,超過一半的分類器將給定短語候選者誤分類的概率。
從上圖中可以看出隨著T的增長,整體誤差接近于0。實際操作中,由于模型偏差帶來的附加誤差,T需要設(shè)置的大一些。
POS-Guided Phrasal Segmentation
語料庫為處理過的長度為n的POS-tagged的詞序列:
這里的每個因數(shù)表示的都是一對,即詞和對應(yīng)的詞性<wi,ti><w_i,t_i><wi?,ti?>。POS的短語分割由邊界索引序列B促使該序列劃分為m個片段,這里的B={b1,b2,……,bm}滿足1=b1<b2<……<b_m+1=n+1。第i個部分指的是:
與之前的方法相比,POS-guided短語分割以一種上下文感知的方式來加強完整度。另外,POS標簽提供較淺的語義知識,這樣可以提神短語識別的精確度,尤其是句子成分的邊界。
對于給定的長度為n的POS標簽序列:
標簽子序列用t_[l,r)表示,其標簽子序列的質(zhì)量分數(shù)被定為:對應(yīng)詞序列是完整語義單元的條件概率:
T是為了通過正確識別POS序列來獎勵短語,其特殊形式為:
紅框中表示的是給定文檔短語中的POS詞性標簽t_br-1精確位于POS詞性標簽t_br之前的概率。上述這個公式,第一個乘數(shù)表示的是在詞索引r-1與r之間的短語邊界,然而后邊的乘數(shù)表示的是在t中的所有POS詞性標簽在同樣的短語的概率。
從數(shù)學(xué)意義上而言:
因為它依賴文檔如何分割短語,δ被統(tǒng)一初始化,在短語分割的過程中被學(xué)習。現(xiàn)在,計算了短語質(zhì)量Q與POS質(zhì)量T,然后定義POS-guided的短語分割模型。
這里紅框是單詞序列w的第i個質(zhì)量短語的條件概率。
對于每個分割段,給定POS詞性標簽和起始索引b_i,生成過程如下:
1)通過POS質(zhì)量生成末端索引b_i+1
2)給定兩端b_i和b_i+1,根據(jù)在長度為兩端點的差值的所有分割段上的多項式分布生成單詞序列w
3)最后,根據(jù)質(zhì)量生成指標來判斷是否形成質(zhì)量分割
將以上三步合成,定義為:
為方便起見用紅框表示黃色框的內(nèi)容。
因此,存在以下三個問題:
1)學(xué)習每個詞的 θ_u和候選短語u
2)學(xué)習每個POS標簽對δ(t_x,t_y)
3)當θ_u和δ(t_x,t_y)固定時推導(dǎo)B
采用最大后驗原理,最大限度地模擬聯(lián)合對數(shù)似然:
給定θ_u和δ(t_x,t_y),最大化公式(1)來找到最好的分割,論文中采用一種用于POS引導(dǎo)短語分割的搞笑動態(tài)編碼算法:
當S和u固定時,δ(t_x,t_y)的解為:
這里的1表示的是身份指標,δ(t_x,t_y)表示的是在所有給定的(t_x,t_y)對中未匹配的比率。
同樣,當S和u固定時,θ_u的解為:
可以看出,θ_u是u成為完整分割段的時間。
算法2中,選擇Viterbi Training來分別優(yōu)化參數(shù),因為Viterbi Training傳播快,并且可以為類似于隱馬爾可夫模型的任務(wù)提供稀疏和簡單的模型。
Complexity Analysis
框架中最耗時的部分如n-gram、特征提取、POS短語分割的時間復(fù)雜度,均為O(||),并假設(shè)短語中最大單詞是一個小常熟,其中||是語料中單詞的總數(shù)。因此,每個組件可以以無固定的方式通過短語或句子分組進行合并。
實驗
此部分,將應(yīng)用本文提出的模型來挖掘3個領(lǐng)域(論文、商業(yè)討論、維基文章)的質(zhì)量短語,并使用3種語言(英語、西班牙語、中文)。實驗中,對比了其他方法,并驗證了遠程監(jiān)控訓(xùn)練的魯棒性,結(jié)合POS標簽進行短語分割的方式也得到了證明。
數(shù)據(jù)集
為了驗證本文提出的兩種新穎的方法,選取了3種語言5個語料庫。在每個數(shù)據(jù)集上,提取的熱門詞和生成的短語候選詞之間的交集作為正池,因此不同語言的不同數(shù)據(jù)中,正池的大小會有所不同。
對比的方法
SegPhrase/WrapSegPhrae:SegPhrase用于挖掘英語短語,在短語挖掘,關(guān)鍵短語獲取,名詞短語分塊應(yīng)用上十分出色。WrapSegPhrase在SegPhrase的基礎(chǔ)上拓展到了不同語言上。這兩種方法都需要人力來完成標注質(zhì)量短語。
Parser-Based Phrase Extraction,使用復(fù)雜的語義處理器,考慮以下兩種排名試探法:
- TF-IDF通過給定文檔中的詞組詞頻和文檔逆頻來對提取的短語進行排名;
- TextRank:用于關(guān)鍵字提取的無監(jiān)督基于圖的排名模型[27]。
Pre-trained Chinese Segmentation Models,與英語和西班牙語不同,由于漢語中間沒有空格,因此對漢語的短語進行了深入研究,最有效和最受歡迎的方法:
- AnsjSeg:應(yīng)用于中文語料,它整合了CRF(Conditional Random Fields)和基于n-gram的HMMs(Hidden Markov Models)。
- JiebaPSeg:應(yīng)用于中文文本分割,基于前綴字典結(jié)構(gòu)構(gòu)建有向無環(huán)圖,然后使用動態(tài)編程找到最可能的組合,對于未知短語,將基于HMM模型與Viterbi算法一起使用。
注意:所有的Parser-Based Phrase Extraction和中文分割模型都要基于通用預(yù)料進行預(yù)訓(xùn)練。
AutoSegPhrase:AutoPhrase 和 SegPhrase的結(jié)合,它可以有效用于沒有POS標簽的時候。
實驗設(shè)置
實戰(zhàn):預(yù)處理包括Lucene 和 Stanford NLP的分詞器,以及TreeTagger的POS標簽,實驗中使用Java與C++。
**默認參數(shù):**設(shè)置最小支持閾值σ為30,短語長度為6。其他方法中的參數(shù)按著原始論文中設(shè)置。
**人工注釋:**依靠人類評估者來判斷無法通過任何知識庫識別的短語的質(zhì)量。更具體地說,在每個數(shù)據(jù)集上,我們從實驗中每種方法的預(yù)測短語中隨機抽取500個這樣的短語。 這些選定的短語在共享池中,并由3位審閱者獨立評估。 當遇到不熟悉的短語時,我們允許審閱者使用搜索引擎。 根據(jù)多數(shù)投票的規(guī)則,該詞組中的短語至少收到兩個肯定的注釋,即為優(yōu)質(zhì)短語。
**評估指標:**使用準確率與召回率,另外采用area under the curve(AUC)作為一種度量,AUC值得是precision-recall 曲線下的面積。
整體結(jié)果
上圖中明顯看出AutoPhrase效果最好,并能夠以最少的人力來支持不同領(lǐng)域并支持多種語言。
Distant Training Exploration
為了比較遠程訓(xùn)練和領(lǐng)域?qū)<覙擞?#xff0c;嘗試使用特定的數(shù)據(jù)集DBLP和Yelp。除了標簽選擇不同以外,分類器中的所有配置均相同,并提出了四個訓(xùn)練池:
- EP:專家給的正池
- DP:從通用知識集中挑選的正池的一個集合
- EN:專家給的負池
- DN:所有未標簽的候選短語形成的負池
結(jié)合四個訓(xùn)練池,我們重新組合4個變體:EPEN (in SegPhrase), DPDN
(in AutoPhrase), EPDN, 和DPEN。
結(jié)果對比分析:
- EPEN與DPEN:他們有相似的曲線走向,并且EPEN比DPEN的效果好,因此可以得出,盡管DPEN的質(zhì)量評估工作稍差,但是從知識庫中生成的正池具有合理的質(zhì)量。
- EPEN與EPDN:之間存在明顯的間隔且走向相似表明嘈雜的負池與專業(yè)的負池相比略遜色,但其效果還可以。
- 當正池大小受限時,DPDN的效果最差,然而,遠距離訓(xùn)練會產(chǎn)生更大的正池,當正池足夠大時,遠程訓(xùn)練是否能夠戰(zhàn)勝領(lǐng)域?qū)<夷?#xff1f;
從上圖看當正池足夠大時,遠程訓(xùn)練戰(zhàn)勝了領(lǐng)域?qū)<摇T贒BLP上,理想的正池大小為700左右,Yelp上大致為1600。
POS-Guided Phrasal Segmentation
在英語數(shù)據(jù)集上,AutoPhrase效果比 AutoSegPhrase好,在西班牙語上效果差不多,但是在中文數(shù)據(jù)集上可以明顯地看出AutoPhrase的效果最好。
因此,由于特定語言的額外上下文信息和句法信息,在短語分割過程中合并POS標簽的效果更好。
單個詞獲取
AutoPhrase可以額外獲取單個詞,召回率可以提高10%至30%,用3個不同的數(shù)據(jù)集:EN, ES和CN來進行評估。
考慮到質(zhì)量短語的評估標準,因為單個詞短語不能被分解為2個或更多部分,一致性和完整度就不再考慮,因此,修改了評估單個詞的質(zhì)量標準:
- 流行性:質(zhì)量短語要多次出現(xiàn)在給定的文本庫中
- 信息性:如果該短語表示特定的主題或概念,則它是提供信息的
- 獨立性:在給定的文檔中,高質(zhì)量的單字短語很可能是完整的語義單元
單詞質(zhì)量短語應(yīng)滿足以上三個性質(zhì)。
實驗部分,我們采用相似的人工注釋,不同的是,我們從每種方法的返回短語中隨機抽取了500個Wiki-uncovered短語。因此,就有了新的EN,ES,CN數(shù)據(jù)集,類內(nèi)關(guān)系超過0.9。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-lfi1l1sl-1572770914352)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\1572574149769.png)]
從圖中可以看出明顯的優(yōu)勢,在中文數(shù)據(jù)集中可以觀察到最顯著的recall間隔,因為中文中優(yōu)質(zhì)單詞短語的比例最高。
結(jié)論
流行性:質(zhì)量短語要多次出現(xiàn)在給定的文本庫中
- 信息性:如果該短語表示特定的主題或概念,則它是提供信息的
- 獨立性:在給定的文檔中,高質(zhì)量的單字短語很可能是完整的語義單元
單詞質(zhì)量短語應(yīng)滿足以上三個性質(zhì)。
實驗部分,我們采用相似的人工注釋,不同的是,我們從每種方法的返回短語中隨機抽取了500個Wiki-uncovered短語。因此,就有了新的EN,ES,CN數(shù)據(jù)集,類內(nèi)關(guān)系超過0.9。
從圖中可以看出明顯的優(yōu)勢,在中文數(shù)據(jù)集中可以觀察到最顯著的recall間隔,因為中文中優(yōu)質(zhì)單詞短語的比例最高。
結(jié)論
本文提出的自動短語挖掘框架,其中運用兩種新的剛發(fā):遠程訓(xùn)練和POS短語分割,實驗表明AutoPhrase優(yōu)于其他短語分割的方法并且支持多種語言,此外單個詞短語10%-30%的召回中效果較好。
總結(jié)
以上是生活随笔為你收集整理的【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 来了就不会空着手回去.
- 下一篇: 人人开源快速搭建脚手架工程