文本摘要技术调研
??/*?版權聲明:可以任意轉載,轉載時請務必標明文章原始出處和作者信息?.*/?
?????????? ?????????文本摘要技術調研
???????????????????? ?????
? ? ? ? ? ? ? ? ? ? ? ? CopyMiddle:?張俊林
? ? ? ? ? ? ? ? ? ? ? ? ?TimeStamp:2010?年9 月??
一.文本摘要值得關注的幾個方面
?? 1.主題覆蓋率
??????? 一篇新聞或者文摘往往會包含若干子主題,摘要應該能夠覆蓋所有這些子主題,至少應該包含主要的子主題;?
?? 2.冗余盡可能少
??????? 摘要因為是要利用較少的句子來盡可能體現文章主旨信息,所以摘要句子之間的信息冗余應該盡可能小,這樣可以滿足用盡可能少的信息表達盡可能豐富的文章主旨信息;
?? 3.摘要流暢性強
?????? 句子之間往往因為會包含代詞等指代信息,所以應該避免閱讀起來不流暢的問題。??
?
二.不同的摘要任務類型
?? 1. 抽取式VS合成式
?????? 抽取式文摘:摘要的句子完全從文章正文中進行抽取而成 。基本思路是:按照一定因素給每個句子打分,然后根據句子得分排序,按比例輸出得分高的句子作為摘要內容;常見做法是線性組合各種特征,各種特征的權值設定手工指定;
?????? 合成式文摘:不是純粹從文章中抽取句子,而是對文中的句子片段進行改寫,然后進行拼接生成句子集合作為文摘結果;
????? 從目前研究看,絕大多數實際系統是抽取方式,合成方式目前還是不夠成熟,只有少量研究型系統采取這種方法;
?
2. 單文檔VS多文檔[1,9]
??? 多文檔摘要指的是給定主題相關的K篇文檔,通過摘要能夠體現這K篇文檔的主題信息;
??? 多文檔摘要與單文檔摘要相比,有些需要特殊考慮之處,比如:
?????????? 冗余度問題:單文檔也有這個問題,但是由于K偏文檔可能是非常相似的內容,所以這個問題尤其突出;
?????????? 句子順序問題;單文檔一般在輸出句子的時候,采取按照文章中出現順序來進行輸出;多文檔摘要因為句子可能來自不同的文檔,所以如何確定順序是個比較重要的問題。
?????????? 壓縮率問題:單文檔摘要只需按照用戶指定的壓縮率輸出即可,多文檔摘要要考慮各自從每個文章中抽取句子比例的問題;
?????????? 指代消解問題:單文檔也有類似問題,不過由于多文檔的代詞如果處理不當,可能會指代到另外一篇文章的命名實體,所以對于多文檔摘要這個問題尤其突出;
?
3.查詢相關VS查詢無關[11]
???? 所謂查詢相關式文本摘要,即與一般的摘要不同,希望給定用戶查詢條件,然后抽取出的文摘摘要不僅要體現文章主旨,還要和用戶查詢密切相關。所以在對摘要句子重要性進行衡量時,要同時考慮主題性和查詢相關性兩方面的考慮因素。
??
三.抽取式摘要技術方法分類
(1)非監督方法
???? 線性組合方法:利用手工構建的評分函數,采取若干重要特征并手工設定特征權重,以此來對句子重要性進行得分計算。
???
??? 詞匯鏈方法:通過文章中相鄰句子的語義相似性來判斷文章主題,引入Wordnet等語言資源中的同義詞和近義詞信息,分析文章中相鄰句子的語義相似性。尋找若干最長的詞匯鏈來確定文章包含主題,并依此來構建文摘句子集合;[6,7]
??
??? 圖模型方法:將文章中每個句子作為圖中的節點,利用句子之間內容相似性構建圖中節點之間的邊。構建好文章圖后,利用PageRank或者HITS算法來迭代計算圖中節點的權值,按照權值大小作為句子重要性的評分依據來對文摘句子進行抽取。[3,4]
?
??? 子主題分析方法:通過聚類或者語義塊分析等手段,發現文章包含的子主題,并從不同的子主題中抽取句子來構造摘要句子集合。LSA,PLSA等方法屬于這一類[8,10,12]。
?
(2)監督方法:
?? 監督學習方法的基本思路如下:[2,5]
????? 對于句中某個句子,利用分類器來進行二值分類,即0或者1,1代表這個句子可以作為摘要輸出句子,0代表這個句子不能作為摘要輸出的句子;系統輸出被標注為1類型的句子作為文摘輸出結果;
????? 訓練集往往通過手工生成的《文章,文摘》對來對分類器進行訓練。通過事先定義好的特征集合,將句子映射為特征向量,之后對分類器進行訓練生成分類模型。對于新的文章,則根據分類器對于句子的二值分類結果進行文摘輸出;
?? 常用的監督學習方法包括:
???? 樸素貝葉斯方法(NB):
???? 決策樹方法:
???? HMM方法:
???? CRF方法:
???? 邏輯回歸方法(LR):
???? SVM方法
???? SVM-HMM方法:
?
四.自動文摘經常使用的特征
?(1)位置因素:句子在文章中出現位置因素,判斷句子是否出現在段落首句和尾句,一般段首和段尾是能夠體現段落主旨的綜合描述句子,尤其是段首句子,如果是則更可能是比較重要的句子;
(2)統計特性:一般通過TF.IDF計算單詞權值,統計因素的主旨是發現一些能夠表達文章主旨的詞匯列表,而那些包含較多這些詞匯的句子被認為是能夠比較充分體現文章主旨的句子;
(3)文章標題:是否出現過標題中的內容詞,標題作為文章的主旨,如果出現過標題中內容詞則更可能體現文章主旨;
(4)段落位置:對于新聞類文章而言,往往會在第一段交代很多文章主旨信息,所以距離文章開始位置越近,則一般認為這些句子越重要;
(5)啟發詞匯:比如能夠表達總結的句子,比如“總而言之,綜上所述”等等,這種啟發詞匯列表需要歸納;
(6)句子長度:以一定的長度作為標準,過長的或者過短的會增加懲罰因素;目前研究主要懲罰過短的句子,過長的也應該列入考慮;
??? (7)大寫單詞(英文):一些大寫的單詞往往是比較重要的實體或者強調的內容,所以包含大寫單詞的句子較為重要;
??? (8)代詞:包含代詞的句子因為代詞需要指明所指代的實體,需要解決指代消解問題,所以在不能有效解決指代消解問題的情況下,需要對于包含代詞的句子進行減分;
??? (9)語義關系分析:有些工作是對句子之間的語義關系進行分析,抽取概述性句子,這個速度比較慢,效果也未必很好,但是可以借鑒的思路是:有些詳述性的句子是有很明顯特征出現的,對于詳述性的句子,應該考慮降分;?
?? ??(10)冗余的消除:在選擇句子作為候選摘要句子時候,盡可能增加內容的信息含量,盡可能減少相同信息的句子重復出現;所以經常對冗余句子進行消除或者減分操作;
??? (11)語義塊的切割:將文檔切割成語義密切相關的語義段落,之后從語義段落中抽取句子;
?
五.目前方法的效果比較
???? 目前有些研究工作[2,5]對目前的主流文摘方法效果進行了對比,綜合這些結果,可以得出如下一些結論:
????? 1.對于非監督方法來說,基于HITS的圖模型方法明顯優于其他方法,
????? 2.對于監督方法來說,SVM-HMM和CRF方法效果最好,其中SVM-HMM方法在一般測試集合上稍微優于CRF,在難度高的測試集合上效果明顯好于CRF方法。這兩個方法優于HITS圖模型方法,不過優勢并非特別明顯;
????? 3.從測試結果來看,方法效果排序如下
????????SVM-HMM>CRF>HITS>HMM>SVM>LR>NB>LSA
?
六.可供選擇的方法及其各自優缺點分析
???? (1)簡單特征線性組合方法
?????? 即確定一些主要特征,然后設定特征權重后根據線性組合方式來進行句子打分和排序輸出;
????? 優點:
????????? 方法簡單;
????????? 無需訓練數據;
????????? 執行速度快;
????? 缺點:
????????? 由于手工擬合評分函數,只能采取部分主要特征;
????????? 權重設定需要手工設置并不斷調試;
????????? 效果一般;
????????
(2)基于HITS的圖模型方法
?? 考慮到目前的研究表明,基于HITS的圖模型方法是非監督方法中效果最好的,如果采取非監督方法,則優先考慮HITS的圖模型方法;
?? 優點:
???? 無需訓練集合;
???? 基本與語言和領域無關;
???? 效果好;
?? 缺點:
????? 由于存在任意句子相似性計算和迭代計算,所以運行速度相對比較慢;需要改進速度提出改進方法;
????? 該方法沒有考慮信息冗余的問題,可能需要有針對性的改進;
?
(3)基于CRF或者SVM-HMM的監督學習方法
???? 目前研究表明,CRF和SVM-HMM在所有監督和非監督方法中是效果最好的,其中SVM-HMM效果略好于CRF,CRF略好于HITS圖模型方法;
????? 所以如果采取監督學習思路,可以考慮CRF或者SVM-HMM的方法;
????? 優點:
?????????? 效果好;
?????? 缺點:
????????? 需要訓練數據;
????????? 效果依賴于訓練數據質量和領域等方面的情況;
????????? 執行速度慢;尤其是融合HITS模型等復雜特征,需要首先計算復雜特征,所以速度應該是最慢的;
???
?
?
?部分較重要參考文獻:
?
[1] .Jie Tangy, Limin Yaoz, and Dewei Chen . Multi-topicbased Query-oriented Summarization.
W.-T.Yih, J. Goodman, L. Vanderwende, and H. Suzuki. Multi-documentsummarization by maximizing informative content-words.In Proceedingsof IJCAI’07, 2007.
[2] ?Dou Shen1,Jian-Tao Sun.etc??? DocumentSummarization using Conditional Random Fields.? InProceedingsof IJCAI’07, 2007.
?
[3] GunesErkan.? Dragomir R. Radev.? LexRank: Graph-based LexicalCentrality as Salience in?? Text Summarization.? Journal of ArtificialIntelligence Research 22 (2004) 457-479
[4] Rada Mihalcea.? Language Independent Extractive Summarization.
[5] LiangdaLi?, Ke Zhou?,Gui-Rong Xue etc? Enhancing Diversity, Coverage and Balance for? Summarization through Structure Learning.? WWW 2009.
[6] GregorySilber and KathleenF. McCoy? EfficientText Summarization Using Lexical Chains.
[7] Barzilay,Regina and Michael Elhadad. Using Lexical Chainsfor Text Summarization. in Proceedings of the IntelligentScalable Text Summarization Workshop(ISTS’97), 1997.
[8] Shanmugasundaram Hariharan?? Extraction Based Multi Document Summarization using Single Document? Summary Cluster?? Int. J.Advance. Soft Comput. Appl., Vol. 2, No. 1, March 2010
[9] ShanmugasundaramHariharan, "Merging Multi-Document Text Summaries-A Case Study", Journal of Scienceand Technology, Vol.5, No.4,pp.63-74, December 2009.
[10] JinZhang etc? AdaSum: An Adaptive Model for Summarization.? CIKM 2008.
[11] Varadarajan and Hristidis. A System forQuery-Specific Document Summarization?CIKM2006.
[12] LeonhardHennig? Topic-based Multi-DocumentSummarization withProbabilistic Latent Semantic Analysis
總結
- 上一篇: 搜索引擎反作弊之:整体技术思路
- 下一篇: HipHop算法:利用微博互动关系挖掘社