关于文章 Generating Impact-Based Summaries... By Mei qiaozhu
1、作者認為,一篇文章的被引用情況可以反映此文章的影響力,所以他產生的文摘是基于影響力的,他的模型在訓練時,是使用了原始文本和文本的引用句子作為數據集,但是最終抽取句子形成文摘,缺是只從原始文本中抽取,引用句子的影響度用原文來表示(這也就是為什么他要尋找分布最相似的)。
2、他不用引用句子的原因是,引用句子大多會夾雜一些其他非我們關注的信息。
3、這里面他建立的一個語言語言模型。不同的是,它是以一個句子為單位。在這,這里他看的不是句子的頻率(有詞頻得到),而是句子的影響力(這也是一個概率)。
3、他建立了兩個語言模型,一個是針對整個樣本集(原文,和Citation窗口句子),一個則是針對備選句子。然后計算這兩個影響力分布的相似度。用KL撒。
4、這里面,我們如何來定義相似度呢,他將citation因素導入其中,將影響力分為在原文中的詞頻概率,和引文影響力,兩者按照一定比例分配。同時,他又認為,每一個引文句子的影響力是不同的,不能等視之,因此加了一個權重。這個權重又由兩部分構成,一個是權威度,一個是距離確切引用度的距離。而權威度,這里他用的是pagerank進行計算的。
5、大體上就是這樣了。
轉載于:https://www.cnblogs.com/Vanior/archive/2012/07/31/2617449.html
總結
以上是生活随笔為你收集整理的关于文章 Generating Impact-Based Summaries... By Mei qiaozhu的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IPV4地址范围
- 下一篇: javascript笔记:推荐使用“百度