文本摘要方法总结
說到文章摘要大家并不陌生,就是給長(zhǎng)文本在不丟失任何重要信息的情況下做個(gè)精確的總結(jié)。具體有哪些方法呢?可以看以下總結(jié)。
文章摘要
- 基于抽取的文章摘要(Extraction-based)
1 詞頻 (Leverage word frequencies)
2 Textrank (Leverage embeddings similarity with TextRank)
3 embedding聚類 (Leverage embeddings and clustering) - 基于概要的文章摘要(Abstraction-based)
1 seq2seq模型 (Seq-to-seq models and supervised learning)
基于抽取的文章摘要
從長(zhǎng)文本中提取代表最重要要點(diǎn)的單詞或句子的子集,并結(jié)合起來形成摘要,結(jié)果在語法上可能不準(zhǔn)確。
基于概要的文章摘要
使用深度學(xué)習(xí)技術(shù)(主要在seq-to-seq模型中)像人類一樣解釋和縮短原始文檔。由于抽象機(jī)器學(xué)習(xí)算法可以生成代表源文本中最重要信息的新短語和句子,因此它們可以幫助克服基于抽取技術(shù)的語法錯(cuò)誤。
雖然抽象在文本摘要方面表現(xiàn)得更好,但開發(fā)其算法需要復(fù)雜的深度學(xué)習(xí)技術(shù)和復(fù)雜的語言建模。因此,抽取式文本摘要方法仍然廣泛流行。
Leverage word frequencies
Extraction-based summarization with TextRank
Extraction-based summarization with sentence embeddings and clustering
Abstraction-based summarization with seq-to-seq models
參考文獻(xiàn)
- TextRank:https://cran.r-project.org/web/packages/textrank/vignettes/textrank.html
- pagerank:https://en.wikipedia.org/wiki/PageRank
- 基于bert的摘要抽取:https://github.com/dmmiller612/bert-extractive-summarizer
- kmeans:https://en.wikipedia.org/wiki/K-means_clustering
- rouge:https://en.wikipedia.org/wiki/ROUGE_(metric)
總結(jié)
- 上一篇: 大道至简,SQL也可以实现神经网络
- 下一篇: 如何解决高维稀疏的user-item矩阵