NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
生活随笔
收集整理的這篇文章主要介紹了
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
NLP:基于snownlp庫對(duì)文本實(shí)現(xiàn)提取文本關(guān)鍵詞和文本摘要
?
?
?
目錄
輸出結(jié)果
1、測(cè)試文本
設(shè)計(jì)思路
核心代碼
?
?
?
?
?
輸出結(jié)果
1、測(cè)試文本
今天一大早,兩位男子在故宮抽煙對(duì)鏡頭炫耀的視頻在網(wǎng)絡(luò)上傳播,引發(fā)網(wǎng)友憤怒。有人感到后怕,600年的故宮真要這兩個(gè)人給點(diǎn)了,萬死莫贖。也有評(píng)論稱,把無知當(dāng)成炫耀的資本,丟人! 視頻中兩位男子坐在故宮公共休息區(qū)的遮陽傘下,面對(duì)鏡頭問出:“誰敢在故宮抽煙?”語氣極其囂張,表情帶有挑釁意味。話音剛落,另外一位男子面向鏡頭吸了一口煙。而視頻中兩人也表示知道有故宮禁止吸煙的規(guī)定。 事實(shí)上,2013年5月18日是國際博物館日,故宮從這一天開始至今一直實(shí)行全面禁煙。根據(jù)規(guī)定,故宮博物院全體員工在院合作單位和個(gè)人不管在室內(nèi)和室外,也不分開放區(qū)與工作區(qū),一律禁止吸煙,對(duì)違反禁止吸煙規(guī)定的人員將進(jìn)行嚴(yán)格處罰并通報(bào)全院。 此外,在2015年6月1日起北京全市也開始了《控制吸煙條例》,規(guī)定公共場(chǎng)所工作場(chǎng)所室內(nèi)環(huán)境室外排隊(duì)等場(chǎng)合禁止吸煙,違者將最高被罰200元,全市統(tǒng)一設(shè)立舉報(bào)電話12320。 視頻在網(wǎng)絡(luò)上傳播開來,不少網(wǎng)友擔(dān)心故宮的安危,稱一旦發(fā)生火情,后果不堪設(shè)想,有網(wǎng)友表示,這樣的行為應(yīng)該被旅游景區(qū)拉近黑名單,建議終身禁止進(jìn)入任何景區(qū)和各種場(chǎng)館。
?
?
設(shè)計(jì)思路
后期更新……
?
?
?
核心代碼
class SnowNLP Found at: snownlp.__init__class SnowNLP(object):def __init__(self, doc):self.doc = docself.bm25 = bm25.BM25(doc)@propertydef words(self):return seg.seg(self.doc)@propertydef sentences(self):return normal.get_sentences(self.doc)@propertydef han(self):return normal.zh2hans(self.doc)@propertydef pinyin(self):return normal.get_pinyin(self.doc)@propertydef sentiments(self):return sentiment.classify(self.doc)@propertydef tags(self):words = self.wordstags = tag.tag(words)return zip(words, tags)@propertydef tf(self):return self.bm25.f@propertydef idf(self):return self.bm25.idfdef sim(self, doc):return self.bm25.simall(doc)def summary(self, limit=5):doc = []sents = self.sentencesfor sent in sents:words = seg.seg(sent)words = normal.filter_stop(words)doc.append(words)rank = textrank.TextRank(doc)rank.solve()ret = []for index in rank.top_index(limit):ret.append(sents[index])return retdef keywords(self, limit=5, merge=False):doc = []sents = self.sentencesfor sent in sents:words = seg.seg(sent)words = normal.filter_stop(words)doc.append(words)rank = textrank.KeywordTextRank(doc)rank.solve()ret = []for w in rank.top_index(limit):ret.append(w)if merge:wm = words_merge.SimpleMerge(self.doc, ret)return wm.merge()return ret?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的NLP:基于snownlp库对文本实现提取文本关键词和文本摘要的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DL框架之TensorFlow:深度学习
- 下一篇: NLP:基于nltk和jieba库对文本