txt mining 2(tf-idf)
生活随笔
收集整理的這篇文章主要介紹了
txt mining 2(tf-idf)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
#tf-idf
(term frequency? inverse document frequency)
1:讀取文檔
2:分詞
3:對文檔整理成所需格式
4:計算詞頻
5:對詞頻低的詞語進行過濾
6:通過語料庫建立成詞典
7:加載要計算對比的文檔
8:將要對比文檔轉化為系數向量(doc2bow)
9:對向量進一步處理,得到新語料庫
10:對新語料庫進行處理。(tf-idf進行處理)
11:通過token2id得到特征數
12:系數矩陣相似度,從而建立索引
13:最終相似度結果
?
轉載于:https://www.cnblogs.com/rabbittail/p/8093651.html
總結
以上是生活随笔為你收集整理的txt mining 2(tf-idf)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2017 GDOI
- 下一篇: 眼下发展最迅猛的十家网络安全公司