如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...
利用概率主題模型的微博熱點話題發(fā)現(xiàn)方法-計算機系統(tǒng)應(yīng)用
2014 年 第 23 卷 第 8 期 計 算 機 系 統(tǒng) 應(yīng) 用
①
利用概率主題模型的微博熱點話題發(fā)現(xiàn)方法
1 2
米文麗 , 孫曰昕
1(隴東學(xué)院 信息工程學(xué)院, 慶陽 745000)
2(西北師范大學(xué) 計算機科學(xué)與工程學(xué)院, 蘭州 730070)
摘 要: 微博具有長度短、實時傳播、結(jié)構(gòu)復(fù)雜以及變形詞多等特點, 傳統(tǒng)的向量空間模型(VSM)文本表示方法
和隱含語義分析(LSA)無法很好的對其進(jìn)行建模. 提出了一種基于概率潛在語義分析(pLSA)和 K 均值聚類
(Kmeans) 的二階段聚類算法, 此外通過定義微博熱度分析和排序, 有效地支持微博熱點話題發(fā)現(xiàn). 實驗表明, 此
方法能有效地進(jìn)行話題聚類并檢測出熱點話題.
關(guān)鍵詞: 概率潛在語義分析; 話題發(fā)現(xiàn); 微博; Kmeans
Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model
1 2
MI Wen-Li , SUN Yue-Xin
1(College of Information Engineering, Longdong University, Qingyang 745000, China)
2(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China)
Abstract: Microblog has the characteristic of short length, complex structure and words deformation. Therefore,
traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this
paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering
(Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics.
Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.
Key words: probabilistic latent semantic analysis; topic detection; microblog; Kmeans
近年來,在互聯(lián)網(wǎng)上蓬勃發(fā)展的微博客(微博)越來 的 Twitter 上的檢索日志和傳統(tǒng)搜索引擎上的檢索日
越多地引起了人們的關(guān)注. 微博從傳統(tǒng)的社交網(wǎng)絡(luò)中 志, 對微博上的搜索和傳統(tǒng)的 Web 搜索做了一個完善
脫胎而出,在擁有了獨立的服務(wù)平臺后逐漸演化為一 而全面的對比, 發(fā)現(xiàn) Twitter 用戶傾向于去搜索時間相
種新的信息發(fā)布形式. 關(guān)的信息, 比如爆炸性的新聞和一些當(dāng)前的流行趨勢;
然而, 微博數(shù)據(jù)主要由普通用戶產(chǎn)生, 無論是用 Neil[6]認(rèn)為 Twitter 是對整個社會事實的反應(yīng),可以從中
詞、形式還是具
總結(jié)
以上是生活随笔為你收集整理的如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从左边列表复制到右边列表html,JQ实
- 下一篇: 计算机专业教学团队建设规划,计信学院教学