Spark机器学习-LDA算法09
生活随笔
收集整理的這篇文章主要介紹了
Spark机器学习-LDA算法09
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
LDA算法
LDA即文檔主題生成模型,該算法是一種無監督學習
將主題對應聚類中心,文檔作為樣本,則LDA也是一種聚類算法
該算法用來將多個文檔劃分為K個主題,與Kmeans類似
LDA是一種基于概率統計的生成算法
LDA算法—種常用的主題模型,可以對文檔主題進行聚類,同樣也可以用在其他非文檔的數據中
LDA算法是通過找到詞、文檔與主題三者之間的統計學關系進行推斷的
文檔的條件概率可以表示為∶
案列
讀取數據
數據集
5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa 4.4,2.9,1.4,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa 5.4,3.7,1.5,0.2,Iris-setosa 4.8,3.4,1.6,0.2,Iris-setosa 4.8,3.0,1.4,0.1,Iris-setosa 4.3,3.0,1.1,0.1,Iris-setosa 5.8,4.0,1.2,0.2,Iris-setosa 5.7,4.4,1.5,0.4,Iris-setosa 5.4,3.9,1.3,0.4,Iris-setosa 5.1,3.5,1.4,0.3,Iris-setosa 5.7,3.8,1.7,0.3,Iris-setosa 5.總結
以上是生活随笔為你收集整理的Spark机器学习-LDA算法09的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 利用python调用PSS/E进行电力系
- 下一篇: 第三章 平稳时间序列模型