【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
文章目錄
- I . 高斯混合模型方法 ( GMM )
- II . 硬聚類 與 軟聚類
- III . GMM 聚類結(jié)果概率的作用
- IV . 高斯混合分布
- V . 概率密度函數(shù)
- VI . 高斯分布 曲線 ( 僅做參考 )
- VII . 高斯混合模型 參數(shù)簡介
I . 高斯混合模型方法 ( GMM )
1 . 高斯混合模型 與 K-Means 相同點 : 高斯混合模型方法 與 K-Means 方法 , 都是通過多次迭代 , 每次迭代都對聚類結(jié)果進(jìn)行改進(jìn) , 最終達(dá)到算法收斂 , 聚類分組結(jié)果達(dá)到最優(yōu) ;
2 . 高斯混合模型 與 K-Means 不同點 :
① K-Means 方法 : 使用 K-Means 方法的 聚類結(jié)果是 某個樣本 被指定到 某個聚類分組中 ;
② 高斯混合模型 : 高斯混合模型的聚類分析結(jié)果是 , 某個樣本 被分到了 某個聚類分組 中 , 但是除此之外還給出了 該樣本 屬于 該聚類 的 概率 , 意思是 該樣本 并不是 一定屬于該聚類 , 而是有一定幾率屬于 ;
③ 高斯混合模型 應(yīng)用場景 : 高斯混合模型 需要訓(xùn)練學(xué)習(xí)出 概率密度函數(shù) , 該方法除了用于 聚類分析 外 , 還可以用于 密度估計 等用途 ;
II . 硬聚類 與 軟聚類
硬聚類 與 軟聚類 :
① 硬聚類 (硬指派 ) : K-Means 方法中 , 每個數(shù)據(jù)集樣本 , 都被指派了一個聚類分組 ;
② 軟聚類 ( 軟指派 ) : 高斯混合模型方法中 , 每個數(shù)據(jù)集樣本 , 也都被指派了一個聚類分組 , 此外還指定了該樣本屬于該聚類分組的概率 , 即該樣本不一定屬于該聚類分組 , 有一定幾率屬于其他聚類分組 ;
③ 硬指派概率 : 硬指派中 , 樣本如果屬于某個聚類分組 , 就是 100% 屬于 , 如果不屬于某聚類 , 就是 0% 屬于 , 沒有概率的概念 ;
III . GMM 聚類結(jié)果概率的作用
1 . 概率信息 : 高斯混合模型 方法 的 聚類結(jié)果 附帶 樣本 屬于 聚類 的 概率 , 其包含的信息量 遠(yuǎn)遠(yuǎn)高于 K-Means 方法的 單純的樣本聚類分組 ;
2 . 聚類概率 : 聚類算法并不是萬能的 , 不能保證 100% 準(zhǔn)確 , 這里可以將 高斯混合模型 樣本 的 聚類分組 概率值 , 轉(zhuǎn)為一個評分 , 用該評分表示 聚類結(jié)果 的準(zhǔn)確性 ;
3 . 評分作用 : 同一個聚類分析 , 使用不同的方法 , 得到 多個結(jié)果 , 每個結(jié)果都有 聚類概率 轉(zhuǎn)化的一個評分 , 可以將 聚類結(jié)果評分 最高的那個結(jié)果 當(dāng)做 最終結(jié)果 ;
4 . 示例 : 疾病診斷場景 , 為病人樣本進(jìn)行聚類分組 , 最終結(jié)果是 49%49\%49% 的概率分到得病的聚類分組 , 51%51\%51% 分到不得病的聚類分組 , 如果靠機器判定該病人樣本是否得病 , 風(fēng)險太大了 , 這里保守的方法是計算機給出意見 , 但是不能下決定 , 讓醫(yī)生根據(jù)這個 聚類 和 概率 進(jìn)行后續(xù)的診斷治療工作 ;
IV . 高斯混合分布
高斯混合分布 概念 : 高斯混合模型 數(shù)據(jù)集樣本 服從 高斯混合分布 ;
① 高斯分布 : 又叫 正態(tài)分布 , 常態(tài)分布 ; 高斯分布曲線兩頭低 , 中間高 , 呈鐘形 , 又叫鐘形曲線 ;
② 高斯混合分布 : kkk 個高斯分布 生成 高斯混合分布 , 這里的 kkk 是聚類分組的個數(shù) ;
V . 概率密度函數(shù)
概率密度函數(shù) :
① 組件 ( 高斯分布 ) :每個高斯分布 , 都是一個組件 , 代表一個聚類分組中的樣本分布 ;
② 組件疊加 ( 高斯混合分布 ) : kkk 個組件 ( 高斯分布 ) 線性疊加 , 組成了 高斯混合模型的 概率密度函數(shù) ;
p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k?ωi?g(x∣μi?,Σi?)
xxx 表示數(shù)據(jù)集樣本中的 單個樣本數(shù)據(jù)對象 ;
ωi\omega_iωi? 是權(quán)重系數(shù) , 表示某個 高斯模型 的重要程度, 重要的分布 , ωi\omega_iωi? 值大 , 不重要的分布 , ωi\omega_iωi? 權(quán)重小 ;
ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ; iii 代表了高斯分布的序號 , 聚類分組的序號 , 組件的序號, 其取值范圍是 0≤i≤k0 \, \leq i \leq \, k0≤i≤k ;
kkk 表示 高斯分布 ( 正態(tài)分布 / 組件 ) 的個數(shù) , 也是聚類分組的個數(shù) , 每個聚類分組的樣本都是 高斯分布 ( 正態(tài)分布 ) 的 ;
g(x∣μi,Σi)g ( x | \mu_i , \Sigma_i )g(x∣μi?,Σi?) 是高斯模型 的概率密度函數(shù) ;
μi\mu_iμi? 是 高斯模型 的 均值 ;
Σi\Sigma_iΣi? 是高斯模型的 方差 ;
均值和方差唯一決定一個高斯模型 ( 正態(tài)分布 ) ;
VI . 高斯分布 曲線 ( 僅做參考 )
高斯分布 : 高斯分布曲線是鐘形曲線 , 中間的 μ\muμ 是其 樣本分布的 均值 , 該值位置處的樣本數(shù)最多 , σ\sigmaσ 是其樣本的方差 , 這是 111 個標(biāo)準(zhǔn)的高斯分布的模型 ;
高斯混合模型 : 下圖是 多個 高斯分布 線性疊加后的 曲線表示圖 , 僅做參考 ;
VII . 高斯混合模型 參數(shù)簡介
1 . 模型 與 參數(shù) : 高斯混合模型 概率密度函數(shù) :
p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )p(x)=i=1∑k?ωi?g(x∣μi?,Σi?)
模型結(jié)構(gòu)已知 , 即 高斯混合模型 , 需要根據(jù)已知的數(shù)據(jù)樣本 , 學(xué)習(xí)出模型的參數(shù) ;
2 . 高斯混合模型 參數(shù)個數(shù) :
① 聚類個數(shù) ( 高斯模型個數(shù) ) : 每個高斯混合模型 都由 kkk 個高斯模型 ( 組件 ) 線性疊加組成的 ;
② 高斯模型參數(shù) : 每個高斯模型 都有兩個參數(shù) , 即 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? ;
③ 樣本屬于聚類分組概率 ( 系數(shù) ) : 每個高斯模型 還有一個系數(shù)參數(shù) , ωi\omega_iωi? 表示該 xxx 樣本由第 iii 個 高斯分布 ( 組件 ) 生成的概率 , 也就是 該樣本被指派到某個聚類的概率 ;
④ 每個高斯模型相關(guān)參數(shù)個數(shù) : kkk 個 高斯模型 , 每個高斯模型有 均值 μi\mu_iμi? , 方差 Σi\Sigma_iΣi? , 生成概率 ωi\omega_iωi? 等 333個參數(shù) ;
⑤ 高斯混合模型參數(shù)個數(shù) : 整個 高斯混合模型 有 3×k3 \times k3×k 個參數(shù) , kkk 是聚類分組個數(shù) , 也是高斯模型個數(shù) , 正態(tài)分布個數(shù) ;
Σi\Sigma_iΣi? 此處方差表示 , 是大寫的希臘字母 sigma σ\sigmaσ , 注意與加和符號 ∑\sum∑ 區(qū)分 ;
K-Means 方法中 , 有 kkk 個參數(shù) , 每個聚類分組 , 只有一個參數(shù) , 即中心點樣本參數(shù) ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】K-Means 二维数据聚类
- 下一篇: 【数据挖掘】高斯混合模型 ( 与 K-M