文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction
學習筆記,僅供參考,有錯必究
關(guān)鍵詞:子空間聚類,降維,主成分分析,貝葉斯信息準則,k-centroids
VARCLUST: clustering variables using dimensionality reduction
摘要
在假設(shè)給定聚類中的變量是被隨機噪聲破壞的少量隱藏潛在變量的線性組合的情況下,提出了用于聚類變量的VARCLUST算法。整個聚類任務(wù)被視為統(tǒng)計模型的選擇問題,統(tǒng)計模型由聚類的數(shù)量、變量在這些聚類中的劃分以及“聚類維數(shù)”,即跨越每個聚類的線性子空間的維數(shù)向量來定義。使用基于拉普拉斯近似的近似貝葉斯準則,并使用關(guān)于聚類數(shù)目的非信息均勻先驗來選擇“最優(yōu)”模型。為了解決在可能模型的巨大空間上搜索的問題,我們提出了[36,8]的ClustOfVar算法的擴展,該算法專用于僅一維的子空間,并且在結(jié)構(gòu)上類似于K-質(zhì)心算法。
我們提供一套完整的方法論,包括理論保證、廣泛的數(shù)值實驗、完整的數(shù)據(jù)分析和實施。我們的算法基于一致貝葉斯信息準則(BIC)將變量分配給適當?shù)木垲?,并通過[29]的懲罰半積分似然準則(PESEL)估計每個聚類的維數(shù),我們證明了該準則的一致性。
此外,我們還證明了我們算法的每次迭代都會導致模型后驗概率的拉普拉斯近似的增加,并為聚類數(shù)的估計提供了準則。
與其他算法的數(shù)值比較表明,在稀疏子空間聚類方面,VARCLUST可能優(yōu)于一些流行的機器學習工具。我們還報告了包括TCGA乳腺癌數(shù)據(jù)和氣象數(shù)據(jù)在內(nèi)的真實數(shù)據(jù)分析結(jié)果,結(jié)果
總結(jié)
以上是生活随笔為你收集整理的文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文献记录(part16)--Learni
- 下一篇: 防范和打击非法集资宣传标语文案28句