文献记录(part51)--识别聚类间远近关系的双几何体模型
學(xué)習(xí)筆記,僅供參考,有錯必糾
關(guān)鍵詞:雙幾何體模型;聚類間遠近關(guān)系;大類數(shù);高維數(shù)據(jù);劃分聚類算法;
識別聚類間遠近關(guān)系的雙幾何體模型
摘要
多實際問題的解決不僅需要聚類算法給出類標(biāo), 更依賴于類間遠近關(guān)系的辨別。對于類數(shù)較多且高維數(shù)據(jù)的困難情況, 基于降維的聚類結(jié)果可視化方法通常會出現(xiàn)聚類的重疊、交織或強行拉遠現(xiàn)象, 使得一些類間的遠近關(guān)系無法分辨或被錯誤顯示;而現(xiàn)有的類間距離方法則不能揭示兩個聚類是遠離還是靠近。
本文提出了雙幾何體模型方法來描述兩個聚類的類間關(guān)系, 并設(shè)計了相對邊界距離、絕對邊界距離和區(qū)域疏密程度等測量類間遠近程度的方法
本文方法既考慮了兩個聚類的最近樣本集之間的絕對距離,也考慮了聚類邊界區(qū)域的疏密程度, 其優(yōu)點是在上述困難情況下也能準(zhǔn)確揭示高維空間中的類間關(guān)系。對真實數(shù)據(jù)集的實驗結(jié)果表明, 雙幾何體模型方法能有效地識別現(xiàn)有聚類可視化方法無法辨別的類間遠近關(guān)系。
引言
基于均方誤差的劃分聚類方法主要包括 K- 均值算法、圍繞中心點劃分 (PAM) 算法和仿射傳播聚類 (a?nity propagation clustering, AP) 算法等。這些聚類算法僅是給出數(shù)據(jù)集的每個樣本的類別歸屬, 然而獲取聚類間的遠近信息對掌握數(shù)據(jù)集的聚類結(jié)構(gòu)和解決許多實際問題是十分重要的。例如,采用聚類方法對 72 個白血病病例的高維基因表達數(shù)據(jù)進行分析時, 只有獲得病類之間遠
總結(jié)
以上是生活随笔為你收集整理的文献记录(part51)--识别聚类间远近关系的双几何体模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何提高键盘灵敏度
- 下一篇: 文献学习(part49)--机器学习面临