python鸢尾花数据集聚类_R语言鸢尾花iris数据集的层次聚类分析
介紹
本文在數據集上展示了如何使用dendextend R軟件包來增強Hierarchical Cluster
Analysis(更好的可視化和靈敏度分析)。
背景
鳶尾花數據集
我們可以看到,Setosa物種與Versicolor和Virginica明顯不同(它們具有較低的花瓣長度和寬度)。但是,基于對萼片和花瓣寬度/長度的測量,不易將Versicolor和Virginica分開。
通過查看數據的平行坐標圖可以得出同樣的結論:
我們可以通過將對象轉化為樹狀圖并對對象進行一些調整來可視化運行它的結果
相同的可以在圓形布局中呈現:
這些可視化很容易證明分層聚類的分離對于“Setosa”物種來說是非常好的,但是在將許多“Versicolor”物種標記為“Virginica”時未能實現。
我們也可以使用熱圖探索數據。
在熱圖中,我們還可以看到Setosa物種的花瓣值如何(淺黃色),但很難看出其他兩種物種之間的明顯區別。
各種聚類算法之間的相似/不同
為了進行這種分析,我們將創建所有8個hclust對象,并將它們鏈接在一起成為一個dendlist對象(顧名思義,它可以將一組樹狀圖組合在一起用于進一步分析)。
接下來,我們可以看看每個聚類結果之間的同源相關性cor.dendlist。(這可以使用corrplot包中的corrplot函數很好地繪制):
從上圖中我們可以很容易地看到,除了完整的方法(默認方法in
hclust),大多數聚類方法的結果非常相似,其結果相關度大約為0.6。
默認的同源相關使用皮爾遜的度量,但如果我們使用spearman的相關系數呢?
我們可以看到,相關性不是很強,表明一個行為依賴于彼此距離很遠的一些項目,這些項目對皮爾森相關性的影響相關性更大。
相關推薦:
總結
以上是生活随笔為你收集整理的python鸢尾花数据集聚类_R语言鸢尾花iris数据集的层次聚类分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: qt 实现拖动矩形角度_手机上如何使用C
- 下一篇: telnet 22正常 ssh无法连接_