聚类分析与SPSS实现——《社会统计分析方法》
目錄
一、定義
二、常用的聚類分析方法
三、主要步驟
四、相似性測度
五、聚類方法及SPSS操作??????????????
(一)層次聚類法(hierarchical cluster procedures)
(二)迭代聚類法(K-均值聚類)
???????(三)二階聚類法(Two Step)
六、聚類方法的選擇
七、聚類結果的解釋和證實
八、注意事項???????
一、定義
????????根據研究對象的特征對研究對象進行分類,使得同一類個體之間有高度的同質性,不同類的個體之間有較高的異質性。
????????聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
????????從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。
聚類分析在SPSS26中的位置:“分析”——“分類”,再選擇相應的聚類方法即可。
二、常用的聚類分析方法
| 聚類方法 | 聚類對象 | 變量類型 | 分類數 | 樣本容量 |
| 系統聚類 | 個案或變量 | 連續或分類 | 固定分類或指定范圍 | <200 |
| K-均值聚類 | 個案 | 連續 | 固定分類數 | 大樣本 |
| 二階聚類 | 個案或變量 | 連續或分類 | 系統自動確定 | 大樣本 |
三、主要步驟
四、相似性測度
為了克服變量測度單位的影響,在計算相似測度之間,一般要對變量標準化處理。
1.相關測度應用最廣泛的是皮爾遜相關系數(Person correlation),更大程度上反映了案例在聚類變量上變化模式的相似性,變量值大小差異對其影響不大,也被稱為形狀測度。
2.距離測度:在m維空間中定義點和點的距離,距離越近的點,相似程度越高,聚類時更可能歸為一類。明可夫斯基距離是通用的距離測度公式 。
3.關聯測度:度量聚類變量為分類變量的研究對象的相似性。
(1)簡單匹配系數:只用于二分變量,兩個案例在所有的聚類變量上答案相同的情況。舉個例子,我們用1代表“是”,0代表“否”,如果兩個案例都回答1的次數為a,都回答0的次數為b,回答不同的次數為c+d(兩個案例分別回答1和0),則簡單匹配系數為:
???????
(2)Jaccard系數:只用于二分變量,簡單匹配系數類似,但只保存都回答“是”的部分:
????????
(3)Gower系數:允許聚類變量可以是名義變量、序次變量和間距測度變量
???????其中,為案例i和j在變量k上的相似性得分,為加權變量
???????對于間距測度或以上的變量:?
???????其中,是變量k的全距,即變量k的最大值與最小值的差
五、聚類方法及SPSS操作??????????????
(一)層次聚類法(hierarchical cluster procedures)
SPSS窗口:
此處選擇四個指數為聚類分析的變量,“省市區”作為個案標準依據。因為我們想對地區進行聚類,所以在“聚類”選項選擇“個案”。如果在其他案例中,是對表征同一對象不同特征的變量進行聚類,則選擇“變量” 。
? ? 基本思想:通過某種相似性測度計算節點之間的相似性,并按相似度由高到低排序,逐步重新連接個節點。
? ? 方法:
聚類結果的表示:??
???????縱向冰柱圖:水平方向表示案例,豎直方向表示類數
???????比如,最高的冰柱只到1,表示水平1一下所有案例為一類;而在水平2以下,此唯一的冰柱把案例分成兩類。在水平3上則有兩個冰柱,以它們為界把案例分為3類。具體來看第一步,案例1和案例13聚為1類,對應的分類數是29;第二步,??案例27和28聚為一?類,對應的分類數是28;每一步減少一類,直到所有案例歸為一類。??????????????
(二)迭代聚類法(K-均值聚類)
?SPSS窗口:?
在“迭代”窗口中,我們可以設置迭代的終止條件,即到達設定的最大值后將停止迭代分析,輸出聚類分析結果;
???????收斂性標準設置的是凝聚點改變的最大距離小于初始凝聚點的比例,小于設定值時,也會停止迭代,輸出結果;
使用運行均值表示每次觀測后都重新計算凝聚點,這些設置保持默認即可。
在“選項”窗口中,可以選擇輸出“初始聚類中心”“ANOVA表”(方差分析表)、“每個個案的聚類信息”。
注意:由于類別選擇就是為了使得類別中心之間的差別最大化,因此ANOVA表中的F值和顯著性水平不能作為各聚類平均值是否相等的常規假設檢驗概率來理解。???????
???????基本思想:先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。
步驟:
(三)二階聚類法(Two Step)
SPSS窗口
? ??基本思想:以個案或變量間的距離為依據形成相應的聚類特征樹結點來構造聚類特征樹,再通過信息準則確定最優分組個數對各個節點進行分組。
? ? 優點:
????分類數的確定準則:
六、聚類方法的選擇
? ? ?選擇依據:
注意:
七、聚類結果的解釋和證實
? ? ? ?在“統計(S)?”窗口可以選擇輸出聚類計劃表(A),距離矩陣(P)以及聚類成員,即每個案例屬于那一類,“單個解”輸出制定類數的聚類結果,“解的范圍”輸出制定類數范圍的聚類結果,如指定2-4,則輸出聚2、3、4類的聚類結果。
不同的聚類方法的結果是不穩定的。通常的做法是把樣本分成兩組,分別做聚類分析,對結果進行比較,或者對同一數據采用不同的方法反復聚類。
八、注意事項???????
1. 選擇的聚類指標能代表研究對象
聚類分析的基礎依據是比較研究主題的特征/性質的差異性,而特征/性質則以數量化的指標來表達。因此,做好聚類分析的關鍵前提,是要選對能很好地代表、衡量研究主題特征的指標。
比如,希望依照學校的科研情況對高校進行分類,那就可以選擇參加科研人數、科研經費、立項課題數等變量指標作為聚類指標,而不應該選擇如在校人數、校園面積、年用水量等和研究主題無關的指標。
2. 對數據進行標準化處理
由于聚類分析主要是基于個案或變量之間的距離或者相似性,要保證可比性,就要求數據無量綱差異(如數量級、單位上的差異),能夠在同一標準下進行比較。因此,在聚類分析前,需要對數據進行處理,將原始數據轉化為無量綱的數據。常用的轉化方法有:
(1)轉化為同標準的標準分:標準化處理是最常用的方法之一
(2)用變量值除以全距(最大值減去最小值)
(3)變量值減去最小值再除以全距
(4)變量值除以最大值
3. 聚類指標之間不應有較強的線性相關關系
聚類分析是以各種距離來度量個案間或變量間的親疏程度。如果所選的聚類變量指標之間存在較高的線性關系,能夠相互替代,那么計算距離時同類變量將會重復起作用,將在距離中有較高的權重,從而導致聚類結果偏向該變量。
此部分來源:https://zhuanlan.zhihu.com/p/397631854???????
本文章數據來源:郭志剛《社會統計分析方法——SPSS軟件應用》配套數據
總結
以上是生活随笔為你收集整理的聚类分析与SPSS实现——《社会统计分析方法》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 步骤安装Ubuntu 11.04用五笔
- 下一篇: 特洛伊木马程序_历史著名的特洛伊木马计,