《多元统计分析》学习笔记之聚类分析
鄙人學習筆記
PS:對不起,原本想簡單寫寫,總結一下,不想截那么多圖,但寫著寫著覺得都挺想寫的,就越寫越多,越截越多。。。。
文章目錄
- 聚類分析
- 聚類分析的基本思想
- 相似性度量
- 類和類的特征
- 系統聚類法
- K-均值聚類
- 有序樣本的聚類
聚類分析
聚類分析將個體或對象分類,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強。其目的在于使類間對象的同質性最大化和類與類間對象的異質性最大化。
聚類分析的基本思想
- 基本思想
所研究的樣品或指標(變量)之間存在著程度不同的相似性(親疏關系)。于是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間的相似程度的統計量,以這些統計量作為劃分類型的依據,把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另外一類……關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統。最后再把整個分類系統畫成一張分群圖(又稱譜系圖),用它把所有的樣品(或指標)間的親疏關系表示出來。
- Q型和R型聚類
聚類分析不僅可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品的分類常稱為 Q型聚類分析,對變量的分類常稱為 R型聚類分析。
- 不同指標類型,聚類中處理方式不同
指標的類型有三種尺度:
(1)間隔尺度。變量用連續的量來表示
(2)有序尺度。指標用有序的等級來表示
(3)名義尺度。指標用一些類來表示,這些類之間既沒有等級關系,也沒有數量關系
不同類型的指標,在聚類分析中,處理的方式是大不一樣的。總的來說,處理間隔尺度指標的方法較多,對另兩種尺度的變量的處理方法不多。
- 聚類分析有多種方法
(1)系統聚類法。
首先,將 n個樣品看成 n類(一類包含一個樣品),然后將性質最接近的兩類合并成一個新類,得到 n-1類,再從中找出最接近的兩類加以合并變成 n-2類,如此下去,最后所有的樣品均在一類,將上述并類過程畫成一張圖(稱為聚類圖)便可決定分多少類,每類各有哪些樣品。
(2)模糊聚類法。
將模糊數學的思想觀點用到聚類分析中產生的方法。該方法多用于定性變量的分類。
(3)K-均值法。
K-均值法是一種非譜系聚類法,它是把樣品聚集成 k個類的集合。類的個數 k可以預先給定或者在聚類過程中確定。該方法可應用于比系統聚類法大得多的數據組。
(4)有序樣品的聚類
n個樣品按某種原因(時間、地層深度等)排成次序,必須是次序相鄰的樣品才能聚成一類。
(5)分解法
它的程序正好和系統聚類相反,首先所有的樣品均在一類,然后用某種最優準則將它分為兩類。再用同樣準則將這兩類各自試圖分裂為兩類,從中選一個使目標函數較好者,這樣由兩類變成三類。如此下去,一直分裂到每類只有一個樣品為止(或用其他停止規則)
(6)加入法
將樣品依次加入,每次加入后將它放到當前聚類圖的應在位置上,全部加入后,即可得到聚類圖。
相似性度量
從一組復雜數據產生一個相當簡單的類結構,必然要求進行相關性或相似性度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但最重要的考慮是指標(包括離散的、連續的和二態的)性質或觀測的尺度(名義的、次序的、間隔的和比率的)以及有關的知識。
- p個指標為間隔尺度時的距離
最常見、最直接的距離:
dij( q)在實際中應用很多,但是有一些缺點,例如距離的大小與各指標的觀測單位有關,它就具有一定的人為性;另一方面,它又沒有考慮指標之間的相關性。
通常的改進辦法有以下幾種:
(1)標準化
(2)蘭氏距離
(3)馬氏距離
一種改進的距離就是前面說過的馬氏距離:
在聚類分析之前,我們事先對研究對象有多少個不同類型的情況一無所知,馬氏距離公式中的 ∑值如何計算呢?如果用全部數據計算的均值和協方差陣來計算馬氏距離,效果也不是很理想。因此,通常人們還是喜歡應用歐氏距離聚類。
- p個指標為名義尺度時的距離
當 p個指標都是名義尺度時,例如 p= 5,有兩個樣品的取值為:
這兩個樣品的第一個指標都取 V,稱為配合的;第二個指標一個取 Q,另一個取 M,稱為不配合的。記配合的指標數為 m1,不配合的指標數為 m2,定義它們之間的距離為:
- 相似系數
在聚類分析中不僅需要將樣品分類,也需要將指標分類。在指標之間也可以定義距離,更常用的是相似系數,用 Cij表示指標 i和指標 j之間的相似系數。 Cij的絕對值越接近于 1,表示指標 i和指標 j之間的關系越密切; Cij的絕對值越接近于 0,表示指標 i和指標 j的關系越疏遠。
常用的相似系數有:
(1)夾角余弦
(2)相似系數
實際上,距離和相似系數之間可以互相轉化。若 dij是一個距離,則 Cij= 1/( 1+ dij)為相似系數。若 Cij為相似系數且非負,則dij = 1-Cij2可以看成距離(不一定符合距離的定義),或把 dij=[2(1-Cij)]1/ 2看成距離。
類和類的特征
- 類與類中之間的幾種距離
(1)最短距離法
(2)最長距離法
(3)類平均法
(4)重心法
(5)離差平方和法
系統聚類法
- 系統聚類法的流程圖:
- 最短距離法和最長距離法
最短距離法的主要缺點是它有鏈接聚合的趨勢,因為類與類之間的距離為所有距離中的最短者,兩類合并以后,它與其他類的距離縮小了,這樣容易將大部分樣品都被聚在一類中,所以最短距離法的距離效果并不好,實踐中不提倡使用。
最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合并以后與其他類的距離是原來兩個類中的距離最大者,加大了合并后的類與其他類的距離。
- 重心法和類平均法
從物理的觀點看,一個類用它的重心(該類樣品的均值)做代表比較合理,類與類之間的距離就用重心之間的距離來代表。
這就是重心法距離的遞推公式。
重心法雖然有很好的代表性,但是未充分利用各樣本信息。
有學者將兩類之間的距離平方定義為這兩類元素兩兩之間的平均平方距離,即:
上式也可記為:
這就是類平均法的遞推公式。
類平均法是聚類效果較好、應用比較廣泛的一種聚類方法。它有兩種形式,一種是組間聯結法( between- groups linkage),另一種是組內聯結法( within- groups likage)。組間聯結法在計算距離時只考慮兩類之間樣品之間距離的平均,組內聯結法在計算距離時把兩組所有個案之間的距離都考慮在內。
還有一種類平均法,它將類與類之間的距離定義為:
用類似的方法可導出這種定義下的距離遞推公式如下:
在類平均法的遞推公式中沒有反映 Dpq的影響,有學者將遞推公式改為:
式中, β< 1。對應于上式的聚類法稱為可變類平均法。如果接近 1,一般分類效果不好,故 β常取負值。
- 離差平方和法(Ward法)
離差平方和方法是由沃德(Ward)提出的,許多文獻中稱為Ward法。他的思想源于方差分析,如果類分得正確,同類樣品的離差平方和應當較小,類與類之間的離差平方和應當較大。
整個類內平方和是:
當k固定時,要選擇使L達到極小的分類,n個樣品分成k類,一切可能的分法有:
例如,當n=21,k=2時,R(21,2)=221-1=1048575。當n,k更大時,R(n,k)就達到了天文數字。要比較這么多分類來選擇最小的 L,即使高速計算機也難以完成。于是,只好放棄在一切分類中求 L的極小值的要求,而是設計出某種規格:找到一個局部最優解, Ward法就是找局部最優解的一個方法。
若將某類Gp和Gq合并為Gr,則類Gk與新類Gr的距離遞推公式為:
需要指出的是,離差平方和法只能得到局部最優解。
- 分類數的確定
因此,如何選擇分類數成為各種聚類方法中的主要問題之一。
在K- 均值聚類法中聚類之前需要指定分類數,譜系聚類法(系統聚類法)中我們最終得到的只是一個樹狀結構圖,從圖中可以看出存在很多類,但問題是如何確定類的最佳個數。
在系統聚類過程中,首先把離得近的類合并,所以在并類過程中聚合系數( agglomeration coefficients)呈增加趨勢,聚合系數小,表示合并的兩類的相似程度較大,兩個差異很大的類合到一起,會使該系數很大。如果以 y軸為聚合系數, x軸表示分類數,畫出聚合系數隨分類數的變化曲線,會得到類似于因子分析中的碎石圖,可以在曲線開始變得平緩的點選擇合適的分類數。
- 系統聚類法的統一
上面介紹的五種系統聚類法,如果能將它們統一為一個公式,將大大有利于編制計算機程序。蘭斯和威廉姆斯于 1967年給出了一個統一的公式:
式中, αp, αq, β, γ對于不同的方法有不同的取值,表 3— 6列出了不同方法中四參數的取值。
由于上述聚類方法得到的結果不完全相同,為了解決這個問題,需要研究系統聚類法的性質,現簡要介紹如下:
(1)單調性
令Dr 為系統聚類法中第r 次并類時的距離。一個系統聚類法若能保證{ Dr}是嚴格單調上升的,則稱它具有單調性。
顯然,最短距離法和最長距離法具有并類距離的單調性。可以證明,類平均法、離差平方和法、可變法和可變類平均法都具有單調性,只有重心法和中間距離法不具有單調性。
(2)空間的濃縮與擴張
對同一問題做聚類圖時,并類距離的范圍相差很遠。最短距離法的范圍較小,最長距離法的范圍較大,類平均法則介于二者之間。
設有 A, B兩個系統聚類法,在第 k步的距離陣記作 Ak和 Bk( k= 0, 1,…, n-1),若 Ak ≥ Bk( k= 1, 2,…, n-1),則稱 A比 B擴張或者 B比 A濃縮。
歸納起來說,與類平均法相比,最短距離法、重心法使空間濃縮;最長距離法、離差平方和法使空間擴張。太濃縮的方法不夠靈敏,太擴張的方法在樣本大時容易失真。類平均法比較適中,相比其他方法,類平均法不太濃縮也不太擴張,故許多書推薦這個方法。
K-均值聚類
- 非譜系聚類法
非譜系聚類法是把樣品(而不是變量)聚集成 K個類的集合。類的個數 K可以預先給定,或者在聚類過程中確定。
非譜系聚類法或者一開始就對元素分組,或者從一個構成各類核心的“種子”集合開始。選擇好的初始構形,將能消除系統的偏差。一種方法是從所有項目中隨機地選擇“種子”點或者隨機地把元素分成若干個初始類。
- k-均值法(快速聚類法)
麥克奎因(Macqueen)于1967 年提出了K- 均值法。這種聚類方法的思想是把每個樣品聚集到其最近形心(均值)類中。
在它的最簡單說明中,這個過程由下列三步所組成:
(1)把樣品粗略分成K 個初始類。
(2)進行修改,逐個分派樣品到其最近均值的類中(通常用標準化數據或非標準化數據計算歐氏距離)。重新計算接受新樣品的類和失去樣品的類的形心(均值)。
(3)重復第(2)步,直到各類無元素進出。若不在一開始就粗略地把樣品分到K 個預先指定的類(第(1)步),也可以指定K 個最初形心(“種子”點),然后進行第(2)步。
樣品的最終聚類在某種程度上依賴于最初的劃分,或種子點的選擇。
為了檢驗聚類的穩定性,可用一個新的初始分類重新檢驗整個聚類算法。如果最終分類與原來一樣,則不必再行計算;否則,須另行考慮聚類算法。
- 關于k-均值法的幾個評注
對于預先不固定類數 K這一點有很大的爭論,其中包括下面幾點:
(1)如果有兩個或多個“種子”點無意中跑到一個類內,則其聚類結果將很難區分。
(2)局外干擾的存在將至少產生一個樣品非常分散的類。
(3)即使已知總體由 K個類組成,抽樣方法也可造成屬于最稀疏類數據不出現在樣本中。強行把這些數據分成 K個類會導致無意義的聚類。
有序樣本的聚類
- 有序樣本分類
對于這類有序樣品的分類,實質上是需要找出一些分點,將它們劃分成幾個分段,每個分段看作一類,稱這種分類為分割。顯然,分點在不同位置可以得到不同的分割。這樣就存在一個如何決定分點,使其達到所謂最優分割的問題。即要求一個分割能使各段內部樣品間的差異最小,而各段之間樣品的差異最大。
總結
以上是生活随笔為你收集整理的《多元统计分析》学习笔记之聚类分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宝可梦大集结岩殿居蟹技能好用吗 岩殿居蟹
- 下一篇: 人工鱼群算法-python实现