论文笔记:Weighted Graph Cuts without Eigenvectors:A Multilevel Approach
1 introduction
????????在本文中,我們討論了兩種看似不同的方法對非線性可分數據的聚類:核k均值和譜聚類之間的等價性。
????????利用這種等價性,我們設計了一種基于核的快速multigraph聚類算法,該算法在速度、內存使用和質量方面都優于譜聚類方法。
????????核k-means算法是標準k-means算法的推廣。通過隱式地將數據映射到高維空間,核k-means可以發現輸入空間中非線性可分的聚類
????????最近,由于特征向量,頻譜聚類(spectral?clustering)在各種機器學習任務[7]中得到了廣泛的應用。
? ? ? ? ?在本文中,我們將得到,核k-means的加權形式在數學上等價于一般加權圖的聚類問題。
????????這種等價性有一個直接的含義:我們可以使用加權核k均值算法局部優化一些圖聚類目標,反之,也可以使用譜方法對加權核k均值進行優化。
????????在特征向量計算難以求得的情況下(例如,如果一個非常大的矩陣需要許多特征向量),加權核k均值算法可能比譜方法更可取。
| A,X,φ等大寫字母 | 矩陣 |
| a,b等小寫字母 | 向量 |
| V,E | 集合 |
| ||a|| | a的L2范數 |
| X的Frobenius 范數 線性代數筆記:Frobenius 范數_UQI-LIUWJ的博客-CSDN博客 |
?
?2 核K-Means
K-means:
????????給定向量,K-means的目的是為了找到k個集簇。使得目標函數最小
?核k-means
先使用函數Φ來講數據點映射到高維特征空間中,然后在那個空間中使用K-means
?目標函數可以改寫成:
??
距離可以寫成
=
在這種情況下,距離只需要 內積操作就可以實現了。
因此,給定一個核矩陣K(),和的距離可以在不知道這兩個的具體高維表示的情況下得到
任何一個半正定矩陣K可以被視為是核矩陣?
?
?常見的核函數
?
?2.1 加權核K-means
?????????現在我們引入一個加權版本的核k-means目標函數正如我們稍后將看到的,權值在顯示與圖聚類的等價性方面起著至關重要的作用。
?
注:權重非負
????????m是“最好的”集簇代表(這一個集簇內任何別的點當這個集簇代表,這個集簇加權距離之和都大于m作為集簇代表求出來的值)?
?和之前一樣,我們計算一下
?=
?
?使用核矩陣K,我們可以有:
?3 圖劃分
?我們記表示點集A和點集B之間的邊的權重之和
記點集A的度為A和整張圖的點集V之間的link?
?
?圖劃分問題旨在將將圖劃分成k個獨立的部分V1....Vk,他們的并集是V
幾種典型的圖劃分方法?
| Ratio association. | 最大化類內link ? |
| ratio cut | 最小化類與類外點之間的link |
| Kernighan-Lin objective | 和ratio cut很類似,唯一的不同是,這里要求各個分割的圖節點數一樣 ? |
| Normalized cut | 也和ratio cut類似,不同之處在于,相比于Kernighan-Lin objective,這里不是用點的數量,而是用度數進行的歸一化 |
一個結論:
?3.1 加權的圖割
我們記
| 類比 ratio association (ratio association 是一種特殊情況:所有的點權重都是1) | |
| 類比 ratio cut (ratio cut 是一種特殊情況:所有的點權重都是1) |
?4 二者的聯系
????????乍一看,前兩節中介紹的兩種clustering方法似乎是不相關的。
????????在本節中,我們首先將加權核k均值目標表示為一個跡最大化問題。
????????然后我們將加權圖關聯和圖切割問題也改寫為矩陣跡最大化,從而證明這兩個目標在數學上是等價的。
????????最后,我們討論了與譜方法的聯系,并展示了如何加強鄰接矩陣的正定性,以保證加權核k-均值算法的收斂性。
?4.1 加權核k-means ——> 跡最大化?Trace Maximization
我們記:
同時我們定義一個N*K的矩陣
?
?很顯然Z的列向量互相正交,因為他們捕獲的是獨立的幾個簇的點。
假設Φ表示所有向量組成的矩陣,W是表示每個點權重wi的對角陣
?
那么矩陣的第i列表示包含ai的那個集簇的平均向量
即?=
?解釋一下:
于是,加權 核K-means可以寫成
其中表示矩陣Φ的第i列。
?令不難發現是一個正交矩陣()
因此
?
?而我們又知道? :
- trace(AB)=trace(BA)
- ?
- trace(A+B)=trace(A)+trace(B)
所以我們可以重新寫
???????
而K=?,
對同一張圖,是固定值
?所以我們加權核k-means的目標函數相當于
?
?.4.2?Ratio association ——> 跡最大化?Trace Maximization
?我們引入一個指示函數 Xc。Xc(i)=1表示類別包括了節點i。
于是我們可以把原來的式子:
?改寫成
?????????只有i,j都是在c這個類中,才會有一項正數加進去,所以 這個式子加上去的都是在c這個類中的點之間的邊權重
?可以看成,其中的第c列是
?很顯然
?當所有的點權重是1的時候,可以很容易地發現,這里的和前面的是一樣的
?在W=I的情況下,如果K=A,那么兩個的目標函數是一樣的
?? ?VS??
?4.3 weighted?Ratio association
?
這里?
?和4.1一樣,我們令
?于是有:
?
4.4 兩個問題的互通
4.4.1 weighted graph——>weighted K-means
?我們可以發現(4)式的Y和(3)式的是一樣的
同時我們令(3)式的K=,那么兩個式子的目標函數就一樣了
4.4.2??weighted K-means?——>?weighted graph
?給定核矩陣K,以及每個點的權重矩陣K,我們令A=WKW,以A為鄰接矩陣構造一個圖,就可以了
總結
以上是生活随笔為你收集整理的论文笔记:Weighted Graph Cuts without Eigenvectors:A Multilevel Approach的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: torch_geometric 笔记:n
- 下一篇: torch_geometric笔记:nn