當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读笔记：A Scalable Exemplar-based Subspace ClusteringAlgorithm for Class-Imbalanced Data

發(fā)布時間：2023/12/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读笔记：A Scalable Exemplar-based Subspace ClusteringAlgorithm for Class-Imbalanced Data 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

ECCV 2018

Chong You, Chi Li, Daniel P. Robinson, Rene Vidal

的子空間聚類方法由于其經(jīng)驗上的成功和理論上的保證，已成為無監(jiān)督學(xué)習(xí)的常用工具。然而，它們的性能可能會受到不平衡數(shù)據(jù)分布和大規(guī)模數(shù)據(jù)集的影響。本文提出了一種基于樣本的子空間聚類方法來解決大規(guī)模數(shù)據(jù)集的不平衡問題。

通過計算表示系數(shù)的范數(shù)，所提出的方法搜索最能代表所有數(shù)據(jù)點的數(shù)據(jù)集子集。為了有效地求解我們的模型，我們引入了一種最遠優(yōu)先搜索算法，該算法迭代地選擇代表性最差的點作為樣本。當(dāng)數(shù)據(jù)來自子空間的并集時，我們證明了即使數(shù)據(jù)是不平衡的，計算的子集也包含足夠多的來自每個子空間的樣本來表示所有數(shù)據(jù)點。我們的實驗表明，在兩個不平衡的大規(guī)模圖像數(shù)據(jù)集中，該方法優(yōu)于現(xiàn)有的子空間聚類方法。我們還證明了我們的方法在人臉圖像分類任務(wù)的無監(jiān)督數(shù)據(jù)子集選擇上的有效性。

1. 簡介

不同類別的未標(biāo)記數(shù)據(jù)集中的數(shù)據(jù)樣本數(shù)量差異很大。因此，在無監(jiān)督的學(xué)習(xí)任務(wù)中，處理不平衡的數(shù)據(jù)是一個重大挑戰(zhàn)。傳統(tǒng)的無監(jiān)督學(xué)習(xí)方法利用了一個事實，即在許多計算機視覺應(yīng)用中，數(shù)據(jù)的基本維度遠小于環(huán)境維度，因此可以用低維子空間的并集來建模。子空間聚類是從此類數(shù)據(jù)中進行無監(jiān)督學(xué)習(xí)的一種流行方法，它聯(lián)合學(xué)習(xí)子空間的并集，并將每個數(shù)據(jù)點分配給相應(yīng)的子空間。

本文貢獻

我們提出了一種基于樣本的子空間聚類方法來解決不平衡和大規(guī)模數(shù)據(jù)的問題。給定一個數(shù)據(jù)集，我們的想法是選擇一個子集，我們稱之為范例，并將每個數(shù)據(jù)點作為點在中的線性組合寫入（而不是在SSC中的）：

相比于標(biāo)準(zhǔn)的SSC，上式顯然對不平衡數(shù)據(jù)集更加魯棒（如果選擇的子集是類別均衡的），此外，當(dāng)相對于原始數(shù)據(jù)較小時，SSC能更有效地求解。因此，為了實現(xiàn)對不平衡數(shù)據(jù)的魯棒性和對大型數(shù)據(jù)集的可伸縮性，我們需要一種高效的算法來選擇在不同類之間更平衡的示例。

在本文中，我們提出了一個新的模型來選擇樣本，該模型基于最小化數(shù)據(jù)的最大表示代價。此外，我們還介紹了一種有效的算法來解決具有線性時間和內(nèi)存復(fù)雜性的優(yōu)化問題。與SSC相比，基于樣本的子空間聚類對不平衡數(shù)據(jù)不太敏感，對大數(shù)據(jù)更有效（見圖1）。此外，我們的工作做出了以下貢獻：

我們對我們的樣本選擇模型和算法進行了幾何解釋，通過子集的Minkowski泛函，找到最能覆蓋整個數(shù)據(jù)集所有類的子集。

我們證明，當(dāng)數(shù)據(jù)位于獨立子空間的并集時，我們的方法可以保證從每個子空間中選擇足夠多的數(shù)據(jù)點，并構(gòu)造正確的數(shù)據(jù)親和力，即使數(shù)據(jù)是不平衡的。

我們在兩個不平衡的圖像數(shù)據(jù)集上評估了我們的方法：EMNIST手寫字母數(shù)據(jù)集和GTSRB街道標(biāo)志數(shù)據(jù)集。實驗結(jié)果表明，我們的方法在聚類性能和運行時間方面優(yōu)于現(xiàn)有的方法。

2 相關(guān)工作

略

3 基于范例的子空間聚類（ESC）

我們首先建立了從中選擇樣本子集的模型。由于該模型是一個組合優(yōu)化問題，我們提出了一種有效的近似求解算法。最后，我們描述了從示例生成聚類分配的過程。

3.1 基于自表示代價的樣本選擇

回想一下，在SSC中，每個數(shù)據(jù)點xj∈ X被寫成所有其他數(shù)據(jù)點與系數(shù)向量的線性組合。而每個中的非零項確定了一個可以用來表出的的子集，所有的集合通常需要整個數(shù)據(jù)集。在ESC中，目標(biāo)是找到一個可以表示中所有數(shù)據(jù)點的小子集。特別地，集合應(yīng)該包含來自每個子空間的樣本，這樣每個數(shù)據(jù)點的解都是子空間保持的。下面，我們根據(jù)（2）中的優(yōu)化定義一個成本函數(shù)，然后給出我們的示例選擇模型。

定義1?自表示代價

幾何上，定義了數(shù)據(jù)點是否被很好地包含在子集中（見第4節(jié)）。函數(shù)具有以下性質(zhì)?

引理1：函數(shù)是對集合單調(diào)的

即：

引理2：的取值范圍在之間。

區(qū)間的下界即只有一個點，有定理1知，上界來自于。

因此我們建議通過搜索在限制子集的樣本點的個數(shù)來執(zhí)行樣本選擇使自表示成本函數(shù)最小化，即：

其中為采樣點的個數(shù)。通過如下引理可知也是單調(diào)的。

引理3：自表示損失（即函數(shù)的上界）對于集合是單調(diào)的

求解上述上界的最小化的優(yōu)化問題是全局NP-hard的，它需要評估所有最大數(shù)目為k的所有子集對應(yīng)的。在下一節(jié)，我們提出了一種高效的近似計算算法。

3.2 A Farthest First Search (FFS) for ESC

在算法1中我們近似地求解上述優(yōu)化問題。

該方法逐步擴增初始為空集的候選子集知道包含k個點。對于每次迭代，如step 3所示，選擇的點是當(dāng)前子集最難線性表出的（即損失最大的），這暗合了引理2的要求，因為只有該點或不屬于子集時才能使當(dāng)前的損失最大。注意到FFS可以被看作最遠優(yōu)先遍歷算法的一種擴展。

高效的實現(xiàn)。每次迭代中。算法1需要評估所有點的。因此計算復(fù)雜度為是總樣本點數(shù)N的線性關(guān)系（假設(shè)k確定且遠小于N）。然而，計算本身就是困難的，他需要求解一個稀疏優(yōu)化問題。在接下來，我們提出了算法2來跳過某些點計算的步驟。

?這是因為引理2表明了是單調(diào)的，因此有。在FFS算法中，子集的容量是不斷增長的，這隱含著函數(shù)相對迭代次數(shù)i的增加是單調(diào)非增函數(shù)。在算法2的step 2中，我們對所有點相對于初始化后子集計算，對于之后的所有迭代i，這是對應(yīng)損失的上界。我們先對進行排序，使得，之后當(dāng)按照該排序的數(shù)據(jù)點計算（step 7）的同時通過可變的max_cost跟蹤的最大值（step 9）。我們可以根據(jù)該指標(biāo)提前停止計算（setp 11），即，一旦我們就可以斷言任何index比更大的數(shù)據(jù)點都不能再最大化，從而避免了計算剩下點的。

3.3 從ESC得到聚類結(jié)果

4 實驗

在本節(jié)中，我們將演示ESC在子空間聚類和無監(jiān)督子集選擇任務(wù)中的性能。計算自表示代價的步驟(如算法2的step 7)由SPAMS包中實現(xiàn)的LARS算法的LASSO版本解決。

4.1 子空間聚類

數(shù)據(jù)集。Extended-MNIST（EMNIST）是MNIST數(shù)據(jù)集的擴展，它包含灰度的手寫字母。我們將所有190998張對應(yīng)于26個小寫字母的圖像作為26類聚類問題的數(shù)據(jù)。該數(shù)據(jù)集中每個圖像的大小為28×28。之后，每個圖像由散射卷積網(wǎng)絡(luò)計算出的特征向量表示，該網(wǎng)絡(luò)具有平移不變性和變形穩(wěn)定性（即，它將小變形線性化）。因此，EMNIST的這些特征大致遵循子空間并集模型。

EMNIST是不均衡的。在EMNIST中，每個字母的圖像數(shù)量從2213（字母“j”）到28723（字母“e”）不等，每個字母的樣本數(shù)量大約等于它們在英語中的出現(xiàn)頻率。

EMNIST的結(jié)果。下圖顯示了EMNIST的結(jié)果。從左到右，子圖分別顯示了作為樣本數(shù)（X軸）函數(shù)的Acc、F-score和運行時間（Y軸）。回想一下，在SSC中，每個數(shù)據(jù)點都表示為所有其他點的線性組合。通過選擇樣本子集并使用這些樣本表達點，當(dāng)樣本數(shù)達到200時，ESC-FFS能夠優(yōu)于SSC。相比之下，ESC-Rand的表現(xiàn)并沒有顯著優(yōu)于SSC，這表明了FFS樣本選擇的重要性。在運行時間方面，我們發(fā)現(xiàn)ESC-FFS比SSC快很多。具體來說，ESC-FFS幾乎與ESC-Rand一樣有效，這表明所提出的FFS算法2是有效的。?

總結(jié)

以上是生活随笔為你收集整理的论文阅读笔记：A Scalable Exemplar-based Subspace ClusteringAlgorithm for Class-Imbalanced Data的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。