各种深度聚类方法摘要
Spectral Clustering with Graph Neural Networks for Graph Pooling
頻譜聚類(SC)是一種流行的聚類技術,用于在圖形上查找強連接的社區。 SC可以在圖形神經網絡(GNN)中使用,以實現匯總屬于同一群集的節點的池化操作。但是,拉普拉斯算子的特征分解是昂貴的,并且由于聚類結果是特定于圖的,因此基于SC的合并方法必須為每個新樣本執行新的優化。在本文中,我們提出了一種圖聚類方法來解決SC的這些局限性。我們制定了標準化minCUT問題的連續松弛,并訓練了GNN以計算使該目標最小化的群集分配。我們基于GNN的實現是可區分的,不需要計算頻譜分解,并且學習了可以在樣本外圖上快速評估的聚類函數。從提出的聚類方法出發,我們設計了一種圖形池算子,該算子克服了最新的圖形池技術的一些重要限制,并在多個有監督和無監督的任務中實現了最佳性能。
Optimal Sampling and Clustering in the Stochastic Block Model
本文研究結構遵循著名的隨機塊模型(SBM)的網絡中聯合自適應采樣和聚類算法的設計。為了提取隱藏的集群,可以以自適應方式順序地采樣邊緣(節點對)之間的交互。收集樣本后,學習者返回聚類估計。我們得出了集群恢復率的信息理論上限。這些界限實際上揭示了最佳的順序邊緣采樣策略,有趣的是,后者不取決于采樣預算,而僅取決于SBM的參數。我們設計了一種與恢復率上限匹配的聯合采樣和聚類算法。該算法最初使用一部分采樣預算來估算SBM參數,并學習最佳采樣策略。然后,該策略將指導剩余的采樣過程,從而賦予算法最佳的性能。我們在分析和數值上都表明,自適應邊緣采樣比隨機采樣(傳統上在SBM分析中使用)產生了重要的改進。例如,我們證明了自適應采樣顯著擴大了SBM參數的區域,其中漸近精確的群集恢復是可行的。
Selective Sampling-based Scalable Sparse Subspace Clustering
稀疏子空間聚類(SSC)將每個數據點表示為數據集中其他數據點的稀疏線性組合。在表示學習步驟中,SSC查找數據點的低維表示,而在頻譜聚類步驟中,數據點根據基礎子空間聚類。但是,這兩個步驟都具有很高的計算和內存復雜性,從而阻止了將SSC應用于大規模數據集。為克服此限制,我們引入了基于選擇性采樣的可伸縮稀疏子空間聚類(S5C)算法,該算法基于近似子梯度選擇子樣本,并根據時間和內存要求隨數據點的數量線性縮放。除了計算優勢外,我們還為S5C的正確性提供了理論保證。我們的理論結果在子樣本數量有限的情況下為SSC做出了新的貢獻。大量的實驗結果證明了我們方法的有效性。
Self-labelling via simultaneous clustering and representation learning
將聚類和表示學習相結合是深度神經網絡無監督學習的最有前途的方法之一。但是,這樣做會導致退化的解決方案帶來不適的學習問題。通過最大化標簽和輸入數據索引之間的信息來獲得該方法。所得到的方法能夠對視覺數據進行自我標注,從而無需手動標注就可以訓練競爭激烈的圖像表示形式。 我們的方法在SVHN,CIFAR-10,CIFAR-100和ImageNet上實現了AlexNet和ResNet-50的最先進的表示學習性能,并產生了第一個自我監督的AlexNet,其性能優于監督的Pascal VOC檢測基準。
Deep clustering: On the link between discriminative models and K-means
在最近的深入聚類研究的背景下,判別模型在文獻中占主導地位,并報告了最具競爭力的表現。這些模型學習了深度的區分神經網絡分類器,其中的標簽是潛在的。通常,他們使用多項式邏輯回歸后驗和參數正則化,這在監督學習中非常普遍。通常認為,區別性目標函數(例如,基于互信息或KL差異的目標性函數)比生成性方法(例如,K均值)更靈活,因為它們對數據分布的假設較少,通常產生更好的無監督深度學習結果。從表面上看,最近的幾種判別模型似乎與K均值無關。這項研究表明,這些模型實際上等同于輕度條件下的K均值,以及常見的后驗模型和參數正則化。我們證明,對于常用的邏輯回歸后驗,通過近似交替方向法(ADM)最大化L2正則化互信息等效于軟正則化K均值損失。我們的理論分析不僅直接將幾個最新的判別模型與K-means直接連接,而且導致了一種新的,經過軟化和規范化的深度K-means算法,該算法在多個圖像聚類基準上均具有競爭優勢。
Image Clustering via Deep Embedded Dimensionality Reduction and Probability-Based Triplet Loss
圖像聚類比圖像分類更具挑戰性。沒有監督信息,當前的深度學習方法很難直接應用于圖像聚類問題。圖像聚類需要解決三個主要問題:1)高維圖像數據引起的維數詛咒; 2)提取有效圖像特征; 3)結合特征提取,降維和聚類。在本文中,我們通過基于概率的三重態損失提出了一種新的聚類框架,稱為深度嵌入式降維聚類(DERC),可以有效解決上述問題。據我們所知,DERC是第一個將圖像嵌入,降維和聚類有效地結合到圖像聚類過程中的框架。我們還建議合并一種新穎的基于概率的三重態損失度量,以將DERC網絡作為一個統一框架進行重新訓練。通過整合重建損失和基于概率的三重態損失,我們可以提高圖像聚類的準確性。大量實驗表明,我們提出的方法在許多常用數據集上的性能優于最新方法。
Learning Latent Superstructures in Variational Autoencoders for Deep Multidimensional Clustering
我們研究了變分自動編碼器的一種變體,其中在潛在特征的頂部存在離散潛在變量的超結構。 通常,我們的上層結構是具有多個超潛在變量的樹形結構,可以從數據中自動學習。 當上層建筑中只有一個潛在變量時,我們的模型將簡化為一個假設隱變量是由高斯混合模型生成的變量。 我們稱我們的模型為潛在樹變異自動編碼器(LTVAE)。 以前的用于群集的深度學習方法僅生成一個數據分區,而LTVAE生成多個數據分區,每個分區均由一個超潛變量給出。 這是理想的,因為高維數據通常具有許多不同的自然面,并且可以多種方式進行有意義的分區。
Deep Embedded Clustering with Data Augmentation
深度嵌入式群集(DEC)通過共同執行特征學習和群集分配,超越了傳統的群集算法。盡管出現了許多變體,但它們都忽略了關鍵要素,即數據增強,它已在有監督的深度學習模型中廣泛采用以提高泛化性。為了填補這一空白,本文提出了具有數據增強功能的深度嵌入式群集框架(DEC-DA)。具體來說,我們首先用增強的數據訓練自動編碼器以構造初始特征空間。然后,我們用聚類損失約束嵌入的特征,以進一步學習面向聚類的特征。聚類損失由目標(偽標簽)和特征學習模型的實際輸出組成,其中目標是使用干凈的(非增量)數據計算的,而目標是通過增強數據輸出的。這類似于通過數據增強進行有監督的訓練,并且有望促進無監督的聚類。最后,我們實例化了五種基于DEC-DA的算法。大量的實驗證明,合并數據擴充可以極大地改善群集性能。我們的DEC-DA算法成為各種數據集上的最新技術。
Adaptive Self-paced Deep Clustering with Data Augmentation
深度聚類通過共同執行特征學習和聚類分配,可獲得比常規聚類更高的性能。盡管在各種應用程序中涌現了許多深度群集算法,但大多數算法無法學習強大的面向群集的功能,從而損害了最終的群集性能。為了解決這個問題,我們提出了一種兩階段的深度聚類算法,它結合了數據增強和自定進度的學習。具體來說,在第一階段,我們通過訓練自動編碼器來學習魯棒的功能,并通過隨機移位和旋轉給定的干凈示例來增強示例。然后在第二階段,我們通過使用增強后的示例對編碼器進行微調和更新干凈示例的群集分配,來鼓勵學習的功能面向群集。在對編碼器進行微調期間,損失函數中每個擴展示例的目標都是分配了干凈示例的群集的中心。目標的計算可能不正確,具有錯誤目標的示例可能會誤導編碼器網絡。為了穩定網絡訓練,我們通過利用自適應自定步學習在每次迭代中選擇最有信心的示例。大量實驗證明,我們的算法在四個圖像數據集上的表現均優于最新技術。
Structural Deep Clustering Network
聚類是數據分析中的一項基本任務。最近,深度聚類主要從深度學習方法中獲得靈感,它實現了最先進的性能,并引起了廣泛的關注。當前的深度聚類方法通常借助于諸如自動編碼器之類的深度學習的強大表示能力來增強聚類結果,這表明學習用于聚類的有效表示是至關重要的要求。深度聚類方法的優勢在于從數據本身中提取有用的表示形式,而不是從數據結構中提取有用的表示形式,而數據結構在表示學習中很少受到關注。基于圖卷積網絡(GCN)在編碼圖結構方面取得的巨大成功,我們提出了一種結構化深度聚類網絡(SDCN),以將結構信息集成到深度聚類中。具體來說,我們設計了一個傳遞運算符,將自動編碼器學習到的表示傳遞到相應的GCN層,并采用雙重自我監督機制來統一這兩種不同的深度神經體系結構,并指導整個模型的更新。這樣,從低階到高階的多種數據結構自然會與自動編碼器學習的多種表示形式結合在一起。此外,我們從理論上分析了傳遞算子,即通過傳遞算子,GCN作為高階圖正則化約束改善了特定于自動編碼器的表示,并且自動編碼器有助于緩解GCN中的過度平滑問題。通過全面的實驗,我們證明了我們提出的模型可以始終如一地勝過最新技術。
Learning to Cluster Faces on an Affinity Graph
近年來,人臉識別技術取得了長足發展,其性能達到了很高的水平。將其提升到一個新的水平需要相當大的數據,這將涉及極高的注釋成本。因此,利用未標記的數據成為一種有吸引力的選擇。最近的工作表明,將未標記的面孔聚類是一種有前途的方法,通常可以顯著提高性能。然而,如何有效地聚類,尤其是在大規模(即百萬級或以上)數據集上,仍然是一個懸而未決的問題。關鍵挑戰在于群集模式的復雜變化,這使常規的群集方法難以滿足所需的精度。這項工作探索了一種新穎的方法,即學習聚類而不是依靠手工制定的標準。
具體來說,我們提出了一種基于圖卷積網絡的框架,該框架結合了檢測和分割模塊來精確定位人臉聚類。實驗表明,我們的方法產生的人臉簇更加準確,因此,也可以進一步提高人臉識別的性能。
Video Face Clustering with Unknown Number of Clusters
要了解電視劇和電影等視頻,需要分析角色是誰以及他們在做什么。 我們解決了根據臉部身份將臉部軌跡聚類的挑戰性問題。 與該領域以前的工作不同,我們選擇在一個現實而困難的環境中進行操作:(i)先驗字符數未知; (ii)屬于次要或背景角色的面部軌跡不會被丟棄。 為此,我們提出了球聚類學習(BCL),一種有監督的方法,可以將嵌入空間雕刻成大小相等的球,每個聚類一個。 學習的球半徑可以輕松轉換為迭代合并算法的停止標準。 這使BCL能夠估計群集的數量及其分配,從而在常用數據集上獲得可喜的結果。 我們還對如何將現有的度量學習文獻進行調整進行了全面的討論。
Deep Comprehensive Correlation Mining for Image Clustering
最近開發的深度無監督方法使我們可以共同學習表示形式和聚類未標記的數據。
這些深度聚類方法主要關注樣本之間的相關性,例如選擇高精度對以逐漸調整特征表示,而忽略了其他有用的相關性。在本文中,我們提出了一個新穎的聚類框架,稱為深度綜合相關挖掘(DCCM),用于探索和充分利用未標記背后的各種相關性。
數據來自三個方面:1)不僅使用成對信息,還建議使用偽標簽監督來研究類別信息和學習區分特征。 2)充分研究了功能對輸入空間圖像變換的魯棒性,這有益于網絡學習并顯著提高了性能。
3)針對聚類問題,提出了要素之間的三元組互信息,以將最近發現的實例級深層互信息提升為三元組級形式,這進一步有助于學習更多判別性特征。在幾個具有挑戰性的數據集上的大量實驗表明,我們的方法取得了良好的性能。
Deep Spectral Clustering using Dual Autoencoder Network
最近,聚類方法在學習和視覺方面吸引了越來越多的關注。深度聚類將嵌入和聚類結合在一起,以獲得用于聚類的最佳嵌入子空間,與常規聚類方法相比,該方法更有效。在本文中,我們提出了一個用于判別嵌入和頻譜聚類的聯合學習框架。我們首先設計一個雙重自動編碼器網絡,該網絡對潛在表示及其嘈雜的版本實施重構約束,以將輸入嵌入到潛在空間中進行聚類。這樣,所學習的潛在表示可以對噪聲更魯棒。然后,利用相互信息估計從輸入中提供更多的判別信息。此外,采用深譜聚類方法將潛在表示嵌入特征空間,然后對其進行聚類,可以充分利用輸入之間的關系以獲得最佳聚類結果。在基準數據集上的實驗結果表明,我們的方法可以大大優于最新的聚類方法。
Learning to Discover Novel Visual Categories via Deep Transfer Clustering
我們考慮在圖像集合中發現新穎對象類別的問題。 盡管這些圖像未標記,但我們還假設具有相關但不同圖像類別的先驗知識。 我們使用這些先驗知識來減少聚類的歧義,并提高新發現的類的質量。 我們的貢獻是雙重的。 第一項貢獻是將深度嵌入式群集擴展到轉移學習設置; 我們還通過引入表示瓶頸,時間集合和一致性來改進算法。 第二個貢獻是一種估計未標記數據中的類數的方法。 這也從已知的類中轉移知識,將它們用作探查,以診斷未標記類的數量選擇子集。 我們徹底評估了我們的方法,在包括ImageNet,OmniGlot,CIFAR100,CIFAR-10和SVHN在內的許多基準測試中,它們的性能明顯優于最新技術。
ClusterGAN : Latent Space Clustering in Generative Adversarial Networks
生成對抗網絡(GANs)在許多無監督學習任務中都取得了顯著成功,毫無疑問,聚類是重要的無監督學習問題。雖然可以潛在地利用GAN中的潛在空間反投影進行聚類,但我們證明聚類結構并未保留在GAN潛在空間中。在本文中,我們提出ClusterGAN作為一種使用GAN進行聚類的新機制。通過從單熱點編碼變量和連續潛變量的混合中采樣潛變量,再加上結合聚類特定損失而訓練的逆網絡(將數據投射到潛空間),我們能夠在潛集中實現聚類。空間。我們的結果表明,即使鑒別器從未暴露于此類向量中,GAN仍可以保留跨類別的潛在空間插值,這是一個了不起的現象。我們將我們的結果與各種聚類基線進行比較,并在合成數據集和真實數據集上展示了出色的性能。
總結
以上是生活随笔為你收集整理的各种深度聚类方法摘要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: txt如何转成tsv文件
- 下一篇: 双链表(DoubleLinkList)数