DNC: A deep neural network-based clustering-oriented network embedding algorithm 2021
目錄
- DNC: A deep neural network-based clustering-oriented network embedding algorithm 2021
- (O2MAC)One2Multi graph autoencoder for multi-view graph clustering 2020
DNC: A deep neural network-based clustering-oriented network embedding algorithm 2021
問題:當前的網絡嵌入方法通常與具體任務分離。
為了有效地解決這一問題,本文提出了一種基于深層神經網絡的面向聚類的非屬性網絡數據節點嵌入方法——深層節點聚類(DNC)。首先提出了一種采用隨機漫游模型直接獲取圖形結構信息的預處理方法。隨后,我們提出學習一個深層的聚類網絡,它可以聯合學習節點嵌入和集群分配。
圖1顯示了 DNC 的整體框架,包括兩部分: 捕獲結構信息的數據預處理和深層節點聚類網絡。顏色的重要性分別代表聚類層中PPMI聚類矩陣和聚類層中屬于不同簇的數據點中的不同值。在第一個分量中,我們將給定的鄰接矩陣變換為正點間互信息矩陣PPMI。在第二部分中,將得到的 PPMI 矩陣提供給由深層疊加自動編碼器和聚類層組成的深層節點聚類網絡,從而最小化疊加自動編碼器的重構損失和聚類損失。
Capturing the structural information:
為了獲取網絡的結構信息,借用了現有工作 DNGR 中計算 PPMI 矩陣的方法。
D為對角矩陣,T為轉移矩陣(對A做歸一化)。
然后,在 PageRank 模型的激勵下,采用隨機沖浪模型計算 PPMI 矩陣。具體地說,重新啟動時考慮隨機漫游策略: 在每一次,有一個概率 μ,即隨機漫游過程將繼續,并有一個概率1-μ,它將返回到原來的頂點,并重新啟動該過程。這就得出遞推公式如下:
這里引入了一個行向量pkp_kpk?,pkp_kpk?的第j項表示在k個轉換步驟后到達節點j的概率。p0p_0p0?是一個獨熱向量,第i項為1,其它為0。
k步之后,概率矩陣M定義為:
然后計算PPMI,自然語言處理中的PPMI計算公式如下:
其中∣F∣=∑s∑e#(s,e)|F| = \sum_s\sum_e \#(s,e)∣F∣=∑s?∑e?#(s,e)(所有觀察到的單詞與上下文對集合個數),s和e表示當前單詞和上下文單詞。F表示觀察到的單詞和上下文對的集合。#(s,e)表示在F中出現的對(s,e)的次數。類似的,#(s)和#(e)表示F中s和e出現的次數。
因此,對于 N 個節點的網絡,我們可以類比地確定 PPMI 矩陣的數學表達式,它被定義為:
其中M~\tilde{M}M~是歸一化的M矩陣。$\Theta 是是是\tilde M$中所有元素的和。col和row分別是每一行和每一列的和。
DNC network:
對網絡數據進行處理后,將 PPMI 矩陣作為深層聚類網絡的輸入,深層聚類網絡由深層疊加的自動編碼器和聚類層組成。
Stacked autoencoder:
Clustering layer:
受自訓練機制的啟發 ,定義了基于聚類損失的聚類層,它最初是為了聚類圖像數據而不是處理網絡數據。
該機制可以將“有信心”(置信度高)的聚類分配作為軟標簽來指導優化過程。通過這種方式,可以迭代地優化集群性能。
損失的目標是最小化軟聚類分布 Q和輔助目標分布P 之間的 Kullback-Leibler (KL)差異,Q是由 Student 的 t 分布測量的軟標簽分布。具體公式如下:
其中quvq_{uv}quv?是節點嵌入表示zuz_uzu?和聚類中心cvc_vcv?之間的相似度。受到之前 t-SNE 模型的啟發,我們使用 Student 的 t-distribution 作為核來度量這種相似性:
它可以看作是每個節點的軟聚類分配分布。因此,我們可以直接從最后優化的 q 值中得到聚類結果。每個節點 i 的標簽可以這樣獲取:
軟聚類的概率越大,節點離聚類中心越近,越可能屬于該社區。
目標分配puvp_{uv}puv?可以定義為:
可以看到,目標分布P將Q提高到二次冪,以突出那些“自信的分配”。通過最小化P和Q兩個分布之間的差異,聚類層在高置信度分配的指導下實現嵌入式學習。
Joint embedding and clustering:
一般情況下,當表示學習和聚類數據分離時,該算法只能得到節點聚類任務的次優解。因此,我們關聯嵌入學習和聚類學習的框架。
因此,最終目標函數可以定義為:
算法流程:
類似的方法有一篇用于多視圖聚類中
(O2MAC)One2Multi graph autoencoder for multi-view graph clustering 2020
本文首次嘗試將深度學習技術引入到屬性多視圖聚類。
提出了一種新的任務引導的 One2Multi自動編碼聚類框架。
One2Multi 圖形自動編碼器通過使用一個信息化的圖形視圖和內容數據來重建多個圖形視圖,從而學習節點嵌入。
因此,可以很好地捕獲多個圖的共享特征表示。在此基礎上,提出了一種自訓練聚類目標,迭代地改進聚類結果。
通過將自訓練和自編碼器重構集成到一個統一的框架中,該模型可以聯合優化適合圖形聚類的簇標記分配和嵌入。
圖1顯示了 O2MAC 的總體框架。該模型主要由兩部分組成: one2Multi圖自動編碼器和自訓練圖聚類。一個多圖自動編碼器由一個信息圖編碼器和多視圖解碼器組成。采用啟發式模塊度方法,選擇信息量最大的視圖作為圖形編碼器的輸入,將圖結構和節點內容編碼為節點表示。然后設計了一個多視圖解碼器來解碼重建所有視圖。由于 one2Multi圖形自動編碼器設計精巧,不僅可以學習共享表示,而且可以吸收不同視圖的結構特征。此外,我們使用學習嵌入本身產生的軟標簽來監督編碼器參數和簇中心的學習。在一個統一的框架內對多視圖嵌入和聚類進行了優化,得到了更適合聚類任務的信息化編碼器。
Informative graph convolutional encoder:
由于不同的圖視圖從不同的方面表示同一組節點之間的關系,而且內容信息由所有圖視圖共享,因此視圖之間存在共享信息。此外,在許多場景中,通常存在一個信息量最大的視圖支配社區表現。因此,可以從信息量最大的圖視圖和內容數據中提取信息量最大的視圖和其他視圖之間的共享信息,然后可以用于重構所有圖形視圖。
具體來說,首先將每個單視圖的圖鄰接矩陣和內容信息分別提供給 GCN 層,以學習節點嵌入,然后對所學習的嵌入執行 k-means,以獲得它們的聚類結果?;诰垲惻袆e和鄰接矩陣判別,我們計算每個圖視圖的模塊度,并選擇得分最高的圖視圖作為信息量最大的視圖。使用模塊度的原因是它提供了一個客觀的度量來評價聚類結構
然后將選擇的圖結構A?A^*A?和節點特征X輸入自編碼器,利用GCN作為圖編碼器。
這里是雙層GCN:
Multi-view graph decoder:
Self-training Clustering:
除了優化重建損失之外,我們還將隱藏嵌入輸入到一個自訓練聚類目標中,從而最小化以下目標:
Q 是軟標簽的分布,qij 用 Student 的 t 分布來表示節點 i 的嵌入子和簇中心 μj 之間的相似性:
它可以看作是每個節點的軟聚類分配(隸屬向量)。等式5中的 pij 是目標分布,定義為:
其中fi=∑iqijf_i = \sum_i q_{ij}fi?=∑i?qij? 是軟聚類頻率,以規范每個中心的損失貢獻。
Overall objective function:
首先預先訓練 One2Multi 圖形自動編碼器,不需要自我訓練的聚類部分,就可以得到一個訓練有素的嵌入 z。然后執行自訓練聚類目標來改進這種嵌入。為了初始化集群中心,我們在嵌入節點 z 上執行標準的 K-means算法,以獲得 k 個初始質心
更新目標分布,作為“groundtruth”軟標簽的目標分布P 也依賴于預測的軟標簽。
因此,為了避免自訓練過程中的不穩定性,每次 t 迭代都應使用所有嵌入節點更新 P。我們根據公式6和公式7更新 P。更新目標分布時,分配給 vi 的社區編號是:
其中 qij 是由 Eq.6計算得到的。如果目標分布的兩次連續更新之間的標簽分配變化(百分比)小于閾值 δ,則訓練過程將停止。最后優化得到的 q 值可以得到聚類結果。
總結
以上是生活随笔為你收集整理的DNC: A deep neural network-based clustering-oriented network embedding algorithm 2021的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QtCreator总是崩溃卡死的问题
- 下一篇: ORA-01403未找到任何数据sele