UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声
UA MATH567 高維統(tǒng)計(jì)IV Lipschitz組合11 社區(qū)發(fā)現(xiàn) Spectral Clustering容許的最大隨機(jī)噪聲
- 社區(qū)發(fā)現(xiàn)的Spectral Clustering算法復(fù)習(xí)
- 用矩陣Bernstein不等式推導(dǎo)Spectral Clustering的理論性質(zhì)
社區(qū)發(fā)現(xiàn)的Spectral Clustering算法復(fù)習(xí)
我們在上一部分介紹隨機(jī)矩陣的時(shí)候介紹了stochastic blocking model以及community detection的spectral clustering算法。
假設(shè)這個網(wǎng)絡(luò)有nnn個節(jié)點(diǎn),網(wǎng)絡(luò)中有兩個社區(qū),它們的規(guī)模相當(dāng),各擁有n/2n/2n/2個節(jié)點(diǎn),記這兩個社區(qū)為C1,C2C_1,C_2C1?,C2?,我們用G(n,p,q)G(n,p,q)G(n,p,q)表示這個隨機(jī)網(wǎng)絡(luò),其中ppp表示某條邊連接的兩個點(diǎn)屬于同一個社區(qū)的概率,qqq表示某條邊連接的兩個點(diǎn)屬于不同社區(qū)的概率,假設(shè)p>qp>qp>q,用AAA表示這個網(wǎng)絡(luò)的伴隨矩陣,顯然它是一個隨機(jī)矩陣,
P(Aij=1∣i,j∈C1ori,j∈C2)=pP(Aij=1∣i∈C1,j∈C2ori∈C2,j∈C1)=qP(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=qP(Aij?=1∣i,j∈C1??or?i,j∈C2?)=pP(Aij?=1∣i∈C1?,j∈C2??or?i∈C2?,j∈C1?)=q
我們可以將AAA分解為它的期望與殘差矩陣:
A=E[A]+RA = E[A]+RA=E[A]+R
Community detection in networks的目標(biāo)是給定一個某個隨機(jī)矩陣的樣本數(shù)據(jù)集,要還原隨機(jī)矩陣的期望的特征向量,下面是Spectral clustering的算法描述:
我們在上部分第八講用Davis-Kahan定理說明了它的理論性質(zhì):考慮隨機(jī)網(wǎng)絡(luò)G(n,p,q)G(n,p,q)G(n,p,q),如果min?(q,p?q)=μ>0\min(q,p-q)=\mu>0min(q,p?q)=μ>0,則?c>0\exists c>0?c>0,Spectral Clustering最多搞錯c/μ2c/\mu^2c/μ2個節(jié)點(diǎn)的概率至少是1?4e?n1-4e^{-n}1?4e?n。這個結(jié)論的條件是
∥D∥~n,P(∥R∥=O(n))≥1?4e?n\left\| D\right\| \sim n,P(\left\| R \right\| =O(\sqrt{n})) \ge 1-4e^{-n}∥D∥~n,P(∥R∥=O(n?))≥1?4e?n
用矩陣Bernstein不等式推導(dǎo)Spectral Clustering的理論性質(zhì)
注意到∥D∥=(p+q)n/2≥μn\left\| D\right\|=(p+q)n/2 \ge \mu n∥D∥=(p+q)n/2≥μn,所以之前得到的結(jié)果需要的條件是
μn>>O(n)\mu n >> O(\sqrt{n})μn>>O(n?)
也就是∥D∥>>n\left\| D\right\|>>n∥D∥>>n,但是用矩陣Bernstein不等式,我們可以把這個條件弱化為∥D∥>>log?n\left\| D\right\|>>\log n∥D∥>>logn。
記d=∥D∥d=\left\| D\right\|d=∥D∥,定義A=∑1≤i<j≤nZijA = \sum_{1 \le i< j \le n}Z_{ij}A=∑1≤i<j≤n?Zij?,其中ZijZ_{ij}Zij?是n×nn \times nn×n的矩陣,除了(i,j)(i,j)(i,j)與(j,i)(j,i)(j,i)這兩個位置為Bernoulli變量外,其他位置均為0,我們可以說明
E∥R∥=E∥A?EA∥?dlog?n+log?nE \left\| R \right\| = E \left\| A - EA \right\| \lesssim \sqrt{d \log n}+\log nE∥R∥=E∥A?EA∥?dlogn?+logn
證明思路
R=A?EA=∑1≤i<j≤n(Zij?EZij)R = A - EA = \sum_{1 \le i< j \le n}(Z_{ij}-EZ_{ij})R=A?EA=1≤i<j≤n∑?(Zij??EZij?)
這里的Zij?EZijZ_{ij}-EZ_{ij}Zij??EZij?是有界(算子范數(shù)小于1)、獨(dú)立、零均值、對稱的隨機(jī)變量,計(jì)算
σ2=∥∑E(Zij?EZij)2∥≈d\sigma^2 = \left\| \sum E(Z_{ij}-EZ_{ij})^2 \right\| \approx dσ2=∥∥∥?∑E(Zij??EZij?)2∥∥∥?≈d
根據(jù)矩陣Bernstein不等式的推論
E∥R∥?σlog?n+log?nE \left\| R \right\| \lesssim \sigma\sqrt{\log n}+\log nE∥R∥?σlogn?+logn
總結(jié)
以上是生活随笔為你收集整理的UA MATH567 高维统计IV Lipschitz组合11 社区发现 Spectral Clustering容许的最大随机噪声的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计IV Li
- 下一篇: 稀疏数据分析:马蹄估计量及其理论性质