UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类问题的样本量需求计算
UA MATH567 高維統計III 隨機矩陣10 亞高斯矩陣的應用:協方差估計與聚類的樣本量
如果XXX是零均值的隨機變量,則Σ=EXXT\Sigma = EXX^TΣ=EXXT,假設{Xi}i=1m\{X_i\}_{i=1}^m{Xi?}i=1m?是XXX的一組樣本,一種常用的協方差的估計是
Σ^=1m∑i=1mXiXiT\hat \Sigma = \frac{1}{m}\sum_{i=1}^m X_iX^T_iΣ^=m1?i=1∑m?Xi?XiT?
假設XXX的四階矩有限,則根據弱大數定律,
Σ^→L2Σ,m→∞\hat \Sigma \to_{L^2} \Sigma,m\to \inftyΣ^→L2?Σ,m→∞
這個是估計量的一個漸近性質,它保證估計量是一個一致估計。但一致性是一個理論性質,因為在實際統計問題中我們不可能有無限個樣本,于是一個在實踐中更有價值的問題時,我們至少需要多少個樣本(也就是mmm要多大)才能使Σ^\hat \SigmaΣ^與Σ\SigmaΣ盡可能接近?
我們用算子范數∥Σ^?Σ∥\left\| \hat \Sigma - \Sigma \right\|∥∥∥?Σ^?Σ∥∥∥?表示Σ^\hat \SigmaΣ^與Σ\SigmaΣ接近的程度,則下面的結論成立:
協方差估計偏差的上界
假設XXX是零均值的亞高斯隨機向量,?x∈Rn\forall x \in \mathbb{R}^n?x∈Rn, ?K≥1\exists K \ge 1?K≥1,
∥?X,x?∥ψ2≤K∥?X,x?∥2\left\| \langle X,x \rangle \right\|_{\psi_2} \le K\left\| \langle X,x \rangle \right\|_{2}∥?X,x?∥ψ2??≤K∥?X,x?∥2?
則?C>0\exists C>0?C>0
E∥Σ^?Σ∥≤CK2(nm+nm)∥Σ∥E\left\| \hat \Sigma - \Sigma \right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m})\left\| \Sigma \right\|E∥∥∥?Σ^?Σ∥∥∥?≤CK2(mn??+mn?)∥Σ∥
證明
定義Z=Σ?1/2XZ = \Sigma^{-1/2}XZ=Σ?1/2X,則EZZT=InEZZ^T = I_nEZZT=In?,根據定義
∥Z∥ψ2=sup?x∈Sn?1∥?Z,x?∥ψ2=sup?x∈Sn?1∥?Σ?1/2X,x?∥ψ2=sup?x∈Sn?1∥?X,Σ?1/2x?∥ψ2≤K∥?X,Σ?1/2x?∥2=K∥?Z,x?∥2=K\left\| Z \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle Z,x \rangle \right\|_{\psi_2} = \sup_{x \in S^{n-1}} \left\| \langle \Sigma^{-1/2}X,x \rangle \right\|_{\psi_2} \\ = \sup_{x \in S^{n-1}} \left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{\psi_2} \le K\left\| \langle X,\Sigma^{-1/2}x \rangle \right\|_{2} \\ = K\left\| \langle Z,x \rangle \right\|_{2}=K∥Z∥ψ2??=x∈Sn?1sup?∥?Z,x?∥ψ2??=x∈Sn?1sup?∥∥∥??Σ?1/2X,x?∥∥∥?ψ2??=x∈Sn?1sup?∥∥∥??X,Σ?1/2x?∥∥∥?ψ2??≤K∥∥∥??X,Σ?1/2x?∥∥∥?2?=K∥?Z,x?∥2?=K
計算
∥Σ^?Σ∥=∥Σ1/2(Σ?1/2Σ^Σ?1/2)Σ1/2?Σ1/2Σ1/2∥=∥Σ1/2(Σ?1/2Σ^Σ?1/2?In)Σ1/2∥?∥Σ1/2RΣ1/2∥≤∥Σ1/2∥∥R∥∥Σ1/2∥=∥R∥∥Σ∥\left\| \hat \Sigma - \Sigma \right\|=\left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2})\Sigma^{1/2} - \Sigma^{1/2}\Sigma^{1/2} \right\| \\ = \left\| \Sigma^{1/2}(\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n)\Sigma^{1/2} \right\| \triangleq \left\| \Sigma^{1/2}R\Sigma^{1/2} \right\| \\ \le \left\| \Sigma^{1/2} \right\|\left\| R \right\| \left\| \Sigma^{1/2} \right\| = \left\| R \right\| \left\| \Sigma \right\| ∥∥∥?Σ^?Σ∥∥∥?=∥∥∥?Σ1/2(Σ?1/2Σ^Σ?1/2)Σ1/2?Σ1/2Σ1/2∥∥∥?=∥∥∥?Σ1/2(Σ?1/2Σ^Σ?1/2?In?)Σ1/2∥∥∥??∥∥∥?Σ1/2RΣ1/2∥∥∥?≤∥∥∥?Σ1/2∥∥∥?∥R∥∥∥∥?Σ1/2∥∥∥?=∥R∥∥Σ∥
接下來要做的就是找∥R∥\left\| R \right\|∥R∥的上界,
R=Σ?1/2Σ^Σ?1/2?In=Σ?1/2(1m∑i=1mXiXiT)Σ?1/2?In=1m∑i=1mZiZiT?In=1mATA?InR=\Sigma^{-1/2} \hat \Sigma \Sigma^{-1/2}-I_n = \Sigma^{-1/2}(\frac{1}{m}\sum_{i=1}^m X_iX^T_i) \Sigma^{-1/2}-I_n \\ =\frac{1}{m} \sum_{i=1}^m Z_iZ_i^T-I_n = \frac{1}{m}A^TA - I_nR=Σ?1/2Σ^Σ?1/2?In?=Σ?1/2(m1?i=1∑m?Xi?XiT?)Σ?1/2?In?=m1?i=1∑m?Zi?ZiT??In?=m1?ATA?In?
其中AAA的行向量是ZiTZ_i^TZiT?,使用未證明的結論(Vershynin Exercise 4.6.2),?C>0\exists C>0?C>0
E∥1mATA?In∥≤CK2(nm+nm)E \left\| \frac{1}{m}A^TA - I_n\right\| \le CK^2(\sqrt{\frac{n}{m}}+\frac{n}{m})E∥∥∥∥?m1?ATA?In?∥∥∥∥?≤CK2(mn??+mn?)
綜上,定理得證。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计III 随机矩阵10 亚高斯矩阵的应用:协方差估计与聚类问题的样本量需求计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计II 随机
- 下一篇: UA MATH567 高维统计IV Li