UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则
UA MATH567 高維統計 專題0 為什么需要高維統計理論?——協方差估計的高維效應與Marcenko-Pastur規則
上一講我們介紹了在實驗中,線性判別分析的判別誤差會隨著維度的上升而上升,而經典多元統計理論則認為理論誤差是與維數無關的常數,于是我們得到啟發是我們需要建立適應于高維統計問題的理論。這一講我們從線性判別分析中的協方差估計的角度,討論在高維問題中協方差估計會發生什么與經典多元統計理論不同的現象。
我們假設x1,?,xnx_1,\cdots,x_nx1?,?,xn?是某個ddd維零均值分布的樣本,則樣本協方差為
Σ^=1n∑i=1nxixiT\hat \Sigma = \frac{1}{n} \sum_{i=1}^n x_ix_i^TΣ^=n1?i=1∑n?xi?xiT?
它是總體協方差的無偏估計。但對于non-asymptotic情形,我們希望知道這個估計的誤差。在隨機矩陣理論中,我們介紹了一些常用的矩陣范數,可以用它們來表示誤差,比如在這個協方差估計的問題中,我們定義估計誤差為樣本協方差與總體協方差之差的算子范數,即
∥Σ^?Σ∥=λ1(Σ^?Σ)\left\| \hat \Sigma - \Sigma \right\| = \lambda_{1}(\hat \Sigma - \Sigma)∥∥∥?Σ^?Σ∥∥∥?=λ1?(Σ^?Σ)
考慮最簡單的一種情況,如果Σ=Id\Sigma=I_dΣ=Id?,那么根據弱大數定律,Σ^\hat \SigmaΣ^會依概率趨近于IdI_dId?,那么Σ^\hat \SigmaΣ^的所有特征值會依概率收斂到1。
Marcenko-Pastur規則
假設d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),也就是在維數非常高的時候,Marcenko-Pastur規則認為Σ^\hat \SigmaΣ^的特征值的密度滿足:
fMP(λ)∝(tmax(α)?λ)(λ?tmin(α))λf_{MP}(\lambda) \propto \frac{\sqrt{(t_{max}(\alpha)-\lambda)(\lambda-t_{min}(\alpha))}}{\lambda}fMP?(λ)∝λ(tmax?(α)?λ)(λ?tmin?(α))??
其中
tmin(α)=(1?α)2,tmax=(1+α)2t_{min}(\alpha)=(1-\sqrt{\alpha})^2,\ t_{max}=(1+\sqrt{\alpha})^2tmin?(α)=(1?α?)2,?tmax?=(1+α?)2
這兩個閾值的來源是我們在隨機矩陣部分介紹過的不等式
P(λ1(Σ^)≥(1+d/n+δ)2)≤e?nδ22,?δ≥0P(\lambda_{1}(\hat \Sigma) \ge (1+\sqrt{d/n}+\delta)^2) \le e^{-\frac{n\delta^2}{2}},\forall \delta \ge 0P(λ1?(Σ^)≥(1+d/n?+δ)2)≤e?2nδ2?,?δ≥0
這幅圖是基于這個簡單情形的模擬,左圖參數是α=0.2,n=4000\alpha=0.2,n=4000α=0.2,n=4000;右圖的參數是α=0.5,n=4000\alpha=0.5,n=4000α=0.5,n=4000;灰色部分是特征值的頻率直方圖,黑色實線是Marcenko-Pastur規則的密度。從這個圖可以看出,模擬結果,也就是灰色部分并沒有貼近經典多元統計的結果(收斂到1)反而是與Marcenko-Pastur規則基本相符的,而Marcenko-Pastur規則是一個典型的高維統計理論結果。
作為專題0的結尾,我簡單闡述一下我對經典多元統計理論與高維統計理論的理解。首先這二者作為統計理論,研究的問題其實是一樣的,估計量的一致性、誤差、收斂速率等。但經典多元統計理論假設d<<nd<<nd<<n,也就是在做asymptotic analysis的時候,經典統計認為特征的維數ddd關于樣本量nnn是無窮小量,即d/n→0d/n \to 0d/n→0,因此經典統計理論的誤差、concentration inequality等結果與維數是無關的。在高維統計理論中,假設d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),這個比例會出現在誤差、concentration inequality等結果中,也就是維數對概率分布、對誤差等都是有影響的。
除此之外,經典統計與高維統計還有一個很重要的區別,就是在高維統計中,information is sparse in features,即并不是ddd個特征都是一樣重要的,重要的特征占比非常小,這種特性被稱為sparsity,通常認為重要的特征數目是o(d)o(d)o(d),也就是關于ddd是無窮小量,所以我們總是需要一些技術來做dimensional reduction/feature selection以去除冗余信息提高計算效率。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言数据可视化 ggplot2基础4
- 下一篇: 常微分方程I ODE的例子1 弹簧的振动