UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设
UA MATH567 高維統計 專題0 為什么需要高維統計理論?——高維統計理論的常用假設
延續前三講對線性判別分析的討論,在高維時,根據中心極限定理
n(Xˉ?μ)→dN(0,Id)\sqrt{n}(\bar X - \mu) \to_d N(0,I_d) n?(Xˉ?μ)→d?N(0,Id?)
這說明n∥Xˉ?μ∥22→dχd2n\left\| \bar X - \mu \right\|_2^2 \to_d \chi^2_dn∥∥?Xˉ?μ∥∥?22?→d?χd2?,
∥Xˉ?μ∥22~dn→α>0\left\| \bar X - \mu \right\|_2^2 \sim \fracze8trgl8bvbq{n} \to \alpha >0∥∥?Xˉ?μ∥∥?22?~nd?→α>0
因此在高維時,正態總體的樣本均值不再是總體均值的一致估計,所以統計中基于樣本均值的方法在高維中都無法得到在經典統計中那樣好的結果。
作為計算成本與模型的performance的trade-off,我們在建立高維模型時會引入稀疏性假設:
s=∣{j:μj≠0}∣<<ds = |\{j:\mu_j \ne 0\}|<<ds=∣{j:μj??=0}∣<<d
也就是大部分特征都是噪聲,只有很少的特征才是signal;引入這個假設有一些比較明顯的好處,比如我們可以去挖掘數據中的low-dimensional structure作為近似,以降低計算成本提高模型performance;同時這也降低了模型具有統計優良性的門檻。上一講我們討論了hard-threshold與soft-threshold,這兩種方法是定義數據low-dimensional structure的最簡單的方法。比如在variable selection的問題中,best subset algorithm就是hard-threshold,LASSO就是soft-threshold。soft-threshold相比hard-threshold得到的估計量更穩定,因為它是連續函數,而hard-threshold存在兩個斷點,所以估計量會依賴于斷點的位置;但soft-threshold對原估計做了shrink,所以引入了額外的bias。因此后來的penalty有一部分就在致力于結合hard-threshold、soft-threshold的優點,把noise shrink to 0,同時又盡可能保護significant signal不被shrink,比如SCAD就是一個這樣的penalty。
另一個重要的問題是threshold如何選擇。我們之前討論過極值的概率不等式
P(nXˉ(n)≤2log?d)→0P(Xˉ(n)≤2log?dn)→0P(\sqrt{n}\bar X_{(n)} \le \sqrt{2 \log d}) \to 0 \\ P(\bar X_{(n)} \le \sqrt{\frac{2 \log d}{n}}) \to 0 P(n?Xˉ(n)?≤2logd?)→0P(Xˉ(n)?≤n2logd??)→0
因此,如果我們取threshold為2log?dn\sqrt{\frac{2 \log d}{n}}n2logd??,則當μj=0\mu_j=0μj?=0時,它的hard-threshold估計會依概率1一致收斂到0,這就是上一講取λ=2log?dn\lambda = \sqrt{\frac{2 \log d}{n}}λ=n2logd??的理由。如果μj≠0\mu_j \ne 0μj??=0,并且d<enα,α<1d<e^{n^{\alpha}},\alpha<1d<enα,α<1,則2log?dn→0\sqrt{\frac{2 \log d}{n}} \to 0n2logd??→0,也就是說signal不會被shrink to 0。
在矩陣與張量中也可以引入low dimensional structure,常用的思路有這幾種:對角陣(比如Nearest Shrunken Centroids)、稀疏性、low rank approximation、low rank+sparse等。
經過專題0的討論,現在我們可以根據特征的維數來理解統計理論了。如果d=o(n)d=o(\sqrt{n})d=o(n?),這就是傳統統計理論的范疇;如果d~nd \sim nd~n或者d>nd>nd>n,這就是現代統計或者說高維統計理論的范疇;如果d~enαd \sim e^{n^{\alpha}}d~enα,這就是ultra-high dimensional理論的范疇。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计 专题0
- 下一篇: UA PHYS515 电磁理论I 麦克斯