UA MATH567 高维统计 专题1 Supervised PCA Regression概述
UA MATH567 高維統計 專題1 Supervised PCA Regression概述
- 相關結果
- Supervised PCA Regression
相關結果
考慮經典的回歸問題y=Xβ+?,X∈Rp,?~N(0,σ2In)y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n)y=Xβ+?,X∈Rp,?~N(0,σ2In?),根據Gauss-Markov定理,在滿足定理的假設時,OLS估計量具有非常好的漸近性質,但是當ppp與nnn非常接近或者模型存在比較強的多重共線性時,OLS是nonstable估計。
PCA Regression是一種改進OLS不穩定性的模型,它分為下面幾個步驟:
PCA方法使得PC互相正交,這樣新的OLS就沒有多重共線性的;OLS的另一種不穩定性主要來自(XTX)?1(X^TX)^{-1}(XTX)?1的計算,但因為正交性,PC的這一步計算只需要計算對角陣的逆,所以從計算上講PCA Regression更穩定。PCA Regression的缺陷是PCA是非監督學習,是對特征XXX進行降維的;而我們最終目標是要用XXX對YYY回歸,這是一種監督學習,直接把這兩步串起來我們沒有辦法確保特征XXX的PC與YYY之間的dependence與XXX與YYY之間的dependence仍然是完全一致的。
另一種改進多重共線性的方法是Penalized Regression,比如Ridge Regression:
arg?min?β1n∑i=1n(yi?xiTβ)2+λ∥β∥22\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|^2_2βargmin?n1?i=1∑n?(yi??xiT?β)2+λ∥β∥22?
這個方法的優點是我們能拿到嶺回歸估計量的表達式,
β^ridge=(XTX/n+λI)?1XTy\hat \beta_{ridge}=(X^TX/n+\lambda I)^{-1}X^Tyβ^?ridge?=(XTX/n+λI)?1XTy
即使ppp與nnn接近,因為λI\lambda IλI的存在,計算矩陣的逆時也不會不穩定(不會是non-singular矩陣);需要注意的是嶺回歸是有偏的,它只能做proportional shrinkage,不能處理sparsity的問題。作為另一種常用的shrinkage estimation,LASSO可以把一些系數shrink到0,因此它能處理sparsity。
arg?min?β1n∑i=1n(yi?xiTβ)2+λ∥β∥1\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|_1βargmin?n1?i=1∑n?(yi??xiT?β)2+λ∥β∥1?
它在計算上比嶺回歸更復雜,但這二十年來,統計學家開發了許多用來計算LASSO,所以現在已經不是個問題了。關于sparsity,通常用的假設是∣{j:βj≠0}∣<<p|\{j:\beta_j \ne 0\}|<<p∣{j:βj??=0}∣<<p,但是如果p>np>np>n,并且沒有sparsity,那就沒有能處理的方法了。
Supervised PCA Regression
綜合PCA Regression與Penalized Regression的特點,我們可以設計Supervised PCA Regression,假設XXX是centered design matrix,引入Σ^=XTX/n\hat \Sigma = X^TX/nΣ^=XTX/n,δ^=XTy/n\hat \delta = X^Ty/nδ^=XTy/n,定義
Σ^ρ=Σ^+ρδ^δ^T\hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^TΣ^ρ?=Σ^+ρδ^δ^T
這個值形式上與樣本協方差類似,但他包含了feature與label共同的信息,我們提取它的主成分,然后用來做PCA,這就是Supervised PCA Regression。如果ρ→0\rho \to 0ρ→0,這就是一個PCA regression,如果ρ→∞\rho \to \inftyρ→∞,這就是一個marginal regression。Marginal Regression的含義是分別對每一個feature做一元回歸:
y1=x1β1+?1y2=x2β2+?2?yp=xpβp+?py_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_py1?=x1?β1?+?1?y2?=x2?β2?+?2??yp?=xp?βp?+?p?
這種模型在variable screening中有一些應用,并且在需要初值的迭代算法中可以作為系數的初始值。
下面我們再介紹一些Supervised PCA Regression的特點。假設
Σ=EXTX,δ=EXTy\Sigma=EX^TX,\delta = EX^TyΣ=EXTX,δ=EXTy
則
β=Σ?1δ\beta = \Sigma^{-1}\deltaβ=Σ?1δ
如果Σ\SigmaΣ的特征值為λ1≥?≥λk>λk+1=?=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1?≥?≥λk?>λk+1?=?=λd?,那么做譜分解
Σ=∑i=1k(λi?λd)ξiξiT+λdId\Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_dΣ=i=1∑k?(λi??λd?)ξi?ξiT?+λd?Id?
根據Σ?1Σ=Id\Sigma^{-1}\Sigma=I_dΣ?1Σ=Id?,我們可以得到?ai,a0\exists a_i,a_0?ai?,a0?,
Σ?1=∑i=1kaiξiξiT+a0Id\Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_dΣ?1=i=1∑k?ai?ξi?ξiT?+a0?Id?
于是
β=Σ?1δ=∑i=1kai(ξiTδ)ξi+λdδ∈span(ξ1,?,ξk,δ)\beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta)β=Σ?1δ=i=1∑k?ai?(ξiT?δ)ξi?+λd?δ∈span(ξ1?,?,ξk?,δ)
而Σρ=Σ+ρδδT\Sigma_{\rho}=\Sigma+\rho \delta \delta^TΣρ?=Σ+ρδδT的前k+1k+1k+1個主成分張成的子空間就是span(ξ1,?,ξk,δ)span(\xi_1,\cdots,\xi_k,\delta)span(ξ1?,?,ξk?,δ),這說明用Σρ\Sigma_{\rho}Σρ?的前k+1k+1k+1個主成分對特征空間進行降維是不存在信息損失的。而Davis-Kahan定理又能保證Σ^ρ\hat \Sigma_{\rho}Σ^ρ?與Σρ\Sigma_{\rho}Σρ?是足夠接近的,所以在以上的理論分析支撐下,我們可以認可Supervised PCA Regression。但關于這個模型的統計理論還有一些問題需要解決:
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计 专题1 Supervised PCA Regression概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言数据可视化 ggplot2基础2
- 下一篇: UA MATH567 高维统计 专题0