UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
UA MATH567 高維統計專題1 稀疏信號及其恢復7 LASSO的預測誤差與變量選擇一致性
- Prediction Error
- Variable Selection Consistency
Prediction Error
前兩講介紹了LASSO估計誤差的一些結果,這一講介紹LASSO的預測誤差,在統計學習理論中,我們定義
∥Ax^?Ax?∥\left\| A\hat x - Ax^*\right\|∥Ax^?Ax?∥
為模型的預測誤差,對于LASSO而言,AAA是design matrix,x^\hat xx^是LASSO估計,x?x^*x?是參數的真實值。
先看一個簡單的例子,假設有兩個特征,A1,A2A_1,A_2A1?,A2?,并且它們高度相關;假設有兩種可選的模型:
x^=(1,0)T,x~=(0,1)T\hat x = (1,0)^T,\tilde x=(0,1)^Tx^=(1,0)T,x~=(0,1)T
因此預測誤差為
∥A(x^?x?)∥,∥A(x~?x?)∥\left\|A(\hat x-x^*)\right\|,\left\|A(\tilde x-x^*)\right\|∥A(x^?x?)∥,∥A(x~?x?)∥
首先,分析預測誤差有一個很重要的觀念:要讓∥A(x^?x?)∥\left\|A(\hat x-x^*)\right\|∥A(x^?x?)∥比較小并不需要嘗試讓∥x^?x?∥\left\| \hat x - x^* \right\|∥x^?x?∥比較小;也就是對預測誤差的分析與對估計誤差的分析其實是比較獨立的兩個問題(換句話說就是在做數據分析的時候,參數估計和預測其實是兩類不同的數據分析問題,在數據比較復雜的情況下應該分別建模!)
定理 對于Penalized Least Square形式的LASSO,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\|\frac{A^Tw}{n} \right\|_{\infty}λn?≥2∥∥∥?nATw?∥∥∥?∞?,則
評注
在第五講中,我們介紹了一個non-asymptotic的結果,取
λn=2σ(2log?dn+δ)\lambda_n=2\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)λn?=2σ(n2logd??+δ)
則Slow rate result說明預測誤差的上界為
24∥x?∥1σ(2log?dn+δ)24\left\| x^* \right\|_1\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)24∥x?∥1?σ(n2logd??+δ)
取δ=O(1/n)\delta=O(1/\sqrt{n})δ=O(1/n?),則上界的階為O(log?dn)O(\sqrt{\frac{\log d}{n}})O(nlogd??),這與第五講得到的關于估計誤差的階接近;而fast rate result的階會是log?dn\frac{\log d}{n}nlogd?,在d=o(n)d=o(n)d=o(n)時,fast rate result比slow rate result更快趨于0
Variable Selection Consistency
當用LASSO做變量選擇時,我們希望它具有一致性;記S=S(x?)=supp(x?)S=S(x^*)=supp(x^*)S=S(x?)=supp(x?),我們希望P(S(x^)=S(x?))P(S(\hat x)=S(x^*))P(S(x^)=S(x?))足夠大甚至趨近于1,一個更強的結果是P(sign(x^)=sign(x?))P(sign(\hat x)=sign(x^*))P(sign(x^)=sign(x?))趨近于1,這個被稱為sign consistency。
一個反例 (Zhao&Yu 2006)
如果X1,X2~iidN(0,1)X_1,X_2 \sim_{iid} N(0,1)X1?,X2?~iid?N(0,1),X3=X1+X2X_3=X_1+X_2X3?=X1?+X2?,
y=3X1+2X2+0X3+?y=3X_1+2X_2+0X_3+\epsilony=3X1?+2X2?+0X3?+?
則做變量選擇時,X3X_3X3?總會先被加入模型(也就是X3X_3X3?總會被認為是有效特征),這是因為3=arg?max?iCorr(y,Xi)3=\argmax_i Corr(y,X_i)3=iargmax?Corr(y,Xi?);此時變量選擇的一致性永遠也無法達成。
一致性的條件
用γmin?(?)\gamma_{\min}(\cdot)γmin?(?)表示某個矩陣的最小特征值,第一個條件是
γmin?(ASTAS/n)≥cmin?>0\gamma_{\min}(A_S^TA_S/n) \ge c_{\min}>0γmin?(AST?AS?/n)≥cmin?>0
其中cmin?c_{\min}cmin?是一個常正實數;第二個條件被Zhao&Yu 2006稱為irrepresentable condition:
max?j∈SC∥(ASTAS)?1ASTAj∥1≤α<1,α∈[0,1)\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1 \le \alpha<1,\alpha \in [0,1)j∈SCmax?∥∥?(AST?AS?)?1AST?Aj?∥∥?1?≤α<1,α∈[0,1)
其中(ASTAS)?1ASTAj(A_S^TA_S)^{-1}A_S^TA_j(AST?AS?)?1AST?Aj?實際上是用ASA_SAS?對AjA_jAj?做回歸的最小二乘系數,我們希望true model以外的特征與true model相關性越低越好,最好是ASC⊥ASA_{S^C} \perp A_SASC?⊥AS?,否則就會發生如同上面反例中的事情。下面完整敘述一下這個條件,定義
ηn=max?j∈SC∥(ASTAS)?1ASTAj∥1\eta_n=\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1ηn?=j∈SCmax?∥∥?(AST?AS?)?1AST?Aj?∥∥?1?
當n,d→∞n,d \to \inftyn,d→∞,d=O(enκ),κ<1d=O(e^{n^{\kappa}}),\kappa<1d=O(enκ),κ<1時,在Gauss error下,ηn≤α<1\eta_n \le \alpha<1ηn?≤α<1是一致性的充分條件,其中α\alphaα是常數;ηn<1\eta_n<1ηn?<1是一個必要條件。因為充分條件和必要條件差別著實不大,要構造一個滿足必要性但不滿足充分性的例子比較困難,但change point detection(可以參考Multiple change-point detection: A selective overview)就滿足這個條件,它的design matrix是所有非零元素均為1的下三角矩陣,所以change point model一般不用regression-based method處理。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LASSO与Item Response
- 下一篇: UA MATH567 高维统计专题2 L