UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差
UA MATH567 高維統計專題1 稀疏信號及其恢復5 LASSO的估計誤差
- Signal Recovery Noisy Setting
- LASSO的估計誤差
Signal Recovery Noisy Setting
前四講算是把無噪聲的情況討論得差不多了,這一講開始我們討論含噪聲的稀疏信號恢復問題。假設observations是
y=Ax?+wy=Ax^*+wy=Ax?+w
其中A∈Rn×dA \in \mathbb{R^{n \times d}}A∈Rn×d是design matrix,x?∈Rdx^* \in \mathbb{R}^dx?∈Rd是true signal,www是noise;現在的問題是我們知道yyy和AAA,想要得到真實信號的一個估計量x^\hat xx^;關于這個問題有三種等價的分析框架:
Penalized Least Square
min?x12n∥y?Ax∥22+λn?(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin???2n1?∥y?Ax∥22?+λn??(x)
其中λn\lambda_nλn?是regularization parameter,?(x)\phi(x)?(x)是penalty function,12n∥y?Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1?∥y?Ax∥22?是least square loss:
此外還有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通過設計penalty function得到能實現不同目的的penalized least square模型;
Constraint Least Square
min?x12n∥y?Ax∥22s.t.?(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin???2n1?∥y?Ax∥22?s.t.???(x)≤R
這與Penalized Least Square是完全等價的。
Relaxed Basis Pursuit或者Basis Pursuit Denoising
min?x?(x)s.t.12n∥y?Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin????(x)s.t.??2n1?∥y?Ax∥22?≤b2
這種一般在EECS的文獻中比較常見,統計學一般用前兩種(主要是第一種)框架。
LASSO的估計誤差
在noisy setting下,full recovery自然是不可能的了,但我們希望估計誤差∥x^?x?∥\left\| \hat x - x^*\right\|∥x^?x?∥盡可能小,下面我們討論一下LASSO估計誤差的下界。
在第二講推導L1L_1L1?-minimization時,為了構造L0L_0L0?-norm的scale-invariant性質,我們引入了一個凸錐
C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:∥ΔSC?∥1?≤∥ΔS?∥1?}
其中S?{1,2,?,d}S \subset \{1,2,\cdots,d\}S?{1,2,?,d}是一個指標集;在討論LASSO估計量時,我們需要再對這個凸錐做一點修正,考慮到LASSO估計量的特點是L1L_1L1?-norm作為penalty提供sparse solution,沒有被shrink to zero的那些observation會被proportional shrink,據此我們引入一個新的凸錐
Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα?(S)={Rd:∥ΔSC?∥1?≤α∥ΔS?∥1?}
Restricted Eigenvalue Condition
稱design matrix AAA滿足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
1n∥AΔ∥22≥κ∥Δ∥22,?Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1?∥AΔ∥22?≥κ∥Δ∥22?,?Δ∈Cα?(S)
通常將這個條件簡單記為RE(κ,α)RE(\kappa,\alpha)RE(κ,α)。
評注
如果κ>0\kappa>0κ>0,則RE(κ,α)RE(\kappa,\alpha)RE(κ,α)說明
1n∥AΔ∥22≥κ∥Δ∥22>0,?Δ∈Cα(S)?{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1?∥AΔ∥22?≥κ∥Δ∥22?>0,?Δ∈Cα?(S)?{0}
這說明
C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1?(S)∩Null(A)={0}
也就是Restricted Null Property成立。
定理 如果supp(x?)=Ssupp(x^*)=Ssupp(x?)=S,∣S∣=s|S|=s∣S∣=s,AAA滿足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:
評注
從上面這幾個結果來看,κ\kappaκ越大(restricted eigenvalue condition越嚴格),sss越小(信號越系數),估計量的誤差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥?nATw?∥∥∥?∞?決定,其中www是noise term;如果AAA是固定的,w~iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)w~iid?N(0,σ2),假設(標準化design matrix的列向量)
∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1n∥Aj?∥2??=1
且AAA滿足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),則
ATwn~N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw?~N(0,n2ATA?σ2)
ATwn\frac{A^Tw}{n}nATw?中每個元素的邊緣分布為N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATw?的L∞L_{\infty}L∞?-norm其實就是ddd個N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根據UA MATH567 高維統計III 隨機矩陣12 整數環上的區間的應用:拐點偵測的統計量及假設檢驗中介紹的最大值的概率不等式,
P(∥ATwn∥∞≥σ(2log?dn+δ))≤2e?nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(∥∥∥∥?nATw?∥∥∥∥?∞?≥σ(n2logd??+δ))≤2e?2nδ2?
取1n?δ\frac{1}{\sqrt{n}} \lesssim \deltan?1??δ,則nδ2→∞n\delta^2 \to \inftynδ2→∞,從而以上概率的上界為0,這說明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}∥∥∥?nATw?∥∥∥?∞?依概率1滿足
∥ATwn∥∞=O(slog?dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})∥∥∥∥?nATw?∥∥∥∥?∞?=O(nslogd??)
這是一個非常重要的結果,這時到目前為止的Frequentist Optimality;
證明第二條結論
考慮
min?x12n∥y?Ax∥22s.t.∥x∥1≤R=∥x?∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin???2n1?∥y?Ax∥22?s.t.??∥x∥1?≤R=∥x?∥1?
假設θ^\hat \thetaθ^是它的解,x?x^*x?是true signal,定義Δ=x^?x?\Delta=\hat x - x^*Δ=x^?x?;根據解的定義,
∥y?Ax^∥22≤∥y?Ax?∥22∥Ax?+w?Ax^∥22≤∥w∥22∥w?AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22?2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\Delta∥y?Ax^∥22?≤∥y?Ax?∥22?∥Ax?+w?Ax^∥22?≤∥w∥22?∥w?AΔ∥22?≤∥w∥22?∥w∥22?+∥AΔ∥22??2wTAΔ≤∥w∥22?∥AΔ∥22?≤2wTAΔ
根據Cauchy不等式
∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1n∥AΔ∥22??≤n2wTAΔ?≤2∥∥∥∥?nATw?∥∥∥∥?∞?∥Δ∥1?
下面我們說明Δ∈C1(S)?C3(S)\Delta \in C_1(S) \subset C_3(S)Δ∈C1?(S)?C3?(S):因為x?x^*x?是true signal,所以
∥xS?∥=∥x?∥1=R≥∥x^∥1=∥x?+Δ∥1=∥xS?+ΔS∥1+∥ΔSC∥1≥∥xS?∥?∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1∥xS??∥=∥x?∥1?=R≥∥x^∥1?=∥x?+Δ∥1?=∥xS??+ΔS?∥1?+∥ΔSC?∥1?≥∥xS??∥?∥ΔS?∥1?+∥ΔSC?∥1?
所以
∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1∥ΔSC?∥1?≤∥ΔS?∥1?
也就是說Δ∈C1(S)\Delta \in C_1(S)Δ∈C1?(S);根據RE(κ,1)RE(\kappa,1)RE(κ,1),
∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 ∥Δ∥22?≤nκ1?∥AΔ∥22?≤κ2?∥∥∥∥?nATw?∥∥∥∥?∞?∥Δ∥1?
其中
∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2∥Δ∥1?=∥ΔS?∥1?+∥ΔSC?∥1?≤2∥ΔS?∥1?≤2s?∥ΔS?∥2?
代入上式中可得
∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}∥Δ∥2?≤κ4?s?∥∥∥∥?nATw?∥∥∥∥?∞?
,
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马尔可夫“折棍子”过程 Markovia
- 下一篇: UA MATH567 高维统计专题1 稀