UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation
UA MATH567 高維統計專題1 稀疏信號及其恢復2 用L1-norm作為L0-norm的convex relexation
- L1L_1L1?-norm minimization
- L1L_1L1?-norm是L0L_0L0?-norm的凸包絡
- L1L_1L1?-norm minimization的full recovery
上一講我們在無噪聲的設定下討論了稀疏信號的恢復,假設yyy是我們對稀疏信號的測量,y=Axoy=Ax_oy=Axo?,系數AAA已知,目標是從測量中還原出信號xox_oxo?,一種可行的操作是在y=Axy=Axy=Ax的解集中找到最稀疏的向量,以此作為sparse signal的估計,所以要求解的問題是:
min?∥x∥0s.t.y=Ax\min \ \ \left\| x\right\|_0 \\ s.t. \ \ y = Axmin??∥x∥0?s.t.??y=Ax
用Exhaustive Search可以求解這個問題,當xox_oxo?足夠sparse的時候(∥xo∥0≤12krank(A)\left\| x_o \right\|_0 \le \frac{1}{2}krank(A)∥xo?∥0?≤21?krank(A)),L0L_0L0?-norm minimization可以把xox_oxo?準確還原出來,其中krank(A)krank(A)krank(A)為矩陣AAA的Kruskal rank,任意krank(A)krank(A)krank(A)個AAA的列向量線性無關,但存在krank(A)+1krank(A)+1krank(A)+1個AAA的列向量線性相關。遺憾的是,L0L_0L0?-norm minimization是NP-hard問題,我們無法保證求解L0L_0L0?-norm minimization的算法會在多久以后收斂,因此L0L_0L0?-norm minimization的實用價值不大。
這一講我們討論,既然實踐中無法使用L0L_0L0?-norm minimization,那能不能設計一些近似的算法,讓我們在時間復雜度與近似誤差之間有做取舍的余地?
L1L_1L1?-norm minimization
可以簡單回憶一下,在凸優化中我們討論過的優化問題的relaxation,因為凸優化是多項式時間復雜度問題,所以我們可以找L0L_0L0?-norm minimization的convex relaxation作為它的近似。上一講我們討論了LpL_pLp?-norm中ppp最小的鄰域為凸集的是L1L_1L1?-norm,因為ppp越小,鄰域中的向量越sparse,所以我們有理由相信,L1L_1L1?-norm minimization是L0L_0L0?-norm minimization的一種優秀convex relaxation。同樣考慮無噪聲的情況:
min?∥x∥1=∑i=1n∣xi∣s.t.y=Ax\min \ \ \left\| x\right\|_1 = \sum_{i=1}^n |x_i| \\ s.t. \ \ y = Axmin??∥x∥1?=i=1∑n?∣xi?∣s.t.??y=Ax
我們稱這個問題為basis pursuit。
L1L_1L1?-norm是L0L_0L0?-norm的凸包絡
考慮B∞={x:∥x∥∞=1}B_{\infty}=\{x:\left\|x \right\|_{\infty}=1\}B∞?={x:∥x∥∞?=1},L1L_1L1?-norm是L0L_0L0?-norm的凸包絡的含義是,對任意凸函數f:B∞→Rf:B_{\infty} \to \mathbb{R}f:B∞?→R,如果?x∈B∞\forall x \in B_{\infty}?x∈B∞?,f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0?,則f(x)≤∥x∥1f(x) \le \left\|x \right\|_1f(x)≤∥x∥1?。引入Hamming cube上的向量σ∈{0,1}n\sigma \in \{0,1\}^nσ∈{0,1}n,則?x∈B∞\forall x \in B_{\infty}?x∈B∞?,我們可以用Hamming cube中的向量作為xxx的基:
x=∑i=1Nλiσix = \sum_{i=1}^N \lambda_i \sigma_ix=i=1∑N?λi?σi?
f(x)≤∥x∥0f(x) \le \left\|x \right\|_0f(x)≤∥x∥0?說明
f(σi)≤∥σi∥0f(\sigma_i) \le \left\|\sigma_i \right\|_0f(σi?)≤∥σi?∥0?
Hamming cube上的向量滿足∥σi∥0=∥σi∥1\left\|\sigma_i \right\|_0=\left\|\sigma_i \right\|_1∥σi?∥0?=∥σi?∥1?,所以我們用Jensen不等式:
f(x)=f(∑i=1Nλiσi)≤∑i=1Nλif(σi)≤∑i=1Nλi∥σi∥0=∑i=1Nλi∥σi∥1≤∑i=1N∣λi∣∥σi∥1=∥x∥1f(x)=f(\sum_{i=1}^N \lambda_i \sigma_i) \le \sum_{i=1}^N \lambda_i f(\sigma_i) \le \sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_0 \\ =\sum_{i=1}^N \lambda_i \left\|\sigma_i \right\|_1 \le \sum_{i=1}^N |\lambda_i| \left\|\sigma_i \right\|_1=\left\| x \right\|_1f(x)=f(i=1∑N?λi?σi?)≤i=1∑N?λi?f(σi?)≤i=1∑N?λi?∥σi?∥0?=i=1∑N?λi?∥σi?∥1?≤i=1∑N?∣λi?∣∥σi?∥1?=∥x∥1?
L1L_1L1?-norm minimization的full recovery
我們知道L0L_0L0?-norm minimization在signal足夠sparse的情況下可以把signal準確還原出來,也就是可以實現full recovery,那么L1L_1L1?-norm minimization是否有類似的性質?
一種可能的情況:考慮y=Axy=Axy=Ax的解空間,因為xox_oxo?是一個特解,所以y=Axy=Axy=Ax的解空間為xo+Null(A)x_o+Null(A)xo?+Null(A),也就是基于核空間Null(A)Null(A)Null(A)做平移得到的一個線性流形,如果xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo?+Null(A)∩{x:∥x∥1?≤∥xo?∥1?}=xo?,那么
arg?min?x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo?+Null(A)argmin?∥x∥1?=xo?
簡單地說,就是可行域與目標函數的contour使得L1L_1L1?-norm minimization取角點解時,L1L_1L1?-norm minimization實現full recovery。
評注
L0L_0L0?-norm不滿足正齊次性,所以變換xxx的單位、乘除一個常數不會影響xxx的L0L_0L0?-norm;但是L1L_1L1?-norm是一個范數,滿足正齊次性,所以變換xxx的單位、乘除一個常數會影響xxx的L1L_1L1?-norm;那么在L1L_1L1?-norm minimization的實踐中是否標準化xxx?在統計學文獻中,我們一般把隨機向量方差標準化,或者把隨機矩陣的列向量的方差標準化。
我們把上面那個簡單情況抽象化,定義指標集S?{1,?,n}S \subset \{1,\cdots,n\}S?{1,?,n},基于指標集定義一個cone:
C(S)={Δ∈Rn:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\Delta \in \mathbb{R}^n:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1\}C(S)={Δ∈Rn:∥ΔSC?∥1?≤∥ΔS?∥1?}
cone這種結構的好處是cone中的任一向量乘除一個常數后依然屬于這個cone,這樣就湊出了L0L_0L0?-norm的scale-invariant的特點。稱矩陣AAA關于指標集SSS有restricted nullspace property如果
C(S)∩Null(A)={0}C(S)\cap Null(A)=\{0\}C(S)∩Null(A)={0}
定理 假設xox_oxo?非零的元素的指標構成指標集SSS,則basis pursuit的唯一解為xox_oxo?的充要條件是AAA關于指標集SSS有restricted nullspace property。
證明
?\Leftarrow?: 記x^\hat xx^為basis pursuit的解,則y=Ax^=Axoy=A\hat x = Ax_oy=Ax^=Axo?,并且∥x^∥1≤∥xo∥1\left\| \hat x\right\|_1 \le \left\| x_o\right\|_1∥x^∥1?≤∥xo?∥1?,前者說明
Δ?x^?xo∈null(A)\Delta \triangleq \hat x - x_o \in null(A)Δ?x^?xo?∈null(A)
計算
∥xoS∥1=∥xo∥1≥∥x^∥1=∥xo+Δ∥1=∥xo+ΔS+ΔSC∥1≥∥xo∥1?∥ΔS∥1+∥ΔSC∥1\left\| x_{oS} \right\|_1= \left\| x_o\right\|_1 \ge \left\| \hat x\right\|_1 = \left\| x_o+\Delta \right\|_1 \\= \left\| x_o+\Delta_S+\Delta_{S^C} \right\|_1 \ge \left\| x_o\right\|_1- \left\| \Delta_S\right\|_1+ \left\| \Delta_{S^C}\right\|_1 ∥xoS?∥1?=∥xo?∥1?≥∥x^∥1?=∥xo?+Δ∥1?=∥xo?+ΔS?+ΔSC?∥1?≥∥xo?∥1??∥ΔS?∥1?+∥ΔSC?∥1?
所以
∥ΔSC∥1≤∥ΔS∥1,Δ∈C(S)\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_S \right\|_1,\Delta \in C(S)∥ΔSC?∥1?≤∥ΔS?∥1?,Δ∈C(S)
根據restricted nullspace property,
C(S)∩Null(A)={0}C(S) \cap Null(A)=\{0\}C(S)∩Null(A)={0}
因為SSS是xox_oxo?的支撐集的指標集,所以上式等價于xo+Null(A)∩{x:∥x∥1≤∥xo∥1}=xox_o+Null(A) \cap \{x:\left\|x \right\|_1 \le \left\| x_o \right\|_1\}=x_oxo?+Null(A)∩{x:∥x∥1?≤∥xo?∥1?}=xo?
因此
arg?min?x∈xo+Null(A)∥x∥1=xo\argmin_{x \in x_o+Null(A)} \left\| x\right\|_1=x_ox∈xo?+Null(A)argmin?∥x∥1?=xo?
?\Rightarrow?: ?x?∈Null(A)?{0}\forall x^* \in Null(A)\setminus \{0\}?x?∈Null(A)?{0},考慮basis pursuit,
min?∥x∥1s.t.Ax=A[xS?0]\min \ \left\| x \right\|_1\ s.t. A x = A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]min?∥x∥1??s.t.Ax=A[xS??0?]
根據假設,它的唯一解為
x^=[xS?0]\hat x = \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right]x^=[xS??0?]
因為Ax?=0Ax^*=0Ax?=0,也就是
A[xS?xSC?]=0?A[xS?0]=A[0?xSC?]A \left[ \begin{matrix} x^*_S \\ x^*_{S^C} \end{matrix} \right]=0 \Rightarrow A \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] = A \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right]A[xS??xSC???]=0?A[xS??0?]=A[0?xSC???]
也就是說[0?xSC?]\left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right][0?xSC???]也是一個可行解,因此
∥[0?xSC?]∥1≥∥[xS?0]∥1∥θSC?∥1≥∥θS?∥1\left\| \left[ \begin{matrix} 0 \\ -x^*_{S^C} \end{matrix} \right] \right\|_1 \ge \left\| \left[ \begin{matrix} x^*_S \\ 0 \end{matrix} \right] \right\|_1 \\ \left\| \theta^*_{S^C} \right\|_1 \ge \left\| \theta_S^* \right\|_1∥∥∥∥?[0?xSC???]∥∥∥∥?1?≥∥∥∥∥?[xS??0?]∥∥∥∥?1?∥θSC??∥1?≥∥θS??∥1?
所以θ?∈C(S)\theta^* \in C(S)θ?∈C(S)
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复2 用L1-norm作为L0-norm的convex relexation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物理光学6 干涉
- 下一篇: UA MATH567 高维统计专题1 稀