UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick
UA MATH567 高維統計II 隨機向量10 Grothendieck不等式的證明 版本二:kernel trick
在介紹亞高斯隨機向量的更多應用之前,我們先簡單介紹一下核方法(kernel trick)。大概近十來年,張量數據(tensor data)越來越多了,比如MRI數據,基因組學的array data等等,如果按傳統多元統計的思路處理張量數據,那就是定義一些拉平算子把張量變成一個向量進行研究,這樣做的缺陷在于它完全破壞了張量數據本身的spatial correlation,所以我們需要另一種能夠不破壞張量數據的spatial structure的方法——核方法(kernel trick)。它的本質是在用低維的簡單的結構近似高維的、非線性的結構。
一個直觀例子,關于Kernel trick在做什么:函數f(x1,x2)=x12+x22+3x1x2+x1+x2f(x_1,x_2)=x_1^2+x_2^2+3x_1x_2+x_1+x_2f(x1?,x2?)=x12?+x22?+3x1?x2?+x1?+x2?是一個二次函數,我們可以用二次型分析它,但不管怎么說這都是一個需要一點工具才能分析的東西,但如果我們打破我們的刻板印象,不在(x1,x2)(x_1,x_2)(x1?,x2?)這個二維坐標系下討論這個函數,而是在(x1,x2,x1x2,x12,x22)(x_1,x_2,x_1x_2,x_1^2,x_2^2)(x1?,x2?,x1?x2?,x12?,x22?)這個五維的坐標系下討論這個函數,它就是是一個非常簡單的線性函數了。
Tensor and Array Data
假設我們要處理的張量數據用A=(ai1?ik)∈Rn1×?×nkA=(a_{i_1\cdots i_k}) \in \mathbb{R}^{n_1 \times \cdots \times n_k}A=(ai1??ik??)∈Rn1?×?×nk?表示,其中i1,?,iki_1,\cdots,i_ki1?,?,ik?是啞標(可以自由取遍所有可能的取值),i1=1,?,n1,?,ik=1,?,nki_1=1,\cdots,n_1,\cdots,i_k = 1,\cdots,n_ki1?=1,?,n1?,?,ik?=1,?,nk?。
定義張量數據的內積為
?A,B?=∑i1,?,ikai1?ikbi1?ik\langle A,B \rangle = \sum_{i_1,\cdots,i_k}a_{i_1\cdots i_k}b_{i_1\cdots i_k}?A,B?=i1?,?,ik?∑?ai1??ik??bi1??ik??
定義rank 1 tensor(或者稱為簡單張量)為向量的張量積,比如
u∈Rn,u???u=u?k=(ui1?uik)∈Rn×?×nu \in \mathbb{R}^n,u \otimes \cdots \otimes u = u^{\otimes k} = (u_{i_1}\cdots u_{i_k}) \in \mathbb{R}^{n \times \cdots \times n}u∈Rn,u???u=u?k=(ui1???uik??)∈Rn×?×n
性質
u,v∈Rn,?u?k,v?k?=?u,v?ku,v \in \mathbb{R}^n,\langle u^{\otimes k},v^{\otimes k} \rangle=\langle u,v \rangle^ku,v∈Rn,?u?k,v?k?=?u,v?k
證明
根據定義,
?u?k,v?k?=∑i1,?,ikui1?uikvi1?vik=(∑i1ui1vi1)?(∑i1uikvik)=?u,v?k\langle u^{\otimes k},v^{\otimes k} \rangle =\sum_{i_1,\cdots,i_k}u_{i_1}\cdots u_{i_k}v_{i_1}\cdots v_{i_k} \\ = \left( \sum_{i_1} u_{i_1}v_{i_1} \right) \cdots \left( \sum_{i_1} u_{i_k}v_{i_k} \right)=\langle u,v \rangle^k?u?k,v?k?=i1?,?,ik?∑?ui1???uik??vi1???vik??=(i1?∑?ui1??vi1??)?(i1?∑?uik??vik??)=?u,v?k
假設KKK是一個二元映射,K:Ω×Ω→RK:\Omega \times \Omega \to \mathbb{R}K:Ω×Ω→R,能用kernel trick分析這個二元映射的前提是存在一個Hilbert空間與映射Φ:Ω→H\Phi:\Omega \to HΦ:Ω→H,使得
K(u,v)=?Φ(u),Φ(v)?H,?u,v∈ΩK(u,v)=\langle \Phi(u),\Phi(v) \rangle_H,\forall u,v \in \OmegaK(u,v)=?Φ(u),Φ(v)?H?,?u,v∈Ω
比如對于任意解析函數fff,K=f(??,??)K = f(\langle\cdot,\cdot \rangle)K=f(??,??),我們希望?Φ,Ψ:Rn→Rnk\exists \Phi,\Psi:\mathbb{R}^n \to \mathbb{R}^{n^k}?Φ,Ψ:Rn→Rnk,使得
?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?\forall u,v \in \mathbb{R^n},f(\langle u,v \rangle) = \langle \Phi(u),\Psi(v) \rangle?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?
(上面的性質就是一個例子),這樣的kernel與Hilbert空間的存在性由下列定理保證:
Mercer定理、Moore-Aronszajn定理 {ui}i=1N\{u_i\}_{i=1}^N{ui?}i=1N?是Ω\OmegaΩ中的任意點集,如果矩陣[K(ui,uj)]N×N[K(u_i,u_j)]_{N \times N}[K(ui?,uj?)]N×N?是半正定矩陣,則存在Hilbert空間與映射Φ:Ω→H\Phi:\Omega \to HΦ:Ω→H,使得
K(u,v)=?Φ(u),Φ(v)?H,?u,v∈ΩK(u,v)=\langle \Phi(u),\Phi(v) \rangle_H,\forall u,v \in \OmegaK(u,v)=?Φ(u),Φ(v)?H?,?u,v∈Ω
稱Φ\PhiΦ是特征映射(feature map),稱KKK為kernel,HHH具有唯一性,可以根據KKK構建,稱其為reproducing kernel Hilbert space (RKHS)。
應用舉例
現在回到第七講討論的Grothendieck不等式,這個不等式提供了分析用半正定規劃近似整數規劃的誤差的方法。第九講中我們用半正定規劃+random rounding技巧近似了用整數規劃建模的圖的max-cut問題。對比這兩個思路我們可以獲得一個新的想法,我們能不能用random rounding技巧推Grothendieck不等式?
Grothendieck不等式
AAA是m×nm \times nm×n的實矩陣,xi,yj∈{?1,1}x_i,y_j \in \{-1,1\}xi?,yj?∈{?1,1},假設∣∑i,jAijxiyj∣≤1|\sum_{i,j}A_{ij}x_iy_j| \le 1∣∑i,j?Aij?xi?yj?∣≤1,則?H\forall H?H(Hilbert space),?ui,vj∈H\forall u_i,v_j \in H?ui?,vj?∈H,∥ui∥=∥vj∥=1\left\| u_i \right\|=\left\| v_j \right\|=1∥ui?∥=∥vj?∥=1,
∣∑i,jAi,j?ui,vj?∣≤K,K≤1.783|\sum_{i,j}A_{i,j}\langle u_i,v_j \rangle| \le K,K \le 1.783∣i,j∑?Ai,j??ui?,vj??∣≤K,K≤1.783
第七講中證明這個不等式的第二步引入了隨機性,定義g~N(0,IN)g \sim N(0,I_N)g~N(0,IN?),定義xi=sgn?g,ui?,yj=sgn?g,vj?x_i =sgn \langle g,u_i\rangle,y_j = sgn \langle g,v_j\ranglexi?=sgn?g,ui??,yj?=sgn?g,vj??,我們沿用這個設定,但后續用random rounding的思路分析,根據Grothendieck恒等式(第九講)
E[xiyj]=2πarcsin??ui,vj?E[x_iy_j] =\frac{2}{\pi} \arcsin \langle u_i,v_j\rangleE[xi?yj?]=π2?arcsin?ui?,vj??
我們可以想象一下,如果E[xiyj]=2π?ui,vj?E[x_iy_j] =\frac{2}{\pi} \langle u_i,v_j\rangleE[xi?yj?]=π2??ui?,vj??,那么
K(A)=∣∑i,jAi,j?ui,vj?∣=π2∣∑i,jAi,jE[xiyj]∣=π2E∣∑i,jAi,j[xiyj]∣=π2<1.783K(A) =| \sum_{i,j}A_{i,j}\langle u_i,v_j \rangle|=\frac{\pi}{2}|\sum_{i,j}A_{i,j}E[x_iy_j]| \\ = \frac{\pi}{2}E|\sum_{i,j}A_{i,j}[x_iy_j]|=\frac{\pi}{2}<1.783K(A)=∣i,j∑?Ai,j??ui?,vj??∣=2π?∣i,j∑?Ai,j?E[xi?yj?]∣=2π?E∣i,j∑?Ai,j?[xi?yj?]∣=2π?<1.783
也就是說我們甚至還能得到一個更小的上界,那么到底怎么才能實現E[xiyj]=2π?ui,vj?E[x_iy_j] =\frac{2}{\pi} \langle u_i,v_j\rangleE[xi?yj?]=π2??ui?,vj??呢?我們可以做一個變換:
ui→ui′,vj→vj′u_i \to u_i',v_j \to v_j'ui?→ui′?,vj?→vj′?
使得
?β,β?ui,vj?=sin?2π?ui′,vj′??π2arcsin?β?ui,vj?=?ui′,vj′?\exists \beta, \beta \langle u_i,v_j \rangle = \sin \frac{2}{\pi}\langle u_i',v_j '\rangle \Leftrightarrow \frac{\pi}{2}\arcsin \beta \langle u_i,v_j \rangle = \langle u_i',v_j '\rangle?β,β?ui?,vj??=sinπ2??ui′?,vj′???2π?arcsinβ?ui?,vj??=?ui′?,vj′??
這個變換實際上就是kernel trick,?Φ,Ψ:Rn→Rnk\exists \Phi,\Psi:\mathbb{R}^n \to \mathbb{R}^{n^k}?Φ,Ψ:Rn→Rnk,使得
?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?\forall u,v \in \mathbb{R^n},f(\langle u,v \rangle) = \langle \Phi(u),\Psi(v) \rangle?u,v∈Rn,f(?u,v?)=?Φ(u),Ψ(v)?
這里的f(?u,v?)=π2arcsin?β?u,v?f(\langle u,v \rangle) =\frac{\pi}{2}\arcsin \beta \langle u,v \ranglef(?u,v?)=2π?arcsinβ?u,v?,ui′,vj′u_i',v_j'ui′?,vj′?的存在性由Mercer定理、Moore-Aronszajn定理保證。
于是
βK(A)=∣∑i,jAi,jβ?ui,vj?∣=∣∑i,jAi,j2πarcsin??ui′,vj′?∣\beta K(A) = | \sum_{i,j}A_{i,j} \beta \langle u_i,v_j \rangle|= | \sum_{i,j}A_{i,j} \frac{2}{\pi} \arcsin \langle u_i',v_j'\rangle| βK(A)=∣i,j∑?Ai,j?β?ui?,vj??∣=∣i,j∑?Ai,j?π2?arcsin?ui′?,vj′??∣
根據Grothendieck恒等式,
∣∑i,jAi,j2πarcsin??ui′,vj′?∣=∣∑i,jAi,jE[sgn?g,ui?sgn?g,vj?]∣=∣∑i,jAi,jExiyj∣≤E∣∑i,jAi,jxiyj∣=1| \sum_{i,j}A_{i,j} \frac{2}{\pi} \arcsin \langle u_i',v_j'\rangle|= | \sum_{i,j}A_{i,j} E[sgn \langle g,u_i\rangle sgn\langle g,v_j\rangle]| \\ =| \sum_{i,j}A_{i,j}Ex_i y_j| \le E| \sum_{i,j}A_{i,j}x_i y_j| =1 ∣i,j∑?Ai,j?π2?arcsin?ui′?,vj′??∣=∣i,j∑?Ai,j?E[sgn?g,ui??sgn?g,vj??]∣=∣i,j∑?Ai,j?Exi?yj?∣≤E∣i,j∑?Ai,j?xi?yj?∣=1
所以K=K(A)≤1/βK = K(A) \le 1/\betaK=K(A)≤1/β,接下來的問題就是β\betaβ可以是什么,這就要涉及前面的那個變換怎么構造了。
引理
存在一個Hilbert空間HHH,以及變換Φ,Ψ:Sn?1→S(H)\Phi,\Psi:S^{n-1} \to S(H)Φ,Ψ:Sn?1→S(H),使得
2πarcsin??Φ(u),Ψ(v)?=β?u,v?,β=2πln?(1+2)\frac{2}{\pi} \arcsin \langle \Phi(u),\Psi(v) \rangle = \beta \langle u,v \rangle ,\beta = \frac{2}{\pi}\ln(1+\sqrt{2})π2?arcsin?Φ(u),Ψ(v)?=β?u,v?,β=π2?ln(1+2?)
其中S(H)S(H)S(H)是HHH上的單位球面。
有了這個引理,我們就可以直接得到Grothendieck不等式了,下一講我們介紹這個引理的證明。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计II 随机向量10 Grothendieck不等式的证明 版本二:kernel trick的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计II 随机
- 下一篇: UA MATH567 高维统计II 随机