UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介
UA MATH567 高維統(tǒng)計(jì)專(zhuān)題2 Low-rank矩陣及其估計(jì)1 Low-rank Matrix簡(jiǎn)介
例 在推薦系統(tǒng)中,Netflix data是非常經(jīng)典的數(shù)據(jù)集??紤]它的電影評(píng)分?jǐn)?shù)據(jù),用矩陣的每一行表示每一個(gè)用戶(hù)(假設(shè)有d1d_1d1?個(gè)用戶(hù)),每一列表示每一部電影(假設(shè)有d2d_2d2?部電影),矩陣的第iii行第jjj列表示第iii個(gè)用戶(hù)對(duì)第jjj部電影的評(píng)分,記這個(gè)矩陣為YYY。目前世界上大概兩三百萬(wàn)部電影,即使每個(gè)用戶(hù)每天給24部評(píng)分一年365天無(wú)休也要三百多年才能評(píng)完分,所以這個(gè)矩陣中有巨多missing data。但是根據(jù)這些評(píng)分?jǐn)?shù)據(jù),我們想估計(jì)用戶(hù)對(duì)每部電影的真實(shí)評(píng)分,也就是要估計(jì)一個(gè)矩陣Θ∈Rd1×d2\Theta \in \mathbb{R}^{d_1 \times d_2}Θ∈Rd1?×d2?。在評(píng)分的時(shí)候,口味相同的用戶(hù)對(duì)不同電影的評(píng)分傾向于一致,而同一個(gè)用戶(hù)對(duì)相似電影的評(píng)分也會(huì)比較類(lèi)似,所以我們大致可以認(rèn)為Θ\ThetaΘ行列之間可能會(huì)有很強(qiáng)的線(xiàn)性相關(guān)性,因此Θ\ThetaΘ的秩應(yīng)該比較低。于是我們可以把Θ\ThetaΘ的估計(jì)用下面的模型表示:
min?Θrank(Θ)s.t.PΩ(Θ)=Y\min_{\Theta} \ \ rank(\Theta) \\ s.t. \ \ P_{\Omega}(\Theta)=YΘmin???rank(Θ)s.t.??PΩ?(Θ)=Y
其中PΩ:Rd1×d2→Ω={(i,j):Yijisnotmissing}P_{\Omega}:\mathbb{R}^{d_1 \times d_2} \to \Omega=\{(i,j):Y_{ij}\ is\ not\ missing\}PΩ?:Rd1?×d2?→Ω={(i,j):Yij??is?not?missing}
翻譯一下,這個(gè)優(yōu)化想要最小化Θ\ThetaΘ的秩,同時(shí)要保證在評(píng)分?jǐn)?shù)據(jù)沒(méi)有缺失的時(shí)候,Θ\ThetaΘ與用戶(hù)評(píng)分相等,所以這個(gè)模型實(shí)際上是在嘗試補(bǔ)全用戶(hù)評(píng)分中缺失的那些數(shù)據(jù),這也是它被稱(chēng)為matrix completion的原因。
Matrix Completion
我們先嘗試對(duì)這個(gè)模型做一點(diǎn)一般性的分析,用0-1矩陣EijE_{ij}Eij?表示Ω\OmegaΩ中的每個(gè)元素,Eij∈Rd1×d2E_{ij} \in \mathbb{R}^{d_1 \times d_2}Eij?∈Rd1?×d2?,除了第iii行第jjj列為1外其他元素均為0,則
Yij=?Eij,Θ?Y_{ij}=\langle E_{ij},\Theta \rangleYij?=?Eij?,Θ?
其中?A,B?\langle A,B \rangle?A,B?表示兩個(gè)矩陣的“內(nèi)積”:
?A,B?=∑i,jAijBij=tr(ATB)=tr(BTA)\langle A,B \rangle = \sum_{i,j}A_{ij}B_{ij}=tr(A^TB)=tr(B^TA)?A,B?=i,j∑?Aij?Bij?=tr(ATB)=tr(BTA)
這樣做的好處是可以把約束PΩ(Θ)=YP_{\Omega}(\Theta)=YPΩ?(Θ)=Y改寫(xiě)為
Y=?Eij,Θ?,(i,j)∈ΩY=\langle E_{ij},\Theta \rangle, (i,j) \in \OmegaY=?Eij?,Θ?,(i,j)∈Ω
在noisy setting下可以假設(shè)Yij=?Eij,Θ?+wijY_{ij}=\langle E_{ij},\Theta \rangle+w_{ij}Yij?=?Eij?,Θ?+wij?,其中wijw_{ij}wij?是一個(gè)噪聲,這個(gè)形式非常像我們熟悉的回歸問(wèn)題,YijY_{ij}Yij?是observation,EijE_{ij}Eij?是design matrix,wijw_{ij}wij?是noise。
現(xiàn)在我們考慮matrix completion的一般框架:
Yi=?Xi,Θ?+wi,i=1,?,nY_{i}=\langle X_i,\Theta \rangle + w_{i},i=1,\cdots,nYi?=?Xi?,Θ?+wi?,i=1,?,n
其中Xi,Θ∈Rd1×d2X_i,\Theta \in \mathbb{R}^{d_1 \times d_2}Xi?,Θ∈Rd1?×d2?,引入線(xiàn)性映射X:Rd1×d2→Rn\mathcal{X}:\mathbb{R}^{d_1 \times d_2} \to \mathbb{R}^nX:Rd1?×d2?→Rn
X(Θ)i=?Xi,Θ?\mathcal{X}(\Theta)_i= \langle X_i,\Theta \rangleX(Θ)i?=?Xi?,Θ?
則X\mathcal{X}X是一個(gè)三階張量,
Yi=X(Θ)+wiY_i=\mathcal{X}(\Theta)+w_iYi?=X(Θ)+wi?
把這個(gè)模型類(lèi)比為線(xiàn)性回歸,那么X\mathcal{X}X就是design tensor,Θ\ThetaΘ是系數(shù),只是我們的目標(biāo)函數(shù)并不是最小二乘損失,而是系數(shù)的秩:
min?rank(Θ)s.t.y=X(Θ)\min \ \ rank(\Theta) \\ s.t. \ \ y=\mathcal{X}(\Theta)min??rank(Θ)s.t.??y=X(Θ)
把這個(gè)優(yōu)化的等式約束放松為用L2L_2L2?-norm表示的不等式約束,那么我們的優(yōu)化模型就變成了
min?rank(Θ)s.t.∥y?X(Θ)∥22≤R2\min \ \ rank(\Theta) \\ s.t. \ \ \left\| y-\mathcal{X}(\Theta) \right\|_2^2 \le R^2min??rank(Θ)s.t.??∥y?X(Θ)∥22?≤R2
這個(gè)不等式約束對(duì)模型造成的效果和最小二乘損失沒(méi)有區(qū)別,因此我們可以把這個(gè)模型看成是一種Penalized Least Square,penalty是rank(Θ)rank(\Theta)rank(Θ)。在多數(shù)情況下,這個(gè)優(yōu)化是NP-hard問(wèn)題,只有在特定條件下,它才能在Polynomial time內(nèi)完成。
Singular Value Decomposition (SVD)
X∈Rm×n,r=rank(X)X \in \mathbb{R}^{m \times n},r=rank(X)X∈Rm×n,r=rank(X),則compact version的奇異值分解為
X=UΣVT=∑i=1rσiuiviTX=U \Sigma V^T = \sum_{i=1}^r \sigma_i u_iv_i^TX=UΣVT=i=1∑r?σi?ui?viT?
其中U∈Rm×r,V∈Rn×rU \in \mathbb{R}^{m \times r},V \in \mathbb{R}^{n \times r}U∈Rm×r,V∈Rn×r滿(mǎn)足
UTU=VTV=IU^TU=V^TV=IUTU=VTV=I
并且
Σ=diag(σ1,?,σr),σ1≥?≥σr?singularvalues>0\Sigma = diag(\sigma_1,\cdots,\sigma_r),\underbrace{\sigma_1 \ge \cdots \ge \sigma_r}_{singular\ values} >0Σ=diag(σ1?,?,σr?),singular?valuesσ1?≥?≥σr???>0
complete version(不妨假設(shè)m>nm>nm>n)的奇異值分解為
X=UΣVTX=U \Sigma V^T X=UΣVT
其中U∈Rm×m,V∈Rn×mU \in \mathbb{R}^{m \times m},V \in \mathbb{R}^{n \times m}U∈Rm×m,V∈Rn×m滿(mǎn)足
UTU=VTV=IU^TU=V^TV=IUTU=VTV=I
并且Σ∈Rm×n\Sigma \in \mathbb{R}^{m \times n}Σ∈Rm×n,前nnn個(gè)主對(duì)角元是奇異值,其余部分都是0;記
σ(X)=(σ1(X),?,σn(X)),σ1≥?≥σn?singularvalues≥0\sigma(X)=(\sigma_1(X),\cdots,\sigma_n(X)),\underbrace{\sigma_1 \ge \cdots \ge \sigma_n}_{singular\ values} \ge 0σ(X)=(σ1?(X),?,σn?(X)),singular?valuesσ1?≥?≥σn???≥0
則
rank(X)=∥σ(X)∥0=#{i:σi>0}rank(X)=\left\| \sigma(X) \right\|_0=\#\{i:\sigma_i>0\}rank(X)=∥σ(X)∥0?=#{i:σi?>0}
這個(gè)結(jié)果可以說(shuō)明rank-minimization與L0L_0L0?-minimization之間存在某種等價(jià)性。
定理
Best Low-rank Approximation
min?X∥X?Y∥Fs.t.rank(X)≤r\min_X \left\| X-Y \right\|_F \\ s.t. rank(X) \le rXmin?∥X?Y∥F?s.t.rank(X)≤r
的解為∑i=1rσiuiviT\sum_{i=1}^r \sigma_i u_iv_i^T∑i=1r?σi?ui?viT?,其中Y=∑i=1nσiuiviTY=\sum_{i=1}^n\sigma_iu_iv_i^TY=∑i=1n?σi?ui?viT?。其中Frobenius范數(shù)可以替換為其他orthogonal-invariant norm(即對(duì)某個(gè)矩陣而言與正交矩陣相乘后取范數(shù)與原矩陣直接取范數(shù)相等),approximation error為
∥∑i=1rσiuiviT?Y∥F=∑i=r+1nσi2\left\|\sum_{i=1}^r \sigma_i u_iv_i^T-Y \right\|_F=\sum_{i=r+1}^n \sigma_i^2∥∥∥∥∥?i=1∑r?σi?ui?viT??Y∥∥∥∥∥?F?=i=r+1∑n?σi2?
這個(gè)定理對(duì)其他形式的Best Low-rank Approximation也成立,比如
min?rank(X)s.t.∥X?Y∥≤?\min \ rank(X) \\ s.t. \left\| X-Y\right\| \le \epsilonmin?rank(X)s.t.∥X?Y∥≤?
的解為為∑i=1rσiuiviT\sum_{i=1}^r \sigma_i u_iv_i^T∑i=1r?σi?ui?viT?,其中
r=inf?{r:∑i=r+1nσi2≤?}r=\inf\{r:\sum_{i=r+1}^n \sigma_i^2 \le \epsilon\}r=inf{r:i=r+1∑n?σi2?≤?}
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀
總結(jié)
以上是生活随笔為你收集整理的UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: UA MATH567 高维统计专题1 稀
- 下一篇: UA MATH567 高维统计专题2 L