Deseq2的理论基础
Deseq2的理論基礎
原文:Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014
這是對Deseq的延申,簡單總結一下這個模型的統計方法。
模型
Number of reads in sample jjj that are assigned to gene iii記為KijK_{ij}Kij?,假設
Kij~NB(μij,αi),i=1,?,n,j=1,?,mμij=sjqij,log?qij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}Kij?~NB(μij?,αi?),i=1,?,n,j=1,?,mμij?=sj?qij?,logqij?=r=1∑p?xjr?βir?
其中s,qs,qs,q的含義與Deseq中s,qs,qs,q的含義相同,[xjr][x_{jr}][xjr?]為design matrix,[βir][\beta_{ir}][βir?]是系數矩陣,αi\alpha_{i}αi?是dispersion parameter,
Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2Var[Kij?]=μij?+αi?μij2?
αi\alpha_iαi?越接近0,KijK_{ij}Kij?的方差越接近均值,sjs_jsj?作為size factor,用與Deseq中一樣的方法確定sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}sj?=mediani?(∏v=1m?kiv?)m1?kij??
Inference on Dispersion
假設dispersion的先驗為log?αi~N(log?αtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)logαi?~N(logαtr?(μˉ?i?),σd2?),μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}μˉ?i?=m1?∑j?sj?Kij??,αtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0αtr?(μˉ?)=μˉ?a1??+α0?,dispersion估計分為三步:
Fold change (系數βir\beta_{ir}βir?代表fold change)
假設系數的先驗為βir~N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)βir?~N(0,σr2?),用empirical method確定σr=Q∣βr∣(1?p)QN(1?p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}σr?=QN?(1?p/2)Q∣βr?∣?(1?p)? 原文默認值p=0.05p=0.05p=0.05,QN(1?p/2)Q_N(1-p/2)QN?(1?p/2)代表標準正態分布的1?p/21-p/21?p/2上分位點,Q∣βr∣Q_{|\beta_r|}Q∣βr?∣?代表{β^irMLE}\{\hat \beta_{ir}^{MLE}\}{β^?irMLE?}的1?p1-p1?p empirical quantile,其中β^irMLE\hat \beta_{ir}^{MLE}β^?irMLE?可以由最開始的模型用IRLS得到。系數的MAP為
β?i=arg?max?β?[∑j=1mlog?fNB(Kij;μij,αi)+Λ(β?)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]β?i?=β?argmax?[j=1∑m?logfNB?(Kij?;μij?,αi?)+Λ(β?)]
其中
μij=sje∑r=1pxjrβir,Λ(β?)=?∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}μij?=sj?e∑r=1p?xjr?βir?,Λ(β?)=?r=1∑p?2σr2?βir2??
使用IRLS計算,迭代方程為
β?i←(XTWX+λ?I)?1XTWz?λ?r=1σr2,zj=log?μijsj+Kij?μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}β?i?←(XTWX+λI)?1XTWzλr?=σr2?1?,zj?=logsj?μij??+μij?Kij??μij??
從迭代方程可以看出,與標準的IRLS不同,這里的迭代方程盡管也有WLS的形式,但由于系數有一個正態先驗,所以(XTWX+λ?I)?1(X^TWX+\vec \lambda I)^{-1}(XTWX+λI)?1繼承了ridge regression的特點,因此最后得到的估計量與標準IRLS估計相比會有fractional shrinkage。
總結
以上是生活随笔為你收集整理的Deseq2的理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Deseq的理论基础
- 下一篇: UA OPTI544 量子光学7 2-l