基因填充方法之一步法和两步法
目前主流的基因填充方法有兩種:一步法填充和兩步法填充,其對(duì)比如下圖
一步法進(jìn)行基因型填充
根據(jù)參考面板的基因型推斷樣本可能的基因型構(gòu)成, 然后直接填充缺失的基因型,這種樣本單倍型是根據(jù)參考樣本的單倍型來 進(jìn)行推斷的,每一個(gè)樣本都需要推斷一次,并且參考樣本更改以后,也需要重新根據(jù)參考樣本來進(jìn)行單倍型推斷。
./impute2
-m ./Example/example.chr22.map
-h ./Example/example.chr22.1kG.haps
-l ./Example/example.chr22.1kG.legend
-g ./Example/example.chr22.study.gens
-strand_g ./Example/example.chr22.study.strand
-int 20.4e6 20.5e6
-Ne 20000
-o ./Example/example.chr22.one.phased.impute2
其中:
example.chr22.map:
example.chr22.1kG.haps:
example.chr22.1kG.legend:
example.chr22.study.gens:
example.chr22.study.strand:
example.chr22.one.phased.impute2:
兩步法進(jìn)行基因型填充,可分為兩個(gè)步驟
第一步進(jìn)行基因型分型,把基因型通過分型操作轉(zhuǎn)成單倍型,然后與參考基因型的單倍型進(jìn)行比較。
基因分型,是按照親本正確地定位到父親或者母親的染色體上,最終使得所有來自同一個(gè)親本的等位基因都能夠排列在同一個(gè)染色體里面,基因分型有三種方法:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing),其中群體LD和家系分型常用,SHAPEIT2 為比較常用的分型軟件。
第二步將分型以后的基因型單倍體與參考模板的單倍型進(jìn)行比對(duì),填充出來缺失位點(diǎn)
impute2的原理是通過滑窗的形式進(jìn)行學(xué)習(xí)參考分布,然后實(shí)時(shí)對(duì)填充序列進(jìn)行填充,其實(shí)本質(zhì)上如果這種方式填充序列樣本量比較小的時(shí)候就跟第二種是一樣的,序列的分布情況主要就依賴于參考序列,這種方式類似于進(jìn)行比對(duì),利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)比對(duì)的模式,然后進(jìn)行運(yùn)用
Step 1: Pre-phasing
./impute2
-prephase_g
-m ./Example/example.chr22.map
-g ./Example/example.chr22.study.gens
-int 20.4e6 20.5e6
-Ne 20000
-o ./Example/example.chr22.prephasing.impute2
Example/example.chr22.map:
example.chr22.study.gens:
example.chr22.prephasing.impute2:
Step 2: Imputation into pre-phased haplotypes
./impute2
-use_prephased_g
-m ./Example/example.chr22.map
-h ./Example/example.chr22.1kG.haps
-l ./Example/example.chr22.1kG.legend
-known_haps_g ./Example/example.chr22.prephasing.impute2_haps
-strand_g ./Example/example.chr22.study.strand
-int 20.4e6 20.5e6
-Ne 20000
-o ./Example/example.chr22.one.phased.impute2
-phase
example.chr22.1kG.legend:
example.chr22.prephasing.impute2_haps:
此文件的snp和study的snp數(shù)量是一致的。
example.chr22.one.phased.impute2:
總結(jié):填充的出來的snp長(zhǎng)度并不是所有的參考樣板的長(zhǎng)度,根據(jù)參數(shù)int 20.4e6 20.5e6 來進(jìn)行限定的,從而impute在分型和填充階段就指根據(jù)study數(shù)據(jù)填充20.4M到20.5M之間的缺失snp,再加上原本study已經(jīng)測(cè)得的snp,經(jīng)過正負(fù)連旋轉(zhuǎn)以后得到與參考樣本統(tǒng)一的正負(fù)連數(shù)據(jù),參考樣本的數(shù)據(jù)一般都為正連數(shù)據(jù),最后填充出來的基因型與參考樣本的基因型是同為正連數(shù)據(jù)。
注意:參考樣本為單倍型,study數(shù)據(jù)為基因型數(shù)據(jù),prephase以后的數(shù)據(jù)為基因型(基因分型,其實(shí)就是根據(jù)LD數(shù)據(jù)進(jìn)行分型,分清父系和母系之間的等位基因歸屬),最終得到的結(jié)果數(shù)據(jù)為基因型數(shù)據(jù),并且不同的基因型數(shù)據(jù)需要給出info得分。
IMPUTATION WITH ONE UNPHASED REFERENCE PANEL
IMPUTATION WITH TWO PHASED REFERENCE PANELS
IMPUTATION WITH TWO PHASED REFERENCE PANELS (MERGE REFERENCE PANELS)
IMPUTATION WITH ONE PHASED AND ONE UNPHASED REFERENCE PANEL
IMPUTATION WITH ONE PHASED AND ONE UNPHASED REFERENCE PANEL, WITH ADDITIONAL OPTIONS
總結(jié)
以上是生活随笔為你收集整理的基因填充方法之一步法和两步法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。