tassel软件使用linux,【技术干货】动植物GWAS经典软件TASSEL的使用
原標題:【技術干貨】動植物GWAS經典軟件TASSEL的使用
做功能基因定位的生物狗基本都知道,經過10來年的發展,關聯分析與連鎖分析一樣,已經成為一項基本工具,廣泛應用于動植物功能基因挖掘中。在動植物(尤其是植物)的關聯分析中,TASSEL軟件是最早出現的開源軟件,相對于其他軟件,TASSEL也是使用的最廣泛的,您想不想知道在您有了表型、基因型之后,怎么使用TASSEL進行關聯分析呢?往下看吧
,小編教你啊~
先給軟件的下載地址 http://www.maizegenetics.net/tassel
在拿到表型和基因型(我們以vcf為例)后,完成GWAS分析,你只需要5步。
第一步 數據質控
內容包括:
1)按分型百分比條件過濾,多數文章剔除缺失率在20%以上的位點,樣本量較大的群體中,可以將缺失率小于50%的位點都保留;
2)按等位基因頻率過濾,通常去除最小(或第二)等位基因頻率小于5%的位點,樣本量較大的群體中,可以降低到1%;
3)多等位位點的過濾(當軟件無法接受時);
4)有時候還會去除缺失數據太多的樣本(基因型缺失比例大于20%或更高);
5)哈迪溫伯格平衡過濾,一般在無法使用較為復雜的統計模型的情況下使用,如人類的Case/Control GWAS中一般將不符合哈迪溫伯格平衡的位點過濾掉,動植物GWAS中一般不過濾;
6)表型極端值去除,用Excel從小到大排一下序看看就知道了。
如果你熟悉plink軟件(https://www.cog-genomics.org/plink2),那么第1)到第5)點就變得非常easy了,一條命令行即可以搞定:
./plink --vcf ./test.vcf --maf 0.05 --geno 0.2 --mind 0.2 --hwe 0.001 --biallelic-only --recode vcf-iid --out test.bia.maf0.05.int0.8.ind0.8.hwe0.001 --allow-extra-chr
--vcf 表示輸入的文件為vcf文件
--maf 控制第二等位基因頻率的,我們這里設置為不小于5%
--geno 控制位點基因型的缺失比例的,我們這里設置為20%,即缺失比例大于20%的位點都會過濾掉
--mind 控制樣本基因型缺失比例的,我們這里設置為20%,即基因型缺失比例大于20%的位點都會被過濾掉
--hwe 哈迪溫伯格平衡顯著性閾值的,我們這里設置為0.001,即哈迪溫伯格平衡檢驗p值小于0.001的位點都會被過濾掉
--biallelic-only 表示只保留二等位位點
--recode 把基因編碼為某種格式,我們這里還是輸出為與輸入文件一樣的vcf,所以選vcf-iid,另外還有十幾種格式,有需要的生物狗狗們可以到plink的官網上看看
--out 給定輸出文件的前綴
--allow-extra-chr 允許存在22+X+Y以外的染色體,非人類數據建議都把這一項給上
我們要講的TASSEL軟件,也可以完成一些過濾,導入數據vcf數據后(File -- open),選中導入的基因型文件,點擊Filter菜單操作就行了,具體如下圖。
第二步 群體結構分析
群體結構分析的內容其實是很豐富的,包括系統發育樹的構建(用于直觀地看出樣本的亞群分化情況);基于模型的(model-base)群體結構分析,可以使用的軟件包括STRUCTURE、Admixture等,分析結果可以獲得Q矩陣,用于關聯分析;數學降維的主成分分析,也就是我們常說的PCA分析,獲得樣本的主成分得分表,也可以作為Q矩陣用于關聯分析。
本帖小編帶領大家用TASSEL進行PCA分析,獲得的結果作為Q矩陣用于關聯分析,系統發育樹的構建(各種樹)方法可以參考百邁客云課堂(http://live.biocloud.net/course/21)相關的課程,STRUCTURE的使用介紹見今天下午的直播課程或者云課堂。
PCA分析:導入vcf后,選中導入的基因型文件,依次選擇Analysis--Relatedness--PCA即可。
獲得的結果包括樣本在各個PC(上面選返回多少個就顯示多少個的信息)的得分表以及每個PC的特征值列表;如下兩圖:
第三步 親緣關系分析
親緣關系衡量的是兩兩樣本間的相關關系(可能是血緣的或者其他的)的數值,計算的方法很多(具體介紹見云課堂GWAS生信培訓班),親緣關系矩陣(K)在MLM模型中作為隨機效控制關聯結果的假陽性。在TASSEL中,基于分子標記,獲得親緣關系矩陣有兩種方法,一種是計算Distance Matrix(Analysis -- Distance Matrix),另一種是計算Kinship(Analysis -- Kinship),兩種途徑獲得的結果都可以用于關聯分析,沒有說非要用哪一種才是最好的。
我們以計算Kinship為例,操作圖示如下,OK以后即可得到結果。
第四步 關聯分析
獲得Q矩陣,K矩陣后,導入性狀數據,我們就可以進行關聯分析了,關聯分析之前,我們需要將基因型、性狀、Q矩陣合并:按Ctrl鍵,鼠標依次選擇基因型列表、樣本在前5個PC的得分矩陣、性狀列表,選擇Data--Intersect jion完成合并。
終于進入正題了,下面的操作將教會大家如何用TASSEL完成GLM和MLM/CMLM的關聯分析。
GLM:選中性狀+基因型+PC列表;Analysis--Genotype/Phenotype Association--GLM;選擇輸出路徑,填寫輸出文件名,然后點擊OK即可。
MLM/CMLM:選中性狀+基因型+PC列表和親緣關系列表,Analysis--Genotype/Phenotype Association--GLM;選擇輸出路徑,填寫輸出文件名,然后點擊Okay即可。
結果如下
第五步 繪圖展示
把結果文件導入TASSEL中,選中導入的文件,Results--Manhattan plo/QQ plot即可繪出相關圖形(TASSEL自帶繪圖功能畫出來的圖,小編真心覺得挺丑);想知道漂亮的圖怎么畫出來的嗎,請參加今天下午的直播課程吧,小編手把手教你,包教包會。
通過上面的學習,相信大家已經學會了都動植物經典關聯分析軟件TASSEL的使用,以上展示的是該軟件界面版的使用方法,界面版的軟件在數據量比較小的時候操作起來比較順暢,但是,如果數據量比較大的話,界面版的可能hold不住了,這時您可能想起要用命令行版的,那命令行版該怎么使用呢,請參加下午四點半的直播培訓,我們一一為您講解。
TASSEL目前只能實現GLM/MLM/CMLM三種模型,其他常用模型如EMMAX、FaST-LMM(樣本間親緣關系對結果的影響比較大的時候建議選擇這兩種模型)等的使用方法以及GAPIT、Admixture軟件的使用方法,請看百邁客云課堂GWAS生信專題培訓班的內容(http://live.biocloud.net/course/21)。
想要參加今天下午的直播培訓的老師們,請下載演示數據,鏈接: https://pan.baidu.com/s/1nv9TFM5 密碼: up8d;并提前配置好Java環境,安裝好以下軟件:
STRUCTURE:https://web.stanford.edu/group/pritchardlab/structure.html
CLUMMP:https://rosenberglab.stanford.edu/clumpp.html
R:https://www.r-project.org/
Pophelper:http://royfrancis.github.io/pophelper/
CMplot:https://github.com/YinLiLin/R-CMplot返回搜狐,查看更多
責任編輯:
總結
以上是生活随笔為你收集整理的tassel软件使用linux,【技术干货】动植物GWAS经典软件TASSEL的使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对存储还搞不清楚,先看看这篇文章-从51
- 下一篇: 越老越值钱,除了程序员!