NGS基础 - 参考基因组和基因注释文件
參考基因組和基因注釋文件獲取
通常測序生成的reads要與參考基因組或參考轉錄組進行比對,或Pseudo-alignment。所以首先需要獲取參考基因組和參考轉錄組信息。
Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齊全的參考基因組和GTF文件下載網站。
下圖列出了幾個常用動物物種的DNA序列和GTF格式的基因組注釋。
Ensembl提供的參考基因組有2種組裝形式和3種重復序列處理方式, 分別是primary, toplevel和unmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般選擇dna.primary或dna_sm.primary。
-
為什么選擇Primary
Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is **b****est used for performing sequence similarity searches **where patch and haplotype sequences would confuse analysis.
-
為什么不選擇masked
Masked基因組是指所有重復區和低復雜區被N代替的基因組序列,這樣比對時就不會有reads比對到這些區域。
一般不推薦用masked的基因組,因為它造成了信息的丟失,由此帶來的一個問題是uniquely比對到masked基因組上的reads實際上可能不是unique的。而且masked基因組還會帶來比對錯誤,使得在允許錯配的情況下,本來來自重復區的reads比對到基因組的其它位置。
另外檢測重復區和低復雜區的軟件不可能是完美的,這就造成遮蓋住的重復序列和低復雜區并不一定是100%準確和敏感的。
soft-masked基因組是指把所有重復區和低復雜區的序列用小寫字母標出的基因組,由于主要的比對軟件,比如BWA、bowtie2等都忽略這些soft-mask,直接把小寫字母當做大寫字母比對,所以使用soft-masked基因組的比對效果和使用unmasked基因組的比對效果是相同的。
基因注釋GTF文件在分析轉錄組數據時會用到,也從這獲取,GTF文件的解釋見文件格式部分。
ENSEMBL的基因注釋文件與GeneCode(http://www.gencodegenes.org/)V26版本一致。
ENSEMBL中基因組和GTF文件中染色體的名字都沒有添加chr,最好收到添加,以保持與UCSC或下游操作一致。(本地安裝UCSC基因組瀏覽器)
下載基因功能和結構注釋信息
ENSEMBL數據庫的**BioMart **(http://www.ensembl.org/biomart/martview)工具為下載基因的功能信息、序列信息、結構信息、ID的轉換等提供了很大的便利。
注意在BioMart的Attribute選項里如果選擇了蛋白相關的選項,得到的結果中只有蛋白編碼基因的信息。如果要下載所有基因信息,請不要選擇蛋白相關的選項。
具體使用如下,下載基因相關信息,首先選擇Ensembl Genes 89數據集
以Human為例,選擇Human genes (GRCh38.p10)
如果下載全部的基因信息,Filters部分可以略過不填。如果只想下載比如說某個GO通路的基因或給定列表的基因信息,可以在Filters中指定對應的GO ID。
Attribute中包含基因的名字、位置、注釋、在不同數據庫中的名字、GO注釋、KEGG注釋、功能域信息等,按需選擇下載。
選擇好后,點擊Results,獲取結果。
Export al results to選擇存儲到文件中。如果特別大,而自己網速又比較慢,可以選擇通過郵件發送下載鏈接。
也可以通過Biomart提取基因結構信息,比如5’ UTR、3’ UTR、外顯子、內含子的坐標等。
Biomart下載很方便,但一個點擊也比較麻煩,可以看到截圖中存在XML按鈕,點擊打開看到選擇的下載信息都記錄在了這個文件中。
使用wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query= + XML中的內容 (調整為一行,并且行尾加一個單引號)即可反復使用。如果想換一個物種,只需修改對應的Dataset name即可。Linux命令系統學習見生信寶典文章集錦。
總結
以上是生活随笔為你收集整理的NGS基础 - 参考基因组和基因注释文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 诺奖奖金为何119年还没发完?
- 下一篇: 2020 年诺贝尔生理奖授予丙肝病毒的3