gtf文件学习+读取
轉(zhuǎn)自:https://blog.csdn.net/sinat_38163598/article/details/72851239
1.基本
GFF和GTF是兩種最常用的數(shù)據(jù)庫注釋格式,基因注釋文件。
GFF全稱為general feature format,這種格式主要是用來注釋基因組。
GTF全稱為gene transfer format,主要是用來對(duì)基因進(jìn)行注釋,對(duì)染色體上的基因進(jìn)行標(biāo)注。
//我這里關(guān)注的主要是GTF文件。
2.格式
以tab鍵分割為9列:
seq_id:序列的編號(hào);
source: 注釋的來源,一般為數(shù)據(jù)庫或者注釋的機(jī)構(gòu);
type: 注釋信息的類型,比如Gene、cDNA、mRNA、CDS等
start:該基因或轉(zhuǎn)錄本在參考序列上的起始位置
end: 該基因或轉(zhuǎn)錄本在參考序列上的終止位置
score: 得分,數(shù)字,是注釋信息可能性的說明
strand: 該基因或轉(zhuǎn)錄本位于參考序列的正鏈(+)或負(fù)鏈(-)上;
3.讀取gtf格式文件查看
https://www.jianshu.com/p/a5a23f926931,按照這個(gè)方法讀取時(shí)遇到了問題:
嘗試用read.csv打開也失敗:
太不順利了吧,這都能被卡住,
https://www.gitmemory.com/issue/kvittingseerup/IsoformSwitchAnalyzeR/83/719484994,這個(gè)鏈接中提出來的問題和我的類似,也是需要讀取到gtf文件,它的R版本是4.0.3,我的也是4.0版本的R,所以是否有可能是R版本的問題導(dǎo)致對(duì)應(yīng)包中的函數(shù)不可用了?
https://hwoihann.github.io/farnorth/analysis/2018/03/30/R-gtf-refGenome.html,這個(gè)鏈接中提到可以使用refGenome,但是
https://cran.r-project.org/web/packages/refGenome/index.html,發(fā)現(xiàn)已經(jīng)被移除。
使用
install.packages("refGenome")
BiocManager::install("refGenome")
安裝,均不可。
可能性2:gtf文件存在問題,所以重新下載。
https://www.gencodegenes.org/mouse/,在這里下載了最新版的,并且解壓:
并且我嘗試導(dǎo)入
library(rtracklayer)
報(bào)出以下錯(cuò)誤:
https://stackoverflow.com/questions/63958678/error-in-unloadnamespacepackage-namespace-rlang-is-imported-by-testthat,搜索相似問題,其中一個(gè)回復(fù):
之后我就嘗試在命令行而不是Rstudio上操作,先卸載了這個(gè)包,然后安裝,雖然出現(xiàn)了這個(gè)問題:
Installation path not writeable, unable to update packages: codetools,但是我嘗試不更新n所有包,之后library居然可以了,而且可以正常讀取。
之后我重啟Rstudio
.rs.restartR()
就可以讀取gtf文件了。
看來以后安裝包的操作都應(yīng)該在命令行進(jìn)行,而不是Rstudio。
4.查看GTF文件內(nèi)容
https://www.jianshu.com/p/a5a23f926931,基序按照這個(gè)來讀取
最新版的相較于之前有了很多新的描述信息,比如基因id,基因名稱等等。共有26個(gè)特征。
總結(jié)
以上是生活随笔為你收集整理的gtf文件学习+读取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 验证数字证书的有效性
- 下一篇: Bullet 学习笔记之 btSoftB