gff3转mysql_科学网-把GFF3文件导入MySQL数据库-闫双勇的博文
什么是GFF3?這個一種序列注釋文件的格式,基因組注釋數(shù)據(jù)常常會用這種格式來記錄序列注釋信息,關于這種格式的更多信息,可以在這里學習:http://www.sequenceontology.org/gff3.shtml
這里簡單說下,怎樣把GFF3文件導入MySQL數(shù)據(jù)庫,導入了以后使用比較方便。我用的是ubuntu 14.04系統(tǒng)。如果使用其它系統(tǒng)的,僅供參考。系統(tǒng)需要安裝MySQL數(shù)據(jù)庫以及bioperl,關于bioperl有興趣的朋友可以到這里序列(www.bioperl.org),關于perl和MySQL這里也提供點我云盤里的參考資料:http://yunpan.cn/cK3zPydGY6c7Q (提取碼:36ad)
1 在MySQL數(shù)據(jù)庫中建立一個用于儲存GFF3格式數(shù)據(jù)的數(shù)據(jù)庫
mysql> create database MUS_7 -u root -p ?XXXXXXXX;
其中create database是MySQL中的命令,MUS_7是新建的數(shù)據(jù)庫名,-u選項,表示用戶名,用戶名參數(shù)為root,-p 參數(shù)后接MySQL數(shù)據(jù)庫的密碼。這樣就能建立一個名為MUS_7的數(shù)據(jù)庫
2 將GFF3文件導入MySQL數(shù)據(jù)庫中
從網(wǎng)上下載GFF3格式的文件,如從rice_r7_all_tilling_path.gff3,然后用下列命令導入MySQL數(shù)據(jù)庫
bp_seqfeature_load -f ? -c -d MUS_r7 -u root -p xxxxxxxx all.gff3 all.con
bp_seqfeature_load是一個腳本文件,所以系統(tǒng)中需要有這個腳本文件。關于這個腳本的用法可以用命令bp_seqfeature_load查詢。-f選項的含義:
Activate fast loading. (default 0) Only available for some adaptors.
-c選項的含義:
Create the database and reinitialize it (default false) Note, this
will erase previous database contents, if any
如果是新建的數(shù)據(jù)庫需要用這個選項,如果是往已有的數(shù)據(jù)庫中添加數(shù)據(jù),用這個選項就壞菜了,把原來數(shù)據(jù)都清除了
-d MUS_r7,表示導入的數(shù)據(jù)庫為MUS_r7,-u -p及后面的參數(shù)和上文含義相同。all.gff3為GFF3文件。all.com,為和gff3文件對應的參考序列。這個得配套,要不然肯定會報錯。
我傳的all.gff3文件大小為:78M,all.con文件為:365M。文件比較大,要把這些東西都傳上去,得花不少時間,總時間為:63245.07秒,17.5小時。插入后的效果圖如下。
我的MySQL數(shù)據(jù)庫中有三套水稻基因組的注釋數(shù)據(jù)。這三套數(shù)據(jù),參考序列都是一樣的,但注釋數(shù)據(jù)則不一樣,所以對同一個水稻基因組序列,利用這三套數(shù)據(jù)同時分析,可能得到的信息會更多。當然,這個數(shù)據(jù)也可以和其它數(shù)據(jù),如全基因組的多態(tài)信息進行整合,這樣使用更加方便
轉載本文請聯(lián)系原作者獲取授權,同時請注明本文來自閆雙勇科學網(wǎng)博客。
收藏
分享
分享到:
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結
以上是生活随笔為你收集整理的gff3转mysql_科学网-把GFF3文件导入MySQL数据库-闫双勇的博文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何生成全局唯一标识
- 下一篇: OAuth1.0介绍