经典工具 | 使用SIFT预测错义突变的有害性
SIFT
? ?用計算機替代人預測復雜事件的影響,是我們這個時代最令人興奮的科學進展之一。SIFT就是這樣一個應用于基因組學研究的經典工具。
? ?SIFT可預測多種生物體的基因組變異,主要是錯義突變的影響與效應,最大的特點是物種豐富,是一個經典的、普適性的研究工具。
網址1?(官方)
http://sift-dna.org?(偶爾進不去時換個時間或瀏覽器訪問)
開發單位
(1) 新加坡基因組研究所,計算和系統生物學
(2) 美國克雷格·文特爾研究所,基因組醫學
? ?克雷格·文特爾研究所 (J.Craig Venter Institute)成立于2006年10月。通過合并TIGR、TCAG和奎格文特科學基金會等,并為生物能源替代 (IBEA)研究所。
? ?克雷格·文特爾,美國生物學家,被很多人稱為生物學界的“壞小子”,曾經公然挑戰 “國際人類基因組計劃”,并用霰彈槍法為基因測序。來源: Baidu
預測原理
? ?SIFT根據序列同源性和氨基酸的物理特性,預測氨基酸的取代是否影響蛋白質功能。可應用于自然發生的非同義突變 (多態性)和實驗室誘導的錯義突變。
引用文獻
SIFT web server: predicting effects of amino acid substitutions on proteins.?Ngak-Leng Sim, Prateek Kumar, Jing Hu, Steven Henikoff, Georg Schneider, Pauline C. Ng.?Nucleic Acids Research, Volume 40, Issue W1, 1 July 2012, Pages W452–W457, https://doi.org/10.1093/nar/gks539 (文章下載鏈接:https://pan.baidu.com/s/1ky9fh0HCuht0M9ubkasK1w ?提取碼:7bhe)
網址2?(代表性物種預測)
https://sift.bii.a-star.edu.sg/www/SIFT4G_vcf_submit.html
? ?首先需要查看自己研究的生物體是否具有SIFT數據庫,再注釋變異文件 (VCF)。對于常見生物可在線提交VCF文件。
物種范圍
? ?少量具有代表性的動物、植物、真菌、原生生物、原核生物(只有大腸桿菌)。
輸入文件
VCF文件 (8th column "INFO" required)?,大小<5M
提交一個人類的VCF文件?(后文會提交其它物種)
在線預測界面
提交VCF文件
? ?國內SIFT在線預測的體驗不是很好,可能由于網絡原因。等待時間比較長、或直接"趴窩"。本篇后文會介紹本地預測的方法,體驗較好。
網址3?(擴展的SIFT 4G,涉及哪些物種)
https://sift.bii.a-star.edu.sg/sift4g/
? ?需要查看自己研究的生物體是否具有SIFT數據庫,再注釋變異文件 (VCF)。
SIFT Databases
? ?如果您研究的物種沒有被下表列出,可以創建自己的SIFT預測數據庫。
Common Name | Scientific Name |
African bush elephant (非洲叢林象) | Loxodonta africana |
African malaria mosquito | Anopheles gambiae |
African rice | Oryza glumaepatula |
Alpaca | Vicugna pacos |
Amebiasis protozoan parasite?* | Entamoeba histolytica |
Amborella trichopoda | Amborella trichopoda |
American pika** | Ochotona princeps |
Anthracnose fungus (炭疽菌) | Colletotrichum gloeosporioides |
Arabidopsis (擬南芥) | Arabidopsis thaliana |
Asian rice (亞洲稻) | Oryza sativa |
Aspergillus (曲霉菌) | Aspergillus clavatus |
Aspergillus | Aspergillus flavus |
Aspergillus | Aspergillus fumigatus |
Aspergillus | Aspergillus nidulans |
Aspergillus | Aspergillus niger |
Aspergillus | Aspergillus terreus |
Atlantic cod | Gadus morhua |
Bakarae and foot rot disease fungus | Fusarium fujikuroi |
Barley | Hordeum vulgare |
Barrel clover | Medicago truncatula |
Black cottonwood | Populus trichocarpa |
Blackleg fungus | Leptosphaeria maculans |
Bigelowiella natans** | Bigelowiella natans |
Blind cave tetra | Astyanax mexicanus |
Blood fluke* | Schistosoma mansoni |
Bottlenose dolphin** | Tursiops truncatus |
Bovine | Bos taurus |
Brown bread rice (糙米) | Oryza rufipogon |
Cat | Felis catus |
Campion anther smut | Microbotryum violaceum |
Candida lipolytica | Yarrowia lipolytica |
Carolina anole | Anolis carolinensis |
Chicken | Gallus gallus |
Chinese cabbage | Brassica rapa |
Chinese softshell turtle | Pelodiscus sinensis |
Chimpanzee | Pan troglodytes |
Collared flycatcher | Ficedula albicollis |
Comb jelly | Mnemiopsis leidyi |
Common marmoset | Callithrix jacchus |
Common shrew** | Sorex araneus |
Crucifer anthracnose fungus | Colletotrichum higginsianum |
Cucumber anthracnose fungus | Colletotrichum orbiculare |
Diplogastrid nematode | Pristionchus pacificus |
Dog | Canis familiaris |
Dothistroma needle blight | Dothistroma septosporum |
E.coli | Escherichia coli |
Encapsulated yeast* | Cryptococcus neoformans |
Eremothecium gossypii | Ashbya gossypii |
European centipede | Strigamia maritima |
European hedgehog | Erinaceus europaeus |
Eye worm | Loa loa |
Ferret (雪貂) | Mustela putorius furo |
Filarial nematode worm* | Brugia malayi |
Fission yeast (裂變酵母) | Schizosaccharomyces japonicus |
Fission yeast | Schizosaccharomyces cryophilus |
Fission yeast | Schizosaccharomyces octosporus |
Fission yeast | Schizosaccharomyces pombe |
Fly | Drosophila ananassae |
Fly | Drosophila erecta |
Fly | Drosophila grimshawi |
Fly | Drosophila melanogaster |
Fly | Drosophila mojavensis |
Fly | Drosophila persimilis |
Fly | Drosophila pseudoobscura |
Fly | Drosophila sechellia |
Fly | Drosophila simulans |
Fly | Drosophila virilis |
Fly | Drosophila willistoni |
Fly | Drosophilia yakuba |
Foxtail millet | Setaria_italica |
Freshwater leech | Helobdella robusta |
Fusarium vascular wilt | Fusarium oxysporum |
Gaint panda | Ailuropoda melanoleuca |
Gemmiferous Spikemoss | Selaginella moellendorffii |
Gorilla | Gorilla gorilla |
Grape seed | Vitis vinifera |
Green alga* | Chlamydomonas reinhardtii |
Green Monkey | Chlorocebus_sabaeus |
Grey mouse lemur | Microcebus murinus |
Grey short-tailed opossum | Monodelphis domestica |
Guinea pig | Cavia porcellus |
Guillardia theta** | Guillardia theta |
Hoffmann's two-toed sloth | Choloepus hoffmanni |
Honey bee | Apis mellifera |
Horse | Equus caballus |
Human | Homo sapiens |
Humpbacked fly | Megaselia scalaris |
Indian rice | Oryza indica |
Indian wild rice* | Oryza nivara |
Japanese rice fish | Oryzias latipes |
Jewel wasp | Nasonia vitripennis |
Kangaroo rat** | Dipodomys ordii |
Kentucky bluegrass fungus | Magnaporthe poae |
Large flying fox** | Pteropus vampyrus |
Leaf cutter ant | Atta cephalotes |
Lesser hedgehog tenrec** | Echinops telfairi |
Little brown bat | Myotis lucifugus |
Lyre-leaved rock-cress | Arabidopsis lyrata |
Maize (玉米) | Zea mays |
Maize ear and stalk rot fungus | Gibberella moniliformis |
Maize anthracnose fungus | Glomerella graminicola |
Maize head smut fungus* | Sporisorium reilianum |
Maize smut* | Ustilago maydis |
Malaria parasite* | Plasmodium falciparum |
Malaria parasite* | Plasmodium vivax |
Monarch Butterfly** | Danaus plexippus |
Mosquito | Anopheles darlingi |
Mountain Pine Beetle | Dendroctonus ponderosae |
Mouse | Mus musculus |
Mycobacterium tuberculosis (結核桿菌) | Mycobacterium tuberculosis |
Mycosphaerella graminicola | Zymoseptoria tritici |
Necrotrophic fungal pathogen | Pyrenophora teres |
Nematode | Onchocerca_volvulus |
Neosartorya fischeri | Neosartorya fischeri |
Nile tilapia | Oreochromis niloticus |
Nine banded armadillo | Dasypus novemcinctus |
Noble rot fungus | Botryotinia fuckeliana |
Northern greater galago | Otolemur garnettii |
Northern white-cheeked gibbon | Nomascus leucogenys |
Orangutan | Pongo abelii |
Oryza_meridionalis (南方野生稻) | Oryza meridionalis |
Owl limpet** | Lottia gigantea |
Pacific transparent sea squirt | Ciona savignyi |
Pacific oyster** | Crassostrea gigas |
Parasite* | Leishmania major |
Peach | Prunus persica |
Perigord black truffle | Tuber melanosporum |
Phaeodactylum tricornutum Bohlin | Phaeodactylum tricornutum |
Philippine tarsier** | Tarsius syrichta |
Pig | Sus scrofa |
Placozoan multicellular animal | Trichoplax adhaerens |
Plant pathogen* | Albugo laibachii |
Plant pathogen | Nectria haematococca |
Plant pathogen* | Pythium irregulare |
Platypus | Ornithorhynchus anatinus |
Polychaete worm** | Capitella teleta |
Poplar leaf rust fungus | Melampsora laricipopulina |
Postman butterfly | Heliconius melpomene |
Potato | Solanum tuberosum |
Potato late blight fungus | Phytophthora infestans |
Powdery mildew | Blumeria graminis |
Primate malaria parasite* | Plasmodium knowlesi |
Puffer fish | Takifugu rubripes |
Purple false brome | Brachypodium distachyon |
Rabbit | Oryctolagus cuniculus |
Rat | Rattus norvegicus |
Red bread mold | Neurospora crassa |
Red flour mite | Tribolium castaneum |
Red imported file ant | Solenopsis invicta |
Red spider mite | Tetranychus urticae |
Rhesus macaque | Macaca mulatta |
Rice blast fungus | Magnaporthe oryzae |
Rock hyrax | Procavia capensis |
Round worm* | Caenorhabditis brenneri |
Round worm* | Caenorhabditis briggsae |
Round worm* | Caenorhabditis remanei |
Round worm | Caenorhabditis elegans |
Sea anemone | Nematostella vectensis |
Sea lamprey | Petromyzon marinus |
Sea squirt | Ciona intestinalis |
Sheep | Ovis aries |
Silkworm | Bombyx mori |
Slime mold | Dictyostelium discoideum |
Snow-rot disease causing pathogen* | Pythium iwayamai |
Sorghum | Sorghum bicolor |
Southern house mosquito | Culex quinquefasciatus |
Southern platyfish | Xiphophorus maculatus |
Soybean | Glycine max |
Soybean stem and root rot agent* | Phytophthora sojae |
Spotted gar | Lepisosteus oculatus |
Spotted green pufferfish | Tetraodon nigroviridis |
Stem rust fungus* | Puccinia_graminis |
Tammar wallaby | Macropus eugenii |
Tasmanian devil | Sarcophilus harrisii |
Termite | Zootermopsis nevadensis |
Thirteen lined ground squirrel | Ictidomys tridecemlineatus |
Three spine stickleback | Gasterosteus aculeatus |
Tomato | Solanum lycopersicum |
Toxoplasmosis protozoan parasite* | Toxoplasma gondii |
Treeshew** | Tupaia belangeri |
Trichinosis causing parasite** | Trichinella spiralis |
Trichoderma virens | Trichoderma virens |
Trichoderma reesei | Trichoderma reesei |
Trypanosomiasis parasite* | Trypanosoma brucei |
Verticillium wilt | Verticillium dahlia |
Water flea* | Daphnia pulex |
West Indian ocean coelacanth | Latimeria chalumnae |
Western clawed frog | Xenopus tropicalis |
Wheat | Triticum urartu |
Wheat and barley crown-rot fungus | Fusarium pseudograminearum |
Wheat and barley take-all root rot fungus | Gaeumannomyces graminis |
Wheat head blight fungus | Gibberella zeae |
Wheat fungal pathogen | Phaeosphaeria nodorum |
Wheat leaf rust** | Puccinia triticina |
Wheat tan spot fungus | Pyrenophora triticirepentis |
White mold | Sclerotinia sclerotiorum |
Wild duck | Anas platyrhynchos |
Wild turkey | Meleagris gallopavo |
Yeast | Komagataella pastoris |
Yeast | Saccharomyces cerevisiae |
Yellow fever mosquito | Aedes aegypti |
Yellow koji mold (黃曲霉菌) | Aspergillus oryzae |
Zebra finch | Taeniopygia guttata |
Zebra fish | Danio rerio |
? ?* 預測的假陽性高 (High false positive error)
? ?**?預測的覆蓋度低
網址4?(多物種、功能增強版的SIFT)?
Annotate variants?with?SIFT?4G
https://sift.bii.a-star.edu.sg/sift4g/AnnotateVariants.html
注:
? ?1. SIFT 4G是其更快版本,能更大規模、為更多物種提供錯義突變的有害性預測。
? ?2. VCF文件必須按染色體和位置排序才能正確注釋。
? ?3. 要下載到該物種的SIFT數據庫 (與bwa、GATK和snpEff等程序使用相同的特定菌株的基因組版本,以及一致的染色體表示方式)。
在Linux命令行完成預測 (略)
https://sift.bii.a-star.edu.sg/sift4g/Commandline.html
? ?由于VCF文件是所有樣本合并后的 (gVCF),因此不太需要在Linux中做批處理。關注后續推文。
在Windows本地完成預測 (Mac略)
Annotate using GUI (Mac/Windows)
1. 下載某物種的SIFT4G數據庫
? ?https://sift.bii.a-star.edu.sg/sift4g/public
? ?如: 結核分枝桿菌
https://sift.bii.a-star.edu.sg/sift4g/public/Mycobacterium_tuberculosis/
2. 下載本地軟件?
? ?如果下載不了,反復多試幾次,并留意是否被瀏覽器攔截:
https://github.com/pauline-ng/SIFT4G_Annotator/raw/master/SIFT4G_Annotator.jar
3. 設置java到環境變量,更正:下圖第5步應下拉,加到Path中
進入高級系統設置
java環境變量設置,以在"Git bash"或"cmd"中啟動java
4. 用"java -jar"運行"SIFT4G_Annotator.jar"
? ?進入"SIFT4G_Annotator.jar"文件所在的文件夾,鼠標右鍵啟動"Git bash"。(或在Windows的cmd命令行寫代碼,注意正確的文件路徑)
在當前目錄中打開"Git bash"程序
5. 輸入以下命令 (用"java -jar"運行"SIFT4G_Annotator.jar" )
java?-version?#?查看環境變量中的java版本 # java version "1.8.0_202" # Java(TM) SE Runtime Environment (build 1.8.0_202-b08) # Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)java?-jar?SIFT4G_Annotator.jar?#?啟動本地版SIFT自動彈出java圖形界面
java命令行啟動圖形界面
6. 讀取文件和數據庫
文件讀取
7. 保存本地SIFT預測結果:
結果保存
? ?結果文件存放在上一層目錄中,即"../SIFT4G_results"?(與工作目錄平級)。
8. 預測前、后的文件對比
? ?預測前VCF文件的變異行數:3559 = 3606-47
? ?預測后VCF文件的變異行數:3559 = 3608-49
VCF頭文件多出兩行:
1. ##SIFT_Threshold: 0.05
2. ##INFO=<ID=SIFTINFO,Number=.,Type=String,Description="SIFT information. Format: Allele|Transcript|GeneId|GeneName|Region|VariantType|Ref_Amino_Acid/Alt_AminoAcid|Amino_position|SIFT_score|SIFT_median|SIFT_num_seqs|Allele_Type|SIFT_prediction">
SIFT注釋文字插入到了INFO列的末尾:
DELETERIOUS: 有毒的、有害的突變
查詢環形密碼子表, Q-Gln / K-Lys
SIFT使用總結?
不再贅述,如下圖:
? ? ? SIFT評估突變有害性的工作流程
獲取本文的全部測試數據
? ?鏈接:https://pan.baidu.com/s/1-bMjndANtjiKtLMXEIs3xw?
? ?提取碼:ysx3 (Author: 宋紅衛)
? ? ? ??
—? ?基本概念?—
外顯子和基因組基本概念(一)
外顯子和基因組基本概念(二)
??蛋白質生物學推介(一)
??蛋白質生物學推介(二)
??蛋白質生物學推介(三)
??蛋白質生物學推介(四)
??蛋白質生物學推介(五)
—? ?文獻解讀? —
一個家系突變分析一篇 SCI | 文章解析
全基因組測序有助于診斷更多的罕見病
整合基因組學和蛋白質結構的致病機制分析
JMG | 基因PRKG2的變異導致骨骼表型異常
JGG?|?LRP6變異與滲出性玻璃體視網膜病變
????基因突變與腦癱風險(Nature Genetic,2020)
? 細菌基因組 | rpoB的插入變異導致高度耐藥性
全外顯子測序顯示COQ8B基因新的純合突變與腎病綜合征有關
IF>10 家系研究 | OGDHL變異導致神經發育譜系疾病,表現為癲癇、聽力與視力障礙等
—? ?數據庫? —
ClinVar數據庫詳解
AlphaFold數據庫簡介
gnomAD數據庫簡介(一)
gnomAD數據庫簡介(二)
國際千人基因組計劃數據庫(一)
國際千人基因組計劃數據庫(二)
????在線人類孟德爾遺傳 (OMIM)數據庫簡介
—? ?期刊? —
人類遺傳學領域期刊速覽
AJHG?| 人類遺傳學領域一流期刊
國產好刊?|?中科院遺傳學一區JGG
—? ?分析技術? —
Sanger測序拼?接
BAM文件格式解讀
Trim Galore軟件詳解
346個基因組可視化工具一網打進!
基因組瀏覽器IGV的安裝和圖形解讀
利用IGV可視化基因組遺傳變異位點
Jalview多序列比對圖中顯示序列標識
蛋白質二級結構、結構域及蛋白修飾預測
多序列比對軟件Jalview的安裝及使用體驗
正常與突變蛋白三維結構模型的繪制與分析
分子結構模擬工具UCSF?Chimera安裝及操作
—? ?分析平臺? —
Linux操作系統結構及常用命令
服務器 | 查看操作系統重啟日志
設置RStudio-Server不頻繁掉線
RStudio-Server安裝和內網穿透要點
Linux服務器的磁盤概念與相關操作 (一)
Linux服務器的磁盤概念與相關操作 (二)
—? ?理論與技術培訓? —
臨床基因組家系數據分析實戰,快速發表SCI文章
轉錄組分析和可視化的正確姿勢你知道了嗎?
—? ?遺傳咨詢? —
遺傳性腎臟病的基因檢測
遺傳咨詢 | 常見病-帕金森病的基因檢測
—? ?政策法規? —
雇人代寫論文是否犯法?
中華人民共和國人類遺傳資源管理條例
—? Tales of Genetics? —
巴黎保姆
60億人,60億組堿基對
一個突變基因保護了歐洲人祖先
高中學歷父親自學基因編輯,看五六百篇論文,自制藥用級化合物救治罕見病兒子!
歡迎咨詢全固態大型云服務器租用
1周內完成家系變異生信分析,盡快推進下游分析
更適合家系全外顯子組
若有服務器亦可免費技術咨詢,提供專業解答
一/二代測序、臨床基因組/外顯子組/轉錄組、遺傳學分析
??
第 3 期臨床基因組家系分析,助力發表Case Report
系統性培訓,一次學會終身會分析,只待新病例
服務器免費1個月,每日答疑,足以完成小家系分析
總結
以上是生活随笔為你收集整理的经典工具 | 使用SIFT预测错义突变的有害性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式驱动开发流程
- 下一篇: 嵌入式驱动开发应具备的三大基础