蛋白质组学
蛋白質(zhì)組學(xué)
蛋白質(zhì)是生物體的重要組成部分,參與幾乎所有生理和細(xì)胞代謝過(guò)程。此外,與基因組學(xué)和轉(zhuǎn)錄組學(xué)比較,對(duì)一個(gè)細(xì)胞或組織中表達(dá)的所有蛋白質(zhì),及其修飾和相互作用的大規(guī)模研究稱(chēng)為蛋白質(zhì)組學(xué)。
蛋白質(zhì)組學(xué)通常被認(rèn)為是在基因組學(xué)和轉(zhuǎn)錄組學(xué)之后,生物系統(tǒng)研究的下一步。然而,蛋白質(zhì)組的研究遠(yuǎn)比基因組學(xué)復(fù)雜,這是由于蛋白質(zhì)內(nèi)在的復(fù)雜特點(diǎn),如蛋白質(zhì)各種各樣的翻譯后修飾所決定的。并且,研究基因組學(xué)的技術(shù)要比研究蛋白質(zhì)組學(xué)的技術(shù)強(qiáng)得多,雖然在蛋白質(zhì)組學(xué)研究中,質(zhì)譜技術(shù)的研究已取得了一些進(jìn)展。
盡管存在方法上的挑戰(zhàn),蛋白質(zhì)組學(xué)正在迅速發(fā)展,并且對(duì)癌癥的臨床診斷和疾病治療做出了重要貢獻(xiàn)。幾項(xiàng)研究鑒定出了一些蛋白質(zhì)在乳腺癌、卵巢癌、前列腺癌和食道癌中表達(dá)變化。例如,通過(guò)蛋白質(zhì)組學(xué)技術(shù),人們可以在患者血液中明確鑒定出腫瘤標(biāo)志物。表1列出了更多的蛋白質(zhì)組學(xué)技術(shù)用于研究癌癥的例子。
另外,高爾基體功能復(fù)雜。最新研究表明,它除了參與蛋白加工外,還能參與細(xì)胞分化及細(xì)胞間信號(hào)傳導(dǎo)的過(guò)程,并在凋亡中扮演重要角色,其功能障礙也許和腫瘤的發(fā)生、發(fā)展有某種聯(lián)系。根據(jù)人類(lèi)基因組研究,約1000多種人類(lèi)高爾基體蛋白質(zhì)中僅有500~600種得到了鑒定,建立一條關(guān)于高爾基體蛋白質(zhì)組成的技術(shù)路線將有助于其功能的深入研究。
蛋白質(zhì)組學(xué)是一種有效的研究方法,特別是隨著亞細(xì)胞器蛋白質(zhì)組學(xué)技術(shù)的迅猛發(fā)展,使高爾基體的全面研究變?yōu)榭赡堋R虼搜芯咳藛T希望能以胃癌細(xì)胞中的高爾基體為研究對(duì)象,通過(guò)亞細(xì)胞器蛋白質(zhì)組學(xué)方法,建立胃癌細(xì)胞中高爾基體的蛋白質(zhì)組方法學(xué)。
研究人員采用蔗糖密度梯度的超速離心方法分離純化高爾基體,雙向凝膠電泳(2-DE)分離高爾基體蛋白質(zhì),用ImageMaster 2D軟件分析所得圖譜,基質(zhì)輔助激光解吸離子化飛行時(shí)間質(zhì)譜(MALDI-TOF MS)鑒定蛋白質(zhì)點(diǎn)等一系列亞細(xì)胞器蛋白質(zhì)組學(xué)方法建立了胃癌細(xì)胞內(nèi)高爾基體的蛋白圖譜。
最后,人們根據(jù)分離出的純度較高的高爾基體建立了分辨率和重復(fù)性均較好的雙向電泳圖譜,運(yùn)用質(zhì)譜技術(shù)鑒定出12個(gè)蛋白質(zhì),包括蛋白合成相關(guān)蛋白、膜融合蛋白、調(diào)節(jié)蛋白、凋亡相關(guān)蛋白、運(yùn)輸?shù)鞍缀图?xì)胞增殖分化相關(guān)蛋白。通過(guò)亞細(xì)胞器分離純化、雙向電泳的蛋白分離及MALDI-TOF MS蛋白鑒定分析,研究人員首次成功建立了胃癌細(xì)胞SGC7901中高爾基體的蛋白質(zhì)組學(xué)技術(shù)路線。
?
3.1 蛋白質(zhì)功能預(yù)測(cè)工具[2]
也許生物信息學(xué)方法在癌癥研究中最常用的就是基因功能預(yù)測(cè)方法,但是這些數(shù)據(jù)庫(kù)只存儲(chǔ)了基因組的大約一半基因的功能。為了在微陣列資料基礎(chǔ)上完成功能性的富集分析,基因簇的功能注解是非常重要的。近幾年生物學(xué)家研發(fā)了一些基因功能預(yù)測(cè)的方法,這些方法旨在超越傳統(tǒng)的BLAST搜索來(lái)預(yù)測(cè)基因的功能。基因功能預(yù)測(cè)可以以氨基酸序列、三級(jí)結(jié)構(gòu)、與之相互作用的配體、相互作用過(guò)程或基因的表達(dá)方式為基礎(chǔ)。其中最重要的是基于氨基酸序列的分析,因?yàn)檫@種方法適合于微陣列分析的全部基因。
在表3中,前三項(xiàng)列舉了三種同源搜索方法。FASTA方法雖然應(yīng)用還不太廣泛,但它要優(yōu)于BLAST,或者至少相當(dāng)。FASTA程序是第一個(gè)使用的數(shù)據(jù)庫(kù)相似性搜索程序。為了達(dá)到較高的敏感程度,程序引用取代矩陣實(shí)行局部比對(duì)以獲得最佳搜索。美國(guó)弗吉尼亞大學(xué)可以提供這項(xiàng)程序的地方版本,當(dāng)然數(shù)據(jù)庫(kù)搜索結(jié)果依賴(lài)于要搜索的數(shù)據(jù)庫(kù)序列。如果最近的序列數(shù)據(jù)庫(kù)版本在弗吉尼亞大學(xué)不能獲得,那么就最好試一下京都大學(xué)(Kyoto University)的KEGG站點(diǎn)。PSI-BLAST(位點(diǎn)特異性反復(fù)BLAST)是BLAST的轉(zhuǎn)化版本,PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫(kù)后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫(kù),將獲得的序列通過(guò)多序列比對(duì)來(lái)構(gòu)建第一個(gè)profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效地找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服務(wù)可以在NCBI的BLAST主頁(yè)上找到,還可以從NCBI的FTP服務(wù)器上下載PSI-BLAST的獨(dú)立程序。在檢查PSI-BLAST的搜索輸出時(shí),也有一些注意事項(xiàng),因?yàn)榧俚钠ヅ溆涗浐苋菀孜廴痉治鼋Y(jié)果。
?
表3 蛋白質(zhì)功能預(yù)測(cè)工具[2]
| 預(yù)測(cè)工具 | 類(lèi)型 | 所在地 | 網(wǎng)站 |
| BLAST | 同源搜索 | NCBI:美國(guó)國(guó)立生物技術(shù)信息中心;NIH:美國(guó)國(guó)家醫(yī)學(xué)研究院 | http://www.ncbi.nlm.nih.gov/BLASTselect protein-protein BLAST |
| FASTA | 同源搜索 | 美國(guó)弗吉尼亞大學(xué)、日本京都大學(xué) | http://fasta.bioch.virginia.eduhttp://fasta.genome.jp/ |
| PSI-BLAST | 同源搜索 | NCBI:美國(guó)國(guó)立生物技術(shù)信息中心;NIH:美國(guó)國(guó)家醫(yī)學(xué)研究院 | http://www.ncbi.nlm.nih.gov/BLASTselect “PSI- and PHI-BLAST” |
| Pfam | 蛋白質(zhì)家族鑒定 | 華盛頓大學(xué) | http://pfam.wustl.edu |
| SMART | 保守結(jié)構(gòu)域搜索 | EMBL:歐洲分子生物學(xué)實(shí)驗(yàn)室 | http://smart.embl-heidelberg.de |
| PROSITE | 功能模體搜索 | 瑞士生物信息研究所 | http://us.expasy.org/prositehttp://motif.genome.ad.jp |
| ELM | 真核生物功能結(jié)構(gòu)域搜索 | ELM 聯(lián)合體 | http://elm.eu.org |
| STRING | 通過(guò)比較基因組學(xué)進(jìn)行功能預(yù)測(cè) | EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室) | http://string.embl.de |
| PSORT | 亞細(xì)胞定位預(yù)測(cè) | 人類(lèi)基因組中心東京大學(xué) | http://www.psort.org |
| PFP | 通過(guò)發(fā)掘PSI-BLAST結(jié)果進(jìn)行功能預(yù)測(cè) | 美國(guó)普渡大學(xué) | http://dragon.bio.purdue.edu/pfp |
?
Pfam數(shù)據(jù)庫(kù)(Protein families database of alignments and HMM, 蛋白質(zhì)家族比對(duì)和HMM數(shù)據(jù)庫(kù))是基于HMM模型(隱馬爾可夫模型)構(gòu)建并拓展起來(lái)的。它實(shí)際上是一個(gè)涵蓋了生物蛋白質(zhì)序列中常見(jiàn)結(jié)構(gòu)域的序列及其相對(duì)應(yīng)的隱馬爾科夫模型的數(shù)據(jù)庫(kù),由英國(guó)的Sanger Institute維護(hù)。Hmmpfam的工作原理簡(jiǎn)單來(lái)說(shuō),就是將用戶(hù)所提交的查詢(xún)序列在Pfam庫(kù)中做比對(duì)計(jì)算,然后預(yù)測(cè)出查詢(xún)序列中所隱含的結(jié)構(gòu)域信息。
表4中描述的三個(gè)數(shù)據(jù)庫(kù)資源——簡(jiǎn)單模塊構(gòu)架搜索工具(simple modular architecture research tool, SMART)、Motif數(shù)據(jù)庫(kù)(PROSITE)以及 ELM是具有不同特點(diǎn)的數(shù)據(jù)模體數(shù)據(jù)庫(kù)。SMART儲(chǔ)存有蛋白質(zhì)家族的保守區(qū)域,可以作為每一個(gè)基因家族的特征標(biāo)記。SMART可以說(shuō)是蛋白結(jié)構(gòu)預(yù)測(cè)和功能分析的工具集合。簡(jiǎn)單點(diǎn)說(shuō),SMART就是集合了一些工具,可以預(yù)測(cè)蛋白的一些二級(jí)結(jié)構(gòu),如跨膜區(qū)(Transmembrane segment)、復(fù)合螺旋區(qū)(coiled coil region)、信號(hào)肽(Signal peptide)和蛋白結(jié)構(gòu)域(PFAM domain)等。另一方面,PROSITE中的序列模體是一些重要的生物學(xué)位點(diǎn),包括功能位點(diǎn)和容易被修飾的位點(diǎn)。ELM是真核生物功能位點(diǎn)數(shù)據(jù)庫(kù)。
PROSITE數(shù)據(jù)庫(kù)是基于多序列比較而得到的單一保守序列片段,或稱(chēng)序列模體。PROSITE數(shù)據(jù)庫(kù)是基于對(duì)蛋白質(zhì)家族中同源序列多重序列比對(duì)得到的保守性區(qū)域,這些區(qū)域通常與生物學(xué)功能有關(guān),例如酶的活性位點(diǎn)、配體或金屬結(jié)合位點(diǎn)等。因此,PROSITE數(shù)據(jù)庫(kù)實(shí)際上是蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫(kù)。通過(guò)對(duì)PROSITE數(shù)據(jù)庫(kù)的搜索,可判斷該序列包含什么樣的功能位點(diǎn),從而推測(cè)其可能屬于哪一個(gè)蛋白質(zhì)家族。Prosite數(shù)據(jù)庫(kù)實(shí)際上包括兩個(gè)數(shù)據(jù)庫(kù)文件:一個(gè)為數(shù)據(jù)文件,即Prosite,該文件給出了能進(jìn)行匹配的序列及序列的詳細(xì)信息;另一個(gè)為說(shuō)明文件,即PrositeDoc。PrositeDoc說(shuō)明文件中給出該序列模式的生物學(xué)功能及其文獻(xiàn)資料來(lái)源。PROSITE數(shù)據(jù)庫(kù)使用正則表達(dá)式來(lái)表示序列模式。
STRING是一個(gè)已知和預(yù)測(cè)基因間功能聯(lián)系的數(shù)據(jù)庫(kù)。STRING一個(gè)有趣的特點(diǎn)是,一個(gè)查詢(xún)序列的功能是利用比較基因組學(xué)方法預(yù)測(cè)的。例如,假設(shè)一個(gè)要查詢(xún)的基因是幾個(gè)基因組中功能已知的基因,這幾個(gè)基因組進(jìn)化上相關(guān),那么預(yù)示著要查詢(xún)的基因與相鄰基因可能涉及相同的途徑或功能。
具有相同的系統(tǒng)發(fā)生的那些基因,或同時(shí)存在和同時(shí)消失的那些基因也預(yù)示著他們的功能是相互聯(lián)系的。SMART也利用微陣列中的共表達(dá)來(lái)分析,用戶(hù)可以利用SMART站點(diǎn)進(jìn)行功能預(yù)測(cè),基因功能之間的聯(lián)系資料也可以免費(fèi)獲得。
PSORT工具可以預(yù)測(cè)基因的亞細(xì)胞定位。從根本上說(shuō),PSORT工具基于其氨基酸序列預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位。它利用機(jī)器將要查詢(xún)蛋白質(zhì)的特殊序列(如信號(hào)肽序列)檢測(cè)和分類(lèi)并定位到已知位置。PSORT II是廣泛使用的蛋白質(zhì)亞細(xì)胞定位分析軟件,通過(guò)輸入的氨基酸序列,能夠預(yù)測(cè)出其在亞細(xì)胞結(jié)構(gòu)中可能的位置。
PFP(蛋白質(zhì)功能預(yù)測(cè))服務(wù)器是最近研發(fā)的。不同于傳統(tǒng)的PSI-BLAST,PFP利用序列采樣數(shù)可以發(fā)掘更多的功能信息。
在列出的蛋白質(zhì)功能預(yù)測(cè)工具中,BLAST、FASTA和Pfam最可靠,但它們無(wú)法提供關(guān)于已經(jīng)儲(chǔ)存在公共數(shù)據(jù)庫(kù)中的已注解基因的更多的信息。其它方法都優(yōu)于上述三種方法,且有更廣的覆蓋率,但是使用時(shí)要小心,因?yàn)橛邢鄬?duì)較高的假采樣。為了避免這種情況發(fā)生,應(yīng)該多采樣幾種方法,檢查獲得結(jié)果的一致性。
?
表4 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具| 預(yù)測(cè)工具 | 類(lèi)型 | 所在地 | 網(wǎng)址 |
| PSIPRED | 二級(jí)結(jié)構(gòu) | 倫敦大學(xué) | http://bioinf.cs.ucl.ac.uk/psipred/ |
| PORTER | 二級(jí)結(jié)構(gòu) | 都柏林學(xué)院 | http://distill.ucd.ie/porter/ |
| SAM-T02 | 二級(jí)結(jié)構(gòu) | 加州大學(xué)圣塔克魯茲分校 | http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html |
| SABLE | 二級(jí)結(jié)構(gòu)和溶劑可接近性 | 美國(guó)辛辛那提兒童研究基金會(huì)兒童醫(yī)院醫(yī)療中心 | http://sable.cchmc.org/ |
| PredictProtein | 二級(jí)結(jié)構(gòu)和其他 | 美國(guó)哥倫比亞大學(xué) | http://cubic.bioc.columbia.edu/predictprotein/ |
| COILS | 2個(gè)或以上的α螺旋組成的超螺旋結(jié)構(gòu)區(qū)域(卷曲螺旋區(qū)域) | 瑞士,EMBnet | http://www.ch.embnet.org/software/COILSform.html |
| GlobPlot | 無(wú)規(guī)則區(qū)域 | 歐洲分子生物學(xué)實(shí)驗(yàn)室 | http://globplot.embl.de/ |
| PONDR | 無(wú)規(guī)則區(qū)域 | 印地安納大學(xué) | http://www.pondr.com/ |
| TMHMM | 跨膜結(jié)構(gòu)域 | 丹麥科技大學(xué) | http://www.cbs.dtu.dk/services/TMHMM-2.0/ |
| HMMTOP | 跨膜結(jié)構(gòu)域 | 匈牙利科學(xué)院 | http://www.enzim.hu/hmmtop/ |
| SWISS-MODEL | 3D結(jié)構(gòu)同源建模法 | 瑞士生物信息研究所 | http://swissmodel.expasy.org |
| HHPred | 3D結(jié)構(gòu)同源建模法 | 馬克斯?普朗克科學(xué)促進(jìn)協(xié)會(huì) | http://protevo.eb.tuebingenmpg.de/toolkit/index.php?view=hhpred |
| MODELLER | 3D結(jié)構(gòu)同源建模法 | 加州大學(xué)舊金山分校 | http://salilab.org/modeller/ |
| FUGUE | 3D結(jié)構(gòu),指認(rèn)方法(線引法或穿線法) | 劍橋大學(xué) | http://www-cryst.bioc.camac.uk/~fugue/ |
| Phyre | 3D結(jié)構(gòu),指認(rèn)方法(線引法或穿線法) | 帝國(guó)理工學(xué)院(倫敦大學(xué)(University of London)的獨(dú)立學(xué)院) | http://www.sbg.bio.ic.ac.uk/~phyre/ |
| SPARKS | 3D結(jié)構(gòu),指認(rèn)方法(線引法或穿線法) | 紐約州立大學(xué)水牛城分校 | http://phyyz4.med.buffalo.edu/hzhou/anonymous-fold-sparks2.html |
| Robetta | 3D結(jié)構(gòu)從頭計(jì)算法(ab initio) | 華盛頓大學(xué) | http://robetta.bakerlab.org/ |
?
3.2 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具
當(dāng)候選基因被選擇出來(lái)通過(guò)微陣列進(jìn)行實(shí)驗(yàn)檢測(cè)時(shí),生物信息學(xué)蛋白質(zhì)預(yù)測(cè)工具就對(duì)設(shè)計(jì)生物化學(xué)實(shí)驗(yàn)非常重要。例如,一個(gè)基因預(yù)測(cè)的二級(jí)結(jié)構(gòu)就對(duì)預(yù)測(cè)結(jié)構(gòu)域很有益處,因?yàn)檫@對(duì)設(shè)計(jì)有限的蛋白質(zhì)水解以鑒定基因的功能區(qū)域非常重要。當(dāng)今二級(jí)結(jié)構(gòu)預(yù)測(cè)算法的準(zhǔn)確率大約75%,足以達(dá)到平常預(yù)測(cè)的要求。表4中列舉了5種二級(jí)結(jié)構(gòu)預(yù)測(cè)工具,它們都利用機(jī)器學(xué)習(xí)的技術(shù)來(lái)識(shí)別大家熟悉的二級(jí)結(jié)構(gòu),如α-螺旋和β-折疊。機(jī)器學(xué)習(xí)就是要使計(jì)算機(jī)能模擬人的學(xué)習(xí)行為自動(dòng)通過(guò)學(xué)習(xí)獲取知識(shí)和技能,不斷改善性能,實(shí)現(xiàn)自我完善。機(jī)器學(xué)習(xí)研究的就是如何通過(guò)識(shí)別和利用現(xiàn)有知識(shí)來(lái)獲取新知識(shí)和新技能。 PSI-PRED、PORTER、SABLE和PredictProtein seartificial利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡(jiǎn)寫(xiě)為ANNs) ,而SAM-T02則利用HMM。 SABLE和 PORTER 被認(rèn)為是這個(gè)領(lǐng)域中最準(zhǔn)確的預(yù)測(cè)工具,它們的準(zhǔn)確率分別可以達(dá)到78.4%和79%。盡管列表中的工具在蛋白質(zhì)預(yù)測(cè)方面準(zhǔn)確率還相對(duì)較低,但這些工具不僅能夠預(yù)測(cè)二級(jí)結(jié)構(gòu),也能夠預(yù)測(cè)其它結(jié)構(gòu)信息,包括混亂區(qū)域、兩個(gè)或兩個(gè)以上的α螺旋組成的超螺旋結(jié)構(gòu)區(qū)域、每個(gè)殘基的可溶解程度以及要搜索序列的模體結(jié)構(gòu),所以他們可以用來(lái)“一步完成”蛋白質(zhì)序列分析。COILS通過(guò)序列中周期出現(xiàn)的疏水殘基來(lái)預(yù)測(cè)蛋白質(zhì)的卷曲螺旋。卷曲螺旋是存在于多種天然蛋白質(zhì)中的結(jié)構(gòu)模式。近年來(lái),人們通過(guò)對(duì)天然蛋白質(zhì)中的卷曲螺旋結(jié)構(gòu)以及根據(jù)已有知識(shí)設(shè)計(jì)合成的卷曲螺旋結(jié)構(gòu)的研究,已基本掌握了這類(lèi)結(jié)構(gòu)模式的特點(diǎn),并將特異的卷曲螺旋結(jié)構(gòu)應(yīng)用于生化分析、工業(yè)和醫(yī)藥衛(wèi)生等領(lǐng)域。GlobPlot和PONDR是預(yù)測(cè)蛋白質(zhì)固有無(wú)規(guī)則區(qū)域的工具,這些區(qū)域的天然構(gòu)象中,沒(méi)有穩(wěn)定的蛋白質(zhì)二級(jí)結(jié)構(gòu)。這些無(wú)規(guī)則區(qū)域的重要性最近才剛剛被人們發(fā)現(xiàn),因?yàn)樗鼈兪呛芏嘀匾墓δ苄晕稽c(diǎn),例如其它蛋白質(zhì)和配體的結(jié)合區(qū)域位于球狀蛋白質(zhì)的結(jié)構(gòu)域的外部,所以本質(zhì)上是沒(méi)有規(guī)則的[3]。
HMMTOP是預(yù)測(cè)蛋白序列的跨膜螺旋與拓?fù)浣Y(jié)構(gòu)工具,TMHMM是預(yù)測(cè)蛋白的跨膜螺旋工具。它們都利用了HMM。跨膜結(jié)構(gòu)域預(yù)測(cè)是生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中應(yīng)用得最成功,HMMTOP預(yù)測(cè)的跨膜蛋白質(zhì)98%的結(jié)構(gòu)域和85%的拓?fù)浣Y(jié)構(gòu)是正確的。且上述這兩種工具是基于網(wǎng)絡(luò)的,HMMTOP也提供本地拷貝[3]。
表5的后面列舉了5種預(yù)測(cè)三級(jí)結(jié)構(gòu)的工具。預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)的方法在最近幾十年中有了較大的改進(jìn),并且有些方法的準(zhǔn)確率已經(jīng)足以應(yīng)用于實(shí)踐[3]。
結(jié)構(gòu)預(yù)測(cè)方法大致分為三類(lèi):
(1) 同源性建模(homology modeling)方法:這類(lèi)方法的理論依據(jù)是,如果兩個(gè)蛋白質(zhì)的序列比較相似,則其結(jié)構(gòu)也有很大可能比較相似。有實(shí)驗(yàn)表明,如果序列相似性高于75%,則可以使用這種方法進(jìn)行粗略的預(yù)測(cè)。這類(lèi)方法的優(yōu)點(diǎn)是準(zhǔn)確度高,缺點(diǎn)是只能處理和模板庫(kù)中蛋白質(zhì)序列相似性較高的情況;
(2) 從頭計(jì)算(Ab initio或de novo) 方法:這類(lèi)方法的依據(jù)是熱力學(xué)理論,即求蛋白質(zhì)能量最小的狀態(tài)。生物學(xué)家和物理學(xué)家等認(rèn)為從原理上講這是影響蛋白質(zhì)結(jié)構(gòu)的本質(zhì)因素。然而由于巨大的計(jì)算量,這種方法并不實(shí)用,目前只能計(jì)算幾個(gè)氨基酸形成的結(jié)構(gòu)。IBM 開(kāi)發(fā)的 Blue Gene 超級(jí)計(jì)算機(jī)就是要解決這個(gè)問(wèn)題;
(3) 穿線法(Threading或fold recognition):由于 Ab Initio 方法目前只有理論上的意義,Homology方法受限于待求蛋白質(zhì)必需和已知模板庫(kù)中某個(gè)蛋白質(zhì)有較高的序列相似性,因此對(duì)于其它大部分蛋白質(zhì)來(lái)說(shuō),有必要尋求新的方法,于是Threading應(yīng)運(yùn)而生。
以上三種方法中,Ab Initio方法不依賴(lài)于已知結(jié)構(gòu),其余兩種則需要已知結(jié)構(gòu)的協(xié)助。通常將蛋白質(zhì)序列和其真實(shí)三級(jí)結(jié)構(gòu)組織成模板庫(kù),待預(yù)測(cè)三級(jí)結(jié)構(gòu)的蛋白質(zhì)序列,則稱(chēng)之為查詢(xún)序列(query sequence)。
SWISS-MODEL和HHPred 是基于網(wǎng)絡(luò)的同源建模工具,HHPred軟件也可以下載。 MODELLER是這一類(lèi)型軟件中應(yīng)用最早和最廣泛的軟件。MODELLER和SWISS-MODEL有同源建模數(shù)據(jù)庫(kù)。接下來(lái)三個(gè)工具FUGUE、Phyre和SPARKS屬于穿線法。穿線法可在數(shù)據(jù)庫(kù)中搜尋和待測(cè)蛋白結(jié)構(gòu)非常匹配的模板蛋白質(zhì)。與同源建模法不同,穿線法中模板蛋白質(zhì)和待測(cè)蛋白質(zhì)明顯的序列相似性并不是必要條件。穿線法可以檢測(cè)一個(gè)數(shù)據(jù)庫(kù)中親緣關(guān)系很遠(yuǎn)的蛋白質(zhì),Z-score作為一個(gè)統(tǒng)計(jì)學(xué)值,可以顯示模板蛋白質(zhì)和待測(cè)蛋白之間的匹配程度,當(dāng)Z-score較低時(shí),就意味著沒(méi)有匹配搜索的結(jié)構(gòu)[3]。
最后,Robetta工具屬于從頭計(jì)算法。它利用從數(shù)據(jù)庫(kù)收集的序列片段來(lái)組裝模型,是一個(gè)自動(dòng)化的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)服務(wù)工具。它由貝克實(shí)驗(yàn)室提供,用于非商業(yè)性質(zhì)的從頭計(jì)算和比較建模[3]。
?
3.3 蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)
表5列出了蛋白質(zhì)之間相互作用(protein-protein interactions, PPI)的數(shù)據(jù)庫(kù)。在過(guò)去的幾年中,有大規(guī)模實(shí)驗(yàn)開(kāi)始研究蛋白質(zhì)之間的相互作用,并且很多相關(guān)資源可以在互聯(lián)網(wǎng)上得到。了解一個(gè)基因編碼蛋白質(zhì)與其它蛋白質(zhì)之間的關(guān)系,對(duì)于推測(cè)這個(gè)基因發(fā)揮功能所需的背景關(guān)系具有重要意義。BIND(biomolecular interaction network database)數(shù)據(jù)庫(kù)是BOND(biomolecular object network databank)數(shù)據(jù)庫(kù)的一個(gè)子數(shù)據(jù)庫(kù),它是現(xiàn)在最大的PPI數(shù)據(jù)庫(kù)。BIND數(shù)據(jù)庫(kù)收錄了1500種生物分子之間的200,000種相互作用的數(shù)據(jù)。這種相互作用不僅包括蛋白質(zhì)之間的相互作用,還包括蛋白質(zhì)與DNA、RNA、小分子、脂質(zhì)以及糖類(lèi)物質(zhì)之間的相互作用。BIND數(shù)據(jù)庫(kù)每日更新、覆蓋面廣,包含人、果蠅、酵母、線蟲(chóng)等物種的PPI[3]。
在 BIND 數(shù)據(jù)庫(kù)中,PPI 被分成 3 大類(lèi):二元分子相互作用(binary interaction) 、分 子 復(fù) 合 物(molecularcomplexe)以及生物途徑(biological pathway),它們分別從不同層面呈現(xiàn)了分子間的相互作用關(guān)系[3]。
DIP(database of interacting protein)數(shù)據(jù)庫(kù)專(zhuān)門(mén)存儲(chǔ)經(jīng)實(shí)驗(yàn)證實(shí)的來(lái)自文獻(xiàn)報(bào)道的二元 PPI,以及來(lái)自 PDB(protein data bank)數(shù)據(jù)庫(kù)的蛋白質(zhì)復(fù)合物。目前DIP收錄了18,000種相互作用的數(shù)據(jù),DIP的目的在于建立一個(gè)簡(jiǎn)單、易用、高度可信的PPI公共數(shù)據(jù)庫(kù)[3]。
MIPS(mammalian protein-protein interactiondatabase)數(shù)據(jù)庫(kù)同樣利用文獻(xiàn)挖掘技術(shù),專(zhuān)門(mén)存儲(chǔ)哺乳動(dòng)物的PPI,主要包括人、大鼠和小鼠等物種。該數(shù)據(jù)庫(kù)詳細(xì)記錄了蛋白質(zhì)相互作用的類(lèi)型、實(shí)驗(yàn)證據(jù)及其結(jié)合位點(diǎn)。同時(shí),它還提供蛋白質(zhì)名稱(chēng)、實(shí)驗(yàn)方法和物種等多種查詢(xún)方式[3]。
HPRD(human protein reference database)數(shù)據(jù)庫(kù)是包含蛋白質(zhì)注釋、PPI、轉(zhuǎn)錄后修飾和亞細(xì)胞定位等多種信息的綜合數(shù)據(jù)庫(kù)[3]。
IntAct也是一個(gè)存儲(chǔ)和分析生物分子間相互作用的公共數(shù)據(jù)庫(kù)。它主要記錄二元相互作用及其實(shí)驗(yàn)方法、實(shí)驗(yàn)條件和相互作用結(jié)構(gòu)域,包括人、酵母、果蠅和大腸桿菌等物種。 IntAct 數(shù)據(jù)庫(kù)分為基本查詢(xún)和高級(jí)查詢(xún):基本查詢(xún)可以根據(jù)蛋白質(zhì)名稱(chēng)、PubMedID等進(jìn)行簡(jiǎn)單搜索;高級(jí)查詢(xún)根據(jù)實(shí)驗(yàn)方法和IntAct自定義的控制詞匯進(jìn)行查詢(xún)。GRID存儲(chǔ)了酵母、果蠅和線蟲(chóng)的遺傳和生理作用。Osprey蛋白質(zhì)相互作用網(wǎng)絡(luò)可視化系統(tǒng)是加拿大多倫多大學(xué)一個(gè)生物信息學(xué)研究組開(kāi)發(fā)的,其目的在于更好地研究蛋白質(zhì)相互作用網(wǎng)絡(luò)和蛋白質(zhì)復(fù)合物[3]。
表5 蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)工具| 工具 | 類(lèi)型 | 所在地 | 網(wǎng)址 |
| BIND | 蛋白質(zhì)-蛋白質(zhì)相互作用途徑 | 加拿大多倫多西乃山醫(yī)院 | http://bind.ca/ |
| DIP | 蛋白質(zhì)-蛋白質(zhì)相互作用 | 加州大學(xué)洛杉磯分校 | http://dip.doe-mbi.ucla.edu/ |
| MIPS | 哺乳動(dòng)物的蛋白質(zhì)-蛋白質(zhì)相互作用 | 慕尼黑蛋白質(zhì)序列信息中心 | http://mips.gsf.de/proj/ppi/ |
| HPRD | 人類(lèi)蛋白質(zhì)參考資源 | 美國(guó)約翰霍普金斯大學(xué) | http://www.hprd.org/ |
| GRID | 酵母、果蠅和線蟲(chóng)的遺傳和生理作用 | 加拿大多倫多西乃山醫(yī)院 | http://biodata.mshri.on.ca/grid/ |
| IntAct | 蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)的db系統(tǒng)和工具的開(kāi)發(fā)資源 | 歐洲生物信息學(xué)中心 | http://www.ebi.ac.uk/intact/ |
| Ospray | 蛋白質(zhì)相互作用的可視化工具 | 加拿大多倫多西乃山醫(yī)院 | http://biodata.mshri.on.ca/osprey/ |
總結(jié)
- 上一篇: 计算机认知矫正发展史,计算机认知矫正疗法
- 下一篇: 开关电源如何布置