免疫信息学
http://blog.sciencenet.cn/blog-204973-845856.html
第一節 免疫信息學源流
上個世紀中葉充滿科學傳奇。那不僅是個DNA雙螺旋結構闡明、分子生物學產生與興起的時代,也是系統論、控制論、信息論紛紛形成問世并引起全球廣泛關注的時代,還是電子計算機走進人類社會并產生重要影響的時代。香農發表了《通信的數學理論》,奠定了他信息論之父的地位;維納出版了專著《控制論-關于在動物和機器中控制和通訊的科學》;貝塔朗菲出版了系統論的代表作《一般系統理論:基礎、發展與應用》。信息科學與計算機注定從一開始就與生命科學有著千絲萬縷的聯系。維納專著的標題就有動物一詞,貝塔朗菲本身就是生物學家。也就在那時,計算生物學(ComputationalBiology)、理論生物學(TheoreticalBiology)悄然問世。進入上個世紀八十年代,隨著人類基因組計劃的醞釀與實施,數據驅動的生命科學研究開始橫掃一切,生物信息學應運而生,日新月異,并不斷滲透或應用到生命科學各學科甚至信息科學的一些前沿領域。
免疫學也不例外,生物信息學與免疫學的交叉融合形成了生物信息學的一個分支學科:免疫信息學(immunoinformatics)。俄亥俄州立大學已故外科與病理學系教授、移植免疫學家Charles G. Orosz在本世紀初首先創造了immuno-informatics一詞,并將其定義為研究免疫系統產生、傳遞、處理及存儲信息規律的學科(the study of the principles by which the immune system generates, posts, processes, and stores information)[1, 2]。或許人類偷懶的天性使然,在第239期的諾華基金研討會(Novartis Foundation Symposium)*上,以色列魏茨曼科學院計算機科學與應用數學系的Lee A. Segel教授省掉該詞中間的連字符,immunoinformatics這一詞匯第一次出現在文獻中[3]。在這篇題為“通過擴散信息網絡的擴散反饋控制免疫系統”的文章中,Segel教授在文中寫道[3]:“
免疫系統是研究生物信息處理的絕佳對象。由于免疫系統本身極為有趣,加上它在醫學上的重要性,因此,雖然還有許多研究要做,但免疫系統的硬件相對已研究得較為清楚。在分子水平,顯著的高頻體細胞突變改變了遺傳信息,使B細胞受體更具多樣性。然而,更為吸引我的是在細胞水平,因為我相信,這一水平的規律,不僅決定免疫系統的行為,而且也能用于其它主要的生物系統,以及非生物的分布式自主系統。
脊椎動物擁有許多不同類型免疫細胞,總數可達1018個,卻沒有明顯的老王(Boss)。不同類型的細胞群調動起來對付、攻擊各種病原及毒株。此外,免疫系統也參與傷口愈合、組織重建等其它自身穩定任務。大量被稱為細胞因子的信號分子指導著免疫系統。每種細胞因子具有幾種功能,每種功能受幾種細胞因子的影響。當配體與相應受體結合,通常分泌多種而非一種細胞因子。
這一超級復雜的分布式自主系統是如何確定做什么,何時做,做到何等程度的?我將從各個方面討論這一問題,著重強調信息的作用。我尤其要論證基于細胞因子的擴散信息網絡(diffuse informational network)所起的決定性作用。這樣,我也就回應了Orosz關于免疫信息學(immunoinformatics)關鍵作用的建議。其中,免疫信息學被定義為研究免疫系統產生、傳遞、處理及存儲信息的學科。”
2002年10月,諾華基金會資助下的史上首次免疫信息學研討會在倫敦召開,來自實驗免疫學、理論免疫學、生物信息學等各個領域學者暢所欲言[4]。在這次會議上(即第254期的諾華基金研討會),會議主席德國教授Rammensee提出:免疫信息學可分為硬的、半軟及軟的三個領域,硬領域主要指免疫學相關核酸、多肽序列等數據及數據庫工作,半軟領域指處理免疫數據的方法及各種預測算法、軟件等,軟領域指免疫相關數學模型及其它各類理論免疫學研究[5]。此次研討會迄今,免疫信息學已經過十余年發展,已經成為免疫學、生物信息學、計算機科學相結合的前沿領域。
廣義地講,當前免疫信息學可大體以下兩大領域:
一是人工免疫系統(Artificial Immune System, AIS)及其應用[6, 7]。所謂人工免疫系統是指根據免疫系統的機理、特征、原理開發的人工智能算法與系統,如克隆選擇算法、B細胞算法、陰性選擇算法、樹突狀細胞算法等。人工免疫系統已應用到聚類分類、異常檢測、信息安全、智能優化、圖像處理、機器人控制、網絡數據及文本挖掘等眾多領域。該領域學者主要來自計算機與信息科學背景,模擬免疫機制,構建新的算法來解決各種科學及工程實踐問題。該領域的研究內容從字面上看,非常貼近免疫信息學,源自免疫原理,落腳于信息方法。由于筆者對此領域沒有深入研究,本章也不再贅述。
二是計算免疫學(Computational Immunology)及其應用。所有應用數學、計算機、人工智能、生物信息學方法來處理免疫學數據、分析免疫學問題的研究都屬于計算免疫學,具體內容涵蓋:理論免疫學(TheoreticalImmunology)分析,免疫相關數學模型,各類免疫相關數據庫構建,各種免疫相關預測算法、計算工具、網絡服務及其應用如計算疫苗學(Computational Vaccinology)[8, 9]、反向疫苗學(Reverse Vaccinology)[10, 11]、計算機輔助疫苗設計[12]、計算機輔助抗體設計[13]等。一言以蔽之,用計算的方法解決免疫相關科學或工程實踐問題就是計算免疫學,這也是當前免疫信息學的主流方向[14]。有趣的是,這一方向的工作從字面上看,用“信息免疫學”一詞或許更為貼切,即源自信息學方法,落腳于免疫學問題。本章將結合筆者的科研工作,主要介紹計算免疫學資源及其應用。
第二節 免疫信息學資源
所謂免疫信息學資源,主要是指免疫相關的數據集、數據庫、單機及網絡程序等能夠給用戶解決相關問題提供便利與幫助的數據資料和軟件工具。實驗免疫學家、生物技術企業、咨詢機構等作為這些資源的普通用戶,可能并不太關心相關數據庫如何構建、程序算法細節,但需要了解到哪兒去找特定數據,對于特定問題,什么軟件好用等等。對于生物技術專業的同學——未來生命科學的研究者、生物技術的探索者、生物產業的創業者與經營者、政策的制定者與管理者,亦復如是。本節著重介紹開源、免費、共享、方便的網絡免疫信息學資源。
1、免疫學數據庫
在生物信息學研究中,構建專業的數據庫、高質量的數據集是關鍵的基礎性工作。沒有相應的專業數據支持,后續研究工作無法開展。當然,有了數據仍不夠,還必須有質控標準與措施來保證數據的質量,否則,生物信息學研究就是垃圾進、垃圾出。這就好比實驗生物學研究,必需要有合適的模式生物及獨到可靠的研究材料一樣。
由于生物技術的飛速發展與信息技術的進步,海量的生物數據產生了,這就需要各種類型的數據庫來存儲、管理、檢索各種類型數據,如核酸序列、蛋白序列、空間結構、表達譜芯片、網絡與通路等。大量生物信息學數據庫產生了,如GenBank[15]、UniProt[16]、MMDB[17]、KEGG[18]等。這些數據庫當然也包含了部分免疫學相關數據,但構建專門的免疫學數據庫對免疫學研究而言無疑更為專業與方便。自從1970年第一個免疫學數據庫KABAT誕生以來,大批高度專一或涵蓋廣泛的免疫學數據庫紛紛登場。本節我們重點介紹幾個重要的門戶型綜合數據庫及一些具有歷史意義或特色鮮明的專一型數據庫。
(1)免疫遺傳信息的門戶IMGT[19]
IMGT數據庫最初由Marie-Paule Lefranc (Université Montpellier II, CNRS)創建于1989年,目前已發展成為全球免疫遺傳信息的門戶。IMGT是“免疫遺傳學(ImMunoGeneTics)”的縮寫,目前包括7個子數據庫。這些子數據庫可分為序列數據庫(IMGT/LIGM-DB、IMGT/MH-DB、IMGT/PRIMER-DB、IMGT/CLL-DB),基因數據庫(IMGT/GENE-DB)、結構數據庫(IMGT/3D structure-DB)和單克隆抗體數據庫(IMGT/mAb-DB)。IMGT/LIGM-DB是一個具有詳細注釋的人類和其他脊椎動物免疫球蛋白(IG)與T細胞受體(TCR)的序列數據庫,目前收錄了來自303個物種的16萬多條序列。IMGT/MH-DB是一個人類主要組織相容性復合物(HLA)的專門數據庫,其中包括世界衛生組織HLA系統命名委員會的官方序列;目前,該數據庫服務器主機放在歐洲生物信息學研究所(EBI)。IMGT/PRIMER-DB是標準化的IG和TCR寡核苷酸探針或引物數據庫;目前該數據庫有來自11個物種的1864條記錄。IMGT/PRIMER-DB提供的信息尤其適用于正常和病理情況下的IG和TCR的表達研究、單鏈抗體、噬菌體展示、基因芯片設計。IMGT/CLL-DB是一個新的數據庫,主要收集來自慢性淋巴細胞性白血病患者的IG序列。IMGT/GENE-DB是人類、小鼠、大鼠、家兔IG和TCR基因的數據庫;到目前為止,它收錄了IG和TCR基因2893個、等位基因4139個。IMGT結構數據庫收錄IG、TCR、MHC空間結構及相關信息,目前有2686個記錄。IMGT/mAb-DB收錄已上市及臨床試驗中的單克隆抗體、抗體-受體融合蛋白及其他免疫應用的融合蛋白,目前有單抗272個、抗體-受體融合蛋白18個,共計420個條目。此外,IMGT網站目前還提供了15個與數據庫配套的在線分析工具。IMGT已廣泛用于自身免疫、感染、腫瘤的相關醫學研究、獸醫學研究及抗體生物技術研究中。IMGT的所有資源都可通過其主頁http://www.imgt.org免費使用。
(2)免疫表位信息的門戶IEDB[20]
所謂表位(epitope)就是抗原中能被免疫細胞特異性識別的線性片段或空間構象性結構,是引起免疫應答和免疫反應的基本單位。表位在免疫學基礎與應用研究中具有核心地位,是疫苗、抗體藥物、腫瘤免疫、移植免疫、超敏反應的結構基礎。IEDB是免疫表位數據庫(Immune Epitope DataBase)的縮寫,創建于2003年。IEDB雖然不是最早出現的表位數據庫,但在NIAID的資助下,經過10年的發展,它已毫無疑問地發展成為全球免疫表位信息的門戶。目前IEDB收錄的表位及相關信息涵蓋除腫瘤和HIV以外的99%已發表文獻。文本挖掘程序自動掃描了2200萬多篇PubMed文摘;大量專家對其中13000多篇文獻(含7000多篇感染相關文獻、1000多篇變態反應相關文獻、約4000篇自身免疫相關文獻、1000篇移植免疫相關文獻)進行了人工歸類、信息提取與注釋。到筆者撰寫此節為止,IEDB已提取文獻14718篇,收錄了人類及其它各種動物識別的多肽表位92407個,非多肽表位1831個。IEDB還包含了直接提交及來自FIMM、TopBank等一系列MHC配體數據庫的數據,共有MHC配體(抗原肽)214704條。IEDB收錄的表位不僅數量最多,而且質量最好,包含的表位相關的各種背景信息最為豐富,甚至連實驗細節也不放過。此外,IEDB還提供了一些配套工具用于表位預測與分析[21]。所有IEDB數據及工具均可通過www.immuneepitope.org免費訪問與使用。
(3)免疫多態性數據庫IPD[22]
該數據庫由安東尼.諾南研究所(Anthony Nolan Research Institute)#的HLA信息學小組與歐洲生物信息學研究所緊密合作,創建于2003年,旨在為研究免疫系統基因的多態性提供方便。IPD目前包括MHC、KIR、HPA、ESTDAB等四個子數據庫。IPD-MHC數據庫收錄了大量物種的MHC序列。這些物種包括:家犬、狼、山狗,家貓,僧帽猴、狨猴、梟猴、松鼠猴、絹猴、葉猴、狒狒、獼猴、白眉猴以及其它猴類,倭黑猩猩、黑猩猩、長臂猿、大猩猩、猩猩等。ESTDAB是一個腫瘤細胞系的數據庫。IPD最具特色的是KIR數據庫和HPA數據庫;KIR收錄了人類殺傷細胞免疫球蛋白樣受體(Killer-cell Immunoglobulin-like Receptors, KIR)共614個各等位基因及相應蛋白質的序列;HPA收錄了人類同種異體血小板抗原數據。這些數據庫均可通過http://www.ebi.ac.uk/ipd免費使用。
(4)HIV數據庫
這是第一個面向病原體的數據庫,收錄獲得性免疫缺陷病毒(HIV)的核酸序列、免疫表位、耐藥相關突變及疫苗試驗。其中,HIV分子免疫學數據庫始建于1987年,由洛斯阿拉莫斯國家實驗室開發,最初的目的只是提供一個已知HIV表位的全面列表,包括細胞毒性T細胞表位、輔助性T細胞表位和抗體結合位點。目前這一模式已推廣到其他病原體,如丙型肝炎病毒(Hepatitis C Virus, HCV)和出血熱病毒(Hemorrhagic Fever Viruses,HFV)。HIV數據庫提供了大量分析工具,如表位比對(QuickAlign)、PeptGen、基序檢索(Motif Scan)、序列定位(Sequence Locator)、ELF(Epitope Location Finder)等等。QuickAlign可用于比對表位、功能域或其它任何感興趣的蛋白質區域。PeptGen可創建蛋白質的重疊肽圖譜,有助于多肽設計與表位確定。基序檢索工具可找出蛋白序列中具有某一指定HLA基因型、血清型或超型基序的亞序列。序列定位工具能給出用戶序列相對于HIV參考序列(HXB2)或SIV參考序列(SIVMM239)的位置。整個項目受NIAID資助,所有數據及工具均可通過http://www.hiv.lanl.gov免費獲得或使用。
(5)KABAT數據庫[23]
為了確定抗體序列中的抗原結合部位,著名免疫學家Elvin A Kabat(1914-2000)和他的研究小組于1970年創立了KABAT數據庫;這也是第一個免疫學數據庫。現在的KABAT數據庫包括來自許多物種的IG、TCR、MHC及其它免疫相關分子的序列。一方面,新的序列仍在不斷加入KABAT數據庫;另一方面,該數據庫相關信息分析工具也越來越多,這些工具包括關鍵詞搜索、變異性分析和序列比對等。KABAT數據庫及相應工具曾經可以從http://immuno.bme.nwu.edu免費獲得;但現在只有付費注冊才能使用。2003年以后,該數據庫不再更新,第一個免疫學數據庫就這樣在不適宜的商業模式下成為僵尸數據庫。
(6)SYFPEITHI數據庫[24]
1999年,Hans-Georg Rammensee教授及其同事開發了一個關于MHC配體和基序的數據庫—SYFPEITHI。該數據庫的名字來源于第一個直接測序的天然MHC配體,即SYFPEITHI九肽;該配體洗脫自小鼠P815腫瘤細胞的H-2Kd分子。目前,SYFPEITHI數據庫收錄了來自人類和其他物種(如猿、牛、雞、小鼠等)MHC-I類和II類配體的序列7000多條,基序200多種,所有的數據僅來源于文獻。SYFPEITHI數據庫工具可檢索等位基因、基序、天然配體、T細胞表位、源蛋白質/物種及參考文獻。數據庫與EMBL和PubMed數據庫有超鏈接。SYFPEITHI數據庫提供了一個基于基序打分的表位預測界面,可預測人類及小鼠的多種MHC分子配體,通過www.syfpeithi.de免費在線使用。SYFPEITHI數據庫的脫機版本,可在個人電腦或局域網內使用,但需付費(單機每年3000歐元)。又一個具有歷史意義的數據庫在商業化模式中迷失。
(7)未完待續
從半抗原小分子、佐劑、表位、抗原、變應原到抗體,但凡當前免疫學課本上有的,互聯網往往已有相應數據庫。例如:半抗原數據庫(HaptenDB[25]),佐劑數據庫(Vaxjo[26])表位數據庫(Bcipep[27]、CED[28]),保護性抗原數據庫(Protegen[29])、腫瘤抗原數據庫(TANTIGEN、CIDB[30]),變應原及表位數據庫(ALLERDB[31]、Farrp、InformAll[32, 33]、SDAP[34]),抗體數據庫(SACS[35]、Abysis)等等,不一而足。從紙質版到電子版,從平面文件(flat file)到關系型數據庫,從單機到網絡,免疫學數據庫經過幾十年的發展,種類與數量越來越多,數據庫的容量越來越大,結構也越來越復雜。除了這些數據庫外,免疫學相關的測試數據集(Benchmarks)也是重要的資源。由于篇幅限制,我們不再列舉免疫學數據庫及數據集。好事者,可通過Google等搜索引擎,Nucleic Acids Research、Database及其它專業期刊查詢相關數據庫與數據集。
2.單機軟件與網絡程序
有了數據的支持,理論免疫學家就可以通過數學方法建立理論模型,進行模擬仿真;計算免疫學家則可在此基礎上進行數據挖掘,建立新的算法,或用這些數據訓練人工神經網絡、支持向量機,建立新的預測模型并進行測試、評估與分析。這些模型、仿真、算法及預測器往往最終實現為單機或網絡程序。如前所述,網絡程序已經成為免疫信息學乃至生物信息學軟件開發的大趨勢,但出于數據安全保密等各種考慮,單機軟件仍受一些公司與研究組的青睞。另外一個趨勢是數據庫自帶的分析工具越來越多,數據庫與網絡程序的界限日漸模糊。此外,不少時候,解決一個免疫學問題往往需要一系列小的軟件工具與步驟,由于這些小軟件大都是現成的,因此只需要進行系統集成,形成合理的工作流程即可,這樣的工作可通過諸如Accelrys公司的Pipeline Pilot等平臺來自動化。由于免疫學相關網絡程序不可勝數,本節不再具體羅列,而在免疫信息學的具體應用中部分提及。
第三節 免疫信息學的應用
免疫學不僅是研究分子識別與相互作用的基礎學科,而且貼近應用。FDA近年批準進入市場銷售或臨床試驗的藥物中,新型抗體與新型疫苗屢拔頭籌。由于抗體藥物的巨大成功,以新型抗體、新型疫苗開發為核心的免疫學研究已經成為世界各國生物技術學術界與產業界全力追捧與投入的領域。與生物信息學相結合免疫信息學研究不僅可以解決一些分子識別的基本生物學問題,而且也必將為產業界提供新的工具。免疫信息學資源已在生命科學基礎研究與應用開發研究中廣泛應用。這里,筆者結合自己的研究工作進行部分介紹。
1.表位預測
表位預測是免疫信息學研究的核心問題之一,也是抗體、疫苗、移植免疫、變態反應計算分析的基礎。因此,發現一個重要的新表位和發現一個新基因一樣,都蘊藏著巨大的財富。因此,從IT巨人微軟到世界500強的生物醫藥公司羅氏,都有人在做表位預測研究。1999年,納斯達克上市公司Epimmune(Nasdaq:EPMN)將其發現鑒定的一個可能用于乳癌、肺癌、結腸癌治療的候選"先導表位"作價200萬美元賣給了給美國Searle公司(世界500強的轉基因寡頭孟山都公司的制藥部)。靠著它的另一項專利成果泛DR表位PADRE,Epimmune公司還從Elan公司、Pharmexa公司獲得了不菲的非獨占授權費,而后,Genencor公司更為此付出了6000萬美元的獨占性授權費;不僅如此,Epimmune公司今后還將享有上述3家公司所有PADRE相關產品的銷售提成。
回到現實,如果我們將抗原比作一篇文章,那么表位就好比文章的關鍵詞;而表位簇集區域就好比是摘要。根據表位特異性免疫應答的程度,可將抗原中的表位分為免疫優勢表位、亞優勢表位和隱性表位;根據表位對機體的影響,可分為保護性表位(免疫位)、致病性表位(變應位)、耐受性表位(耐受位);根據識別的免疫細胞,可分為B細胞表位、輔助性T細胞(Th)表位、細胞毒性T細胞(Tc)表位等。表位預測就好比對抗原這篇文章進行鉤玄摘要。目前有關研究主要是B細胞表位、Th表位、Tc表位的預測上。
(1)B細胞表位預測
B細胞表位要被抗體識別,只能位于抗原表面。因此,早期的線性B細胞表位預測采用唯象方法(Phenomenological theory),通過計算蛋白亞序列的理化性質或二級結構,利用B細胞表位與上述理化特性或二級結構的相關性進行預測。例如,親水的氨基酸更多位于液相面,而疏水的更多地深埋在抗原內核,因此可以計算蛋白質序列局部的親水性來間接推斷B細胞表位。對蛋白序列局部理化性質或二級結構傾向的理論計算大多依據相應的屬性量表,這些量表可通過實驗或統計分析得到。常用的量表如Janin可及性量表、Hopp和Woods親水量表、Parker親水量表(示例見圖7-1)、Thornton突出指數量表、Welling抗原性量表等。30多年來,經典量表時有優化更新,對滑窗法的預測性能也有所改進。
圖7-1基于Parker親水量表的線性B細胞表位預測示例
復雜網絡(Complex networks)已經成為近年自然科學乃至社會科學諸多學科領域研究的一個焦點與超級熱點。現實世界中的很多系統都可以用復雜網絡的模型來描述與研究,如互聯網、集成電路、電力網、通訊網、鐵路網、食物鏈、人際關系網等等。各種網絡在數學上都可以用圖(Graph)來表述。圖論(Graph theory)源于18世紀大數學家歐拉(Leonhard Euler)對規則圖(regular graph)的研究;20世紀50年代,兩位匈牙利科學家Erdös和Rényi的研究使經典圖論出現重大突破,確立了隨機圖理論(Random Graph Theory)。但不管是表征何種網絡的圖,它們都是由一些基本單元和它們之間的連接構成的;在圖論中,我們通常把前者稱為節點(nodes)、頂點(vertices)或點(point),把后者稱為邊(edges)、連接(links)或者線(lines)。基于圖論的系統生物學研究已經取得了許多重大成果,食物鏈網絡、大腦皮層神經元網絡、代謝網絡、基因調節網絡等許多生物系統的復雜網絡已被證實具有小世界(small-world)或/和標度無關(scale-free)特性。在基因調節網絡、代謝網絡的研究中,蛋白質(或酶)被簡單地看作為網絡節點。但是,當把研究聚焦于蛋白質本身或其部分片段的時候,例如對蛋白質抗原,我們同樣可以把抗原看作一個復雜網絡,一個大的“圖”。它的節點是氨基酸殘基,它的邊是氨基酸殘基之間在序列上與空間結構上的聯系(如圖7-2)。
圖7-2:蛋白質抗原氨基酸殘基網絡示意圖(家兔子宮珠蛋白: 1UTG)
我們從PDB數據庫中篩選出無冗于、高分辨率的代表性晶體結構640個,以氨基酸殘基為節點,殘基之間序列上的聯系(實質是肽鍵)或空間上的聯系(實質是二硫鍵等其它共價鍵或氫鍵、疏水相互作用、范德華力等非共價相互作用)為邊,構建了640個抗原的氨基酸殘基網絡。計算這些網絡中每個氨基酸殘基的連接度(Connectivity)、聚類系數(Clustering coefficient)、完形度(Closeness)、間度(Betweeness)等復雜網絡參數,統計推演出基于復雜網絡的4個新量表(見表7-1),即相對連接度(Rk)、相對聚類系數(Rc)、相對完形度(Ro)、相對連接度(Rb)。
表7-1基于抗原氨基酸殘基網絡拓撲性質的新屬性量表[36]
我們把上述新量表用于基于滑動窗的B細胞表位殘基預測。結果顯示,在5個測試數據集中,相對連接度(Rk)表現穩定優越,在注釋最完整、質量最佳的HEL數據集中,相對連接度的ROC曲線下面積最大,提示預測性能顯著優于Parker親水性(Ph)及Levitt指數(Li)等兩個已知最好的B細胞表位預測量表(見圖7-3)[37]。因為相對連接度反應了一個氨基酸殘基在網絡中相鄰氨基酸殘基數目的傾向。偏愛在抗原內核的,鄰居一般較多,在表面的,鄰居相對較少。因此,用相對連接度來預測B細胞表位能有如此表現也就不奇怪了。
圖7-3相對連接度、Parker親水性及Levitt指數預測性能比較
專門的線性B細胞表位預測工具有PREDITOP、ADEPT、PEOPLE、BepiPred[38]等;一些綜合性序列分析軟件,如OMIGA、UWGCG、ANTHEPROT等,也包含了的線性B細胞表位預測功能。線性B細胞表位預測往往是根據蛋白質抗原的氨基酸序列,預測其上可能的B細胞表位區段。由于B細胞表位在沒有其對應抗體時是不能確定的,它的存在取決于相應抗體的存在,所以,從學術的角度,目前的線性B細胞表位預測似乎是個偽命題。但就是這個命題卻是目前大部分抗體公司急需解決,有著重大現實需求的。例如,根據預測結果,用從天然蛋白中篩選出的合成肽段來免疫動物,以期獲得的抗多肽抗體能與天然蛋白本身發生交叉反應。這具有重要的實用價值,相應抗體既可用于親和層析,達到分離純化完整蛋白抗原的目的,又可用于免疫組化或其它免疫反應而有助于基礎研究與臨床診斷,可以開發為科研甚至臨床診斷試劑。當前,人工神經網絡、支持向量機等機器學習方法已用于線性B細胞表位預測,但性能仍不令人滿意。此外,基于噬菌體展示或抗原空間結構的構象表位預測近年來也廣受關注。前者我們將在后文中單獨論述;后者包括Java語言編寫的基于隨機森林的單機程序Bpredictor[39],網絡程序CEP[40]、DiscoTope[41]及SEPPA[42]等。
(2)T細胞表位預測
T細胞表位的預測研究肇始于對Th表位的預測。早期的Th表位預測明顯受線性B細胞表位預測思路的影響,不少研究試圖從實驗證實的Th表位中找出它們在理化特性或二級結構上的共同特征并在一定程度上獲得了成功,第一個Th表位預測程序AMPHI就是早期研究的代表作品。二十世紀80年代末90年代初,MHC-I類分子晶體結構的闡明和多種Tc表位基序的發現使Tc表位預測研究率先取得突破。這帶動了MHC-II類分子晶體結構與各種Th表位基序的揭示,使Th表位預測擺脫了B細胞表位預測思路的影響。目前,打分矩陣、隱馬爾可夫模型(Hidden Markov Model,HMM)、比較分子力場分析(comparative molecular field analysis, CoMFA)、比較分子相似性指數分析(comparative molecular silmilarity indices analysis, CoMSIA)、人工神經網絡(artificial neural network , ANN)、支持向量機(Support Vector Machine,SVM)等各種方法都已用于T細胞表位預測。相關單機及網絡程序包括AMPHI、Tepitope、TSites、EpiMer、EpiMatrix、BIMAS、MHCPred、NetMHC、NetMHCpan、NetMHCcons、NetCTL、NetCTLpan、NetMHCII、NetMHCIIpan、MetaMHC[43]、TEPITOPEpan等。這個領域非常熱鬧,于是該領域元老Brusic教授于2009年組織了首屆機器學習在免疫學中的應用——HLA-I類配體預測(MLI)大賽[44]。行筆至此,2012倫敦奧運與第二屆MLI大賽正如火如荼,發揚奧運精神,我們也參與其中。希望有興趣的同學今后能加入我們。
雖然對Tc表位預測的探索起步最晚,但進展最快,研究最深入,預測最成功,尤其是基于支持向量機的方法。目前,對Tc表位的預測,研究內容已經不只限于對MHC-I類分子結合及其結合能力的預測,而且還拓展到對候選Tc表位自然產生可能性及其轉運效率的預測,即對蛋白酶體酶切位點及抗原處理相關轉運蛋白(transporters associated with antigen processing, TAP)的轉運進行預測,范圍涵蓋整個抗原處理與遞呈過程,相關程序如FragPredict、PAProC、NetChop等。此外,近些年的研究越來越重視雜合性T細胞表位、超型表位及表位簇集區域的預測。
2.噬菌體展示
(1)噬菌體與噬菌體展示
噬菌體(phage)是一類感染細菌的病毒。有些噬菌體,如絲狀噬菌體M13、fd、f1等,是非常好的表達載體[45]。通過基因工程方法,可以將外源基因片段或隨機DNA序列插入噬菌體基因III或VIII中,表達后形成的融合蛋白仍能夠自主裝配成噬菌體外殼并將外源蛋白或多肽展示在噬菌體顆粒表面(見圖7-4)。
圖7-4:通過基因III或VIII展示外源序列的M13噬菌體示意圖
噬菌體易于培養,增殖迅速。通過隨機PCR等分子生物學技術,可以很方便地構建多樣性從數百萬到數百億的噬菌體文庫(phage library)[46]。這就使得生物學家可以像釣魚一樣,從“魚塘”(噬菌體文庫)里高效地釣到能與“魚餌(bait)”結合的展示了特定多肽的噬菌體。通常,用來篩選噬菌體文庫的物質被稱為靶位(target);靶位的天然配體稱為模板(template)。如圖7-5所示,使用靶位(如細胞、抗體、受體、酶、化合物、半導體材料等),經過幾輪結合、洗脫、增殖的循環淘選(panning),通常能快速從噬菌體文庫中篩出一系列可能與靶位特異性結合的噬菌體;通過DNA測序能快捷、可靠地推導出它們所展示外源多肽的氨基酸序列。這些能與靶位結合的外源多肽,通常模擬了相應模板的特定位點,因而被稱為模擬肽(mimotope);而上述獲得模擬肽的分子生物學實驗流程與技術則被稱為生物淘選(biopanning)或噬菌體展示(phage display)[47]。
噬菌體展示技術一經問世便迅速發展,并在現代分子生物醫學研究中廣泛應用。在基礎研究中,利用噬菌體展示技術可以預測出表位[48]、其他蛋白質相互作用位點[49]與網絡[50, 51],確定藥物作用的靶標蛋白;在應用研究中,噬菌體展示技術可用于開發器官靶向試劑[52]、新診斷試劑[53]、新生物技術藥物[54]和疫苗[55]。尤其值得一提的是,噬菌體展示技術在基于新型生物材料的新能源如生物鋰電池[56]、氫能源[57]等研究中大放異彩,美國總統奧巴馬曾因此專程參觀了麻省理工學院的相關實驗室。
圖7-5噬菌體展示技術示意圖(Science 2002)[58]
(2)噬菌體展示數據中的信號與噪聲
在噬菌體展示實驗的結果中,信號是研究者想要得到的模擬肽序列,也就是能特異性結合靶位的多肽。但是,由于噬菌體展示技術本身固有的原因,在淘選得到模擬肽的同時,也將不可避免地得到一些噪聲序列,也就是所謂的靶位無關多肽(target-unrelated peptides, TUP)[59, 60]。這些噪聲序列可分為兩類。一類是選擇相關TUP (Selection-related TUP, SrTUP),專指發生在噬菌體的結合選擇環節,能夠結合篩選體系中某種成分但并非與靶位特定位點結合的噬菌體展示多肽。由于靶位本身及淘選體系的復雜性,文庫中的噬菌體除了與研究者期待的靶位位點結合外,還可能與淘選體系中的固相基質(如塑料和磁珠)、檢測放大分子(如鏈親和素、蛋白A)、封閉試劑(如牛血清白蛋白)、污染分子(如胎牛血清中的牛免疫球蛋白、大腸桿菌內毒素)及靶位的其它位點結合。另一類是增殖相關TUP (Propagation-related TUP, PrTUP),專指發生在噬菌體增殖環節,不是因為能與靶位結合,而是因為具有更快、更強的增殖能力而進入實驗結果里的多肽[61]。與選擇相關TUP一樣,增殖相關TUP也極其常見,尤其多見于最為常用的基于M13噬菌體的Ph.D.系列商業化文庫[62]。基于fd-tet噬菌體的文庫增加了抵抗增殖相關噪聲的設計;即便如此,增殖相關噪聲序列仍不時出現在噬菌體展示實驗結果中[61]。實驗結果顯示,增殖相關TUP不僅可能混入噬菌體展示的結果中,有的時候甚至會主宰噬菌體展示數據[62]。計算機模擬結果顯示,噬菌體增殖能力的差異即便微小到10%,經過幾輪增殖后也能引起噬菌體文庫克隆豐度的極顯著差異[63]。因此,噬菌體展示的實驗結果往往是模擬肽與靶位無關多肽的混合物。
如果不加區分,將噪聲作為信號,也就是把噬菌體展示實驗結果中的靶位無關多肽當作模擬肽,不言而喻,其研究結果往往是誤導的和悲劇的。令人遺憾的是,這種情況相當常見。例如,全球有幾十個研究組都報道過一種序列為SVSVGMKPSPRP的神奇“模擬肽”。匯總各研究組的實驗結果,提示它可能與40多種不同的靶位結合[64, 65]。這些靶位包括:多種器官與組織(如頭發、皮膚、小鼠腫瘤血管、小鼠胚胎),多種細胞(如神經元、前列腺癌細胞、肝癌細胞、小鼠卵細胞、金黃色葡萄球菌),RNA,DNA,多種抗體,多種酶(如葡萄糖氧化酶、乙酰膽堿酯酶),多種蛋白(如神經生長因子、艾滋病毒Vif蛋白),多種多肽及各種材料(如磷脂酰絲氨酸脂質體、腦膜炎球菌脂多糖、羥基磷灰石、聚四氟乙烯、墨水染料、單壁碳納米管、鈷納米顆粒、鉑鐵合金及磷化銦、砷化鎵、氮化鎵等半導體材料)結合。難道SVSVGMKPSPRP是無所不能的萬能膠水?實際上,上述多數實驗里它只是一條增殖相關的TUP。然而,具有諷刺意味的是,相當多的實驗小組把噪聲作為信號,最終得出了一些錯誤的結論還如獲至寶。
令人欣慰的是,在噬菌體展示領域,無論是實驗研究者還是理論研究者,都已經開始注意到實驗數據中的噪聲問題。在進行后續研究之前,很有必要預先減少或盡量消除實驗數據中的靶位無關多肽,這已逐漸成為本領域研究者的共識。因此,靶位無關多肽的研究已經成為近年來噬菌體展示領域實驗與生物信息學研究的熱點。通過采取消減淘選(subtractive panning)、提高靶位結合選擇的嚴謹度、減少淘選次數等各種實驗措施,能在一定程度上減少選擇相關及增殖相關噪聲。但是,僅靠實驗本身的改進并不能徹底消除靶位無關多肽,這是由噬菌體展示內在的結合選擇與感染增殖環節所決定的[63]。因此,借助信息學手段來檢測噪聲序列,進而對噬菌體展示數據進行計算純化等一系列預處理,不失為省時、省力、省錢的上佳之選。
(3)噬菌體展示數據預處理研究進展
目前,噬菌體展示數據的預處理方法大體可分為三類。一是是基于信息論的方法,二是基于TUP序列特征的方法,三是基于數據庫搜索比對的方法[66]。
早在2004年,Mandava等就根據香農的信息論提出了用信息含量(Information content)這一指標來衡量噬菌體展示結果中每條多肽是信號還是噪聲[67]。對于噬菌體展示實驗結果中任意一條多肽序列X1X2…XN,其出現在初始文庫中的概率P = P1×P2×…×PN,其中PN代表著初始文庫中某種氨基酸出現在第N位的頻率。多肽的信息含量INFO =﹣㏑(P)。Mandava等所謂的信息含量類似于信息論中的信息熵(information entropy)。Mandava等認為,初始文庫中越罕見的多肽,信息含量越高,經過幾輪淘選還能出現在結果中,這就越不可能是隨機事件,這樣的多肽應該是有意義的信號;反之,越是具有增殖優勢的噬菌體,在初始庫中就越常見,信息含量也就越低,如果出現在結果中則很可能是噪聲序列。根據上述假設,他們開發了INFO程序[63]。
2010年,我們研究組根據Menendez等的綜述,總結了當時所有已知靶位無關多肽的序列特征,編寫了一個基于TUP序列特征的靶位無關多肽檢測、報告與濾除程序(SAROTUP,http://immunet.cn/sarotup)[68]。我們的測試結果顯示,給噬菌體展示實驗數據增加一個基于TUP序列特征的預處理環節,不僅能極大地提高Pepsurf、Mapitope等程序預測蛋白質相互作用位點的性能,還有助于基于噬菌體展示的候選疫苗篩選[68]。
為了檢測不具備已知TUP序列特征的靶位無關多肽,我們接著又構建了一個噬菌體展示實驗結果的數據庫(MimoDB,http://immunet.cn/mimodb),收集了全球各研究組利用噬菌體展示淘選隨機文庫的實驗結果[64]。該數據庫每季度更新,筆者成文時版本有數據1956套,多肽序列16500條,是目前世界上最大、最全的噬菌體展示實驗結果數據庫。去年底,我們又開發了MimoSearch、MimoBlast等幾個基于該噬菌體展示數據庫的小工具。通過MimoSearch小工具搜索數據庫,可以查看實驗者提交的多肽序列是否與其它已發表的結果完全相同。如果多個研究組在淘選實驗中使用的靶位不同卻又得到了完全相同的多肽序列,那么相應多肽極可能是噪聲序列,即便它很可能不具備任何已知的噪聲序列特征。通過MimoBlast小工具可對MimoDB進行全數據庫序列搜索比對,不僅可以找到與實驗者提交多肽序列不完全相同但高度相似的已發表結果,從而提示靶位無關多肽,還能找出與已知TUP高度相似的多肽從而推導新的TUP序列特征[65]。目前,這些基于數據庫搜索比對的工具也已集成到了SAROTUP程序的2.0版中。
(4)基于噬菌體展示的表位預測[49]
由于模擬肽和抗原上的天然表位能與同一抗體結合,所以,通常認為,模擬肽及其所模擬的天然表位應該具有相似的物理化學性質和空間關系。這是目前所有基于噬菌體展示的表位預測方法共同的假設與前提。在這個假設與前提下,通過比對模擬肽序列(或一套模擬肽的共同序列)與抗原序列,抗原序列中與模擬肽序列匹配(一致或高度相似)的部分可能就是相應的天然表位。這種情況已得到不少實驗結果的驗證。但是,在針對蛋白質抗原的體液免疫中,所產生的抗體約有90%所識別的都是空間構象性表位;或者說與抗體結合的絕大多數天然表位在序列上都是不連續。因此,基于噬菌體展示的表位預測,在絕大多數情況下,模擬肽與抗原在一級結構上沒有或者僅有非常低的相似性。因此,如何把模擬肽合理映射到抗原的空間結構上或分散的抗原序列中,就成為基于噬菌體展示的表位預測研究的核心問題。目前,相關算法、流程、單機及網絡程序包括PEPTIDE、FINDMAP、EPIMAP、SiteLight、Mapitope、RELIC、3DEX、MIMOX、MIMOP、PepSurf、Pepitope、Pep-3D-Search、EpiSearch、MimoPro、LocaPep、PepMapper等[66]。
(5)噬菌體展示免疫信息學研究感悟
回顧既往7年我們在噬菌體展示領域的免疫信息學研究,我們做了數據集、數據庫、數據預處理軟件、數據解析預測軟件,我們深深感受到了計算的力量。僅以我們的噬菌體展示實驗結果數據庫而言,這讓我們充分體會到為什么Rammensee教授要將之稱為hard了。數據的核實、提取及無休止的更正與更新,讓數據庫工作真的非常艱苦hard。當然,Rammensee教授的原意是指這些直接來源的實驗結果的數據是如何hard,如何可靠;而建立在數據之上的算法與預測軟件,那產出就軟了,因為是計算預測結果,但好歹還可通過實驗驗證,所以就算個半軟吧;至于無法實驗驗證的數學模型與仿真,那就全軟了。這種認識,籠罩整個生物醫學界,那就是:實驗最可靠,實驗是金標準;生物信息學,奇技淫巧罷了,計算的結果靠不住。但是,當我們搜集所有噬菌體展示實驗結果到MimoDB數據庫中時,我遇到了實驗研究的各種怪狀;當所有噬菌體展示實驗結果通過MimoDB平臺可以相互對照后,我們發現,實驗結果也不都是可靠的,實驗結果也不都是金標準,以子之矛、攻子之盾的地方實在太多。意外地,MimoDB可以成為一個噬菌體展示領域的循證生物學分析平臺,可以幫助實驗研究者消除實驗結果中的噪聲,這就是數據庫的力量。
3.在抗體研究中的應用
目前,有很多單機及網絡程序可用于抗體的基礎與應用研究的方方面面[13]。例如,使用Abnum可按Kabat、Chothia等三種方式給抗體序列定位編號,從而確定CDR區[69];使用SUBIM確定抗體重鏈、輕鏈的亞類[70];使用AbCheck檢查提交的抗體序列中是否可能存在克隆偽跡(cloning artifacts*)或測序錯誤[71];使用SHAB評估抗體的人源化程度[72];使用PAPS預測抗體重鏈與輕鏈堆疊角度(VH/VL packing angle)[73];使用AbM、WAM[74]、SWISS-MODEL[75]、PIGS[76]、RosettaAntibody[77]等建立抗體的三維結構模型。此外,計算方法也可用于抗體親和力成熟、防止凝聚、延長半衰期的設計等各個方面[13]。
免疫信息學已經極大地改變了單克隆抗體產業。目前,抗體測序已成常規,而一旦有了抗體序列,就可以通過序列分析確定其重鏈、輕鏈類型而無需實驗確認;通過同源建模、分子對接及動力學等分析更能推斷其相應抗原的大致情況。我們與華西醫大合作,對他們通過雜交瘤技術獲得的抗蘇丹紅I單抗進行了免疫信息學研究,通過從頭計算與同源建模相結合的方式,獲得了其空間結構的理論模型(見圖7-6)。該圖左側為抗體輕鏈,其綠色、水色、藍色、紫色部分對應LFR、L1、L2、L3;右側為抗體重鏈,其紅色、水色、藍色、紫色段分別對應HFR、H1、H2、H3。正中凹洞為抗原結合位點,凹洞底部主要由重鏈骨架區形成,側壁主要由L3和H3形成。整個圖像由通過PMV軟件以分子表面的方式顯示,其中分子表面用MSMS軟件計算。
圖7-6抗蘇丹紅I單抗可變區空間結構理論模型
我們在劍橋結構數據庫(Cambridge Structural Database,CSD)中查詢到的蘇丹紅I的晶體結構實驗數據共4條,沒有蘇丹紅II、III、IV晶體結構的實驗數據。使用Gaussian軟件,計算出蘇丹紅I-IV的空間結構。將4條實驗驗數據與理論計算的蘇丹紅I結構進行疊合,發現實驗數據之間RMSD差別竟然比與理論結果之間的差異還大,說明計算結果精確可靠。用Autodock4.1將理論計算的蘇丹紅I-IV結構與抗蘇丹紅I單抗模型進行了盲對接與定位對接,得到了蘇丹紅I(見圖7-7)到蘇丹紅IV與抗蘇丹紅I單抗可能的結合模式。頗為有趣的是,蘇丹紅I、II與抗蘇丹紅I單抗的抗原結合位點對接結合時構象相似:“2-萘酚”(naphthalen-2-ol)基團在內,其余部分朝外;蘇丹紅III、IV與抗蘇丹紅I單抗的抗原結合位點對接結合時構象相似:2-萘酚”(naphthalen-2-ol)基團在外,其余部分在內。
圖7-7 抗蘇丹紅I單抗-蘇丹紅I相互作用示意圖
在上圖中,抗體輕鏈綠色,重鏈橙色,均按卡通模式顯示。根據CCP4軟件包計算結果,蘇丹紅I在抗原結合袋中與輕鏈的H34、Q89、T97(綠字標出)及重鏈的V37、W47、E50、V97、K98、W103等主要通過范德華力相互作用,圖中僅顯示了這些殘基中直接與蘇丹紅有范德華相互作用的重原子。此外,蘇丹紅I的N13原子與輕鏈T97殘基的OG1之間距離2.69 Å,形成氫鍵(黃色虛線)。抗蘇丹紅I單抗與蘇丹紅II的相互作用與抗蘇丹紅I單抗-蘇丹紅I的相互作用非常相似,蘇丹紅II的N13原子與輕鏈T97殘基的OG1之間距離2.67 Å,氫鍵更強,不再另圖顯示。
我們使用了SplitPocket[78]計算了抗蘇丹紅I單抗的抗原結合袋的體積以及蘇丹紅I、II、III、IV分子的體積。在抗蘇丹紅I單抗所有袋結構中,最大的袋位于抗原結合位點,我們將其稱為抗原結合袋。它的尺寸為5.23Å×6.64Å×10.36 Å(寬×厚×深度),體積為359.56Å3;而蘇丹紅I、II、III、IV分子的體積分別為228.28 Å3、261.12 Å3、323.76 Å3、356.56 Å3。由于已有的研究顯示[79]:結合袋往往都要比配體大得多,配體極少能夠占據整個結合袋,所以,以上計算結果顯示,抗蘇丹紅I單抗的抗原結合袋容納結合蘇丹紅I、II分子比較容易,而要容納蘇丹紅III則有些困難,蘇丹紅IV則幾無可能。這些結果,與對接結合能數據也是較為一致的。總之,我們免疫信息學的計算分析提示:蘇丹紅I、II能與抗蘇丹紅I單抗的抗原結合位點結合,強度相近;蘇丹紅III可能有較弱的結合,而蘇丹紅IV不大可能與抗蘇丹紅I單抗結合。我們的結果返回華西后與他們實驗的結果不盡一致!他們的實驗結果顯示,抗蘇丹紅I單抗與蘇丹紅I親和力最高,其次蘇丹紅III,與蘇丹紅II結合較弱,不結合蘇丹紅IV。是實驗錯了還是我們的計算不對?后來,我們的合作者反復研究,發現當初結合實驗時未考慮蘇丹紅I-IV之間溶解度的差異,糾正后的實驗結果與我們計算的一致。計算的力量,由此可見一斑!我們也進一步仔細閱讀他們的專利,發現免疫用的半抗原是蘇丹紅I修飾物(蘇丹紅I號-3-丙酸,Sudan1-C3)而并非蘇丹紅I本身。Sudan1-C3與OVA、BSA等偶聯后,除了橋聯的羧基碳原子外,其結構比蘇丹紅I多了2個碳原子,而與蘇丹紅II的一個甲基碳原子正好重疊,另一個碳原子位置不同。因此,Sudan1-C3與蘇丹紅I、II很相近,推測引起的單克隆抗體能與蘇丹紅I、II發生較強交叉反應。
我們也曾對抗CD147的美妥昔單抗(metuximab)進行過同源建模,其理論模型見圖7-8。該圖左側為輕鏈,其綠色、水色、藍色、紫色部分對應輕鏈骨架區(LFR)、輕鏈互補決定區1、2、3(L1、L2、L3);右側為重鏈,其紅色、水色、藍色、紫色段分別對應HFR、H1、H2、H3。美妥昔單抗的抗原結合位點呈兩端開放的扁槽狀,L3和H3構成槽底,L1、L2構成左槽壁,H1、H2構成右槽壁,LFR2區的F49及HFR3區的R94殘基也參與了形成美妥昔單抗的抗原結合位點。從圖中不難看出,針對蛋白質抗原的抗體與先前針對化學小分子的抗體,它們所形成的抗原結合位點形態迥然不同。對于任一抗體,通過建模后對抗原結合位點形態的觀察,似乎就能大概知道其所針對抗原的大致類型。計算之神奇,嘆為觀止矣!
圖7-8 美妥昔單抗三維空間理論模型
4.在疫苗研究中的應用
疫苗極大地促進了人類健康事業的發展。但是,人類的生命與財產仍面臨巨大的威脅。這些威脅主要體現在以下五個方面。其一,是新的傳染病病原不斷出現,如埃博拉病毒、人類獲得性免疫缺陷病毒(HIV)、新的傳染性肝炎病毒、瘋牛病病毒及SARS病毒等。其二,是一些為人熟知的人畜致病微生物不斷產生新的變種或耐藥性并再次成為人類生命的殺手與財富的終結者,如大腸桿菌O157、結核分枝桿菌、口蹄疫病毒、禽流感病毒等。其三,是911后整個世界面臨著日益嚴重的生物恐怖主義威脅,如911后的炭疽恐慌。其四,是大量疑難疾病急需新的治療手段,如癌癥的免疫治療。其五,是對藥品及疫苗本身生物安全性的擔憂,如傳統疫苗通常使用某種疾病的減毒或滅活的致病原,但這仍可能造成疾病傳播或中。正因為如此,人類社會才迫切需要更快地擁有更多、更安全、更可靠的新的疫苗產品。
就以疫苗最經典的應用領域——傳染病預防為例,目前已明確的致病微生物超過400中,但只針對其中30多種開發出了上市的疫苗。因此,仍然大量傳染病預防疫苗仍亟待開發。目前的疫苗研發已從傳統的預防性疫苗發展到治療性疫苗,適用范圍從原來單純的傳染病預防發展到對過敏性疾病、自身免疫性疾病、器官移植性疾病、計劃生育、免疫去勢、不孕不育癥、老年癡呆、腫瘤防治、戒煙戒毒等各個方面。隨著人類基因組計劃的完成與大量病原微生物基因組的闡明,人類已進入從基因組到候選保護性抗原到保護性表位到個體化定制疫苗的時代,免疫信息學在其中發揮著重要的助推作用。
例如,在表位疫苗設計方面,EpiVax公司設計了iVAX工具包。iVAX是一套根據蛋白抗原序列,設計表位疫苗的免疫信息學工具,包括Conservatrix、EpiMatrix、ClustiMer、BlastiMer、EpiAssembler、Aggregatrix和VaccineCAD等程序。其中,Conservatrix評估九肽片段在同一病原不同毒株之間的保守性;EpiMatrix評估多肽片段的HLA-I、II分子結合能力;ClustiMer根據EpiMatrix輸出確定富含T細胞表位多肽群;BlastiMer評估這些多肽群與人類基因組間的相似性,相似的序列要么耐受難以引起免疫應答,要么造成自身免疫病,因此需去掉;EpiAssembler將保守、特異且富含T細胞表位的多肽群合起來;Aggregatrix確定覆蓋最多HLA型別,最多毒株病原的最小一套表位;VaccineCAD將候選表位多肽合理串接,避免因多肽連接形成新的表位。
疫苗研究在線信息網(VaccineInvestigation andOnLineInformationNetwork,VIOLIN)也提供了大量疫苗研發相關信息,包括疫苗相關的各種數據庫及程序[80]。其中,Vaxign是一個集成的反向疫苗學在線軟件[81]。它包括兩個部分:一是可直接查詢預先已預測好的結果;二是對提交的新基因組或蛋白序列進行實時交互分析預測。Vaxign集成了一系列軟件,包括:(1)確定蛋白抗原亞細胞定位的PSORTb,分泌或病原外膜蛋白可能是理想的候選靶標,而胞漿及內膜蛋白則不理想;(2)預測蛋白質跨膜方式的TMHMM,跨膜超過1次的蛋白難以克隆、表達、純化,不適宜作為重組疫苗的抗原;(3)預測粘附及粘附樣分子的SPAAN,粘附樣分子的通常是理想的疫苗靶標;(4)預測MHC-I及II結合能力的Vaxitope,此軟件由He研究組自己開發;(5)分析序列相似性的BLAST,與宿主高度相似的序列要么耐受要么導致自身免疫,不是理想的靶標。
最后,舉一個實際案例。腦膜炎奈瑟菌是流行性腦脊髓膜炎(簡稱流腦)的病原菌。根據其莢膜多糖抗原的差異,可將腦膜炎奈瑟菌分為至少13個血清型,其中致病的主要是A、B、C、Y及W-135血清型。迄今,A、C、Y及W-135血清型的純化多糖疫苗已使用了多年,取得了較好的預防效果;但到目前為止仍然未能開發出針對腦膜炎奈瑟菌B血清型(MenB)的疫苗。原因主要是MenB莢膜多糖一段與人唾液酸一致,其莢膜多糖不宜作為疫苗,而主要的外膜蛋白PorA變異度大,免疫后只能引起毒株特異性保護,不能預防所有MenB感染(見圖7-9)。這樣,MenB導致的流腦愈發常見,已占美國流腦的1/3,歐洲流腦的45%-80%以上,成為嚴重的健康威脅。2000年,MenB-MC58株的全基因組測序完成[82],生物信息學方法立刻用于預測其基因,免疫信息學方法立刻用于預測、篩選保護性抗原[83],預測與實驗相結合,很快確定了在外膜上含量相對較少、但更加保守的幾個保護性抗原如H因子結合蛋白(factor H-binding protein,FHBP)、奈瑟菌粘附素A(Neisseria adhesin A,NadA)及奈瑟菌肝素結合抗原(Neisseria heparin-binding antigen,NHBA)等。正是由于采用了這種計算加實驗的轉化醫學策略,目前,MenB疫苗已在上市審批中[84]。
圖7-9 腦膜炎奈瑟菌B示意圖
5.在移植免疫中的應用
人工神經網絡等機器學習方法已經用于移植免疫領域多年;例如,用于預測肝移植排斥、肝移植后他克莫司血藥濃度、輔助診斷腎移植超急排斥、評估腎移植并發癥、預測腎移植后巨細胞病毒感染、預測胰腺移植的預后等。器官移植,最重要的是HLA配型。然而,由于供者有限,在沒有完全匹配的情況下,如何從不完全匹配的供者選出最合適、最兼容的。美國匹茲堡大學醫學中心的Duquesnoy教授研究該問題10余年,開發了一系列基于EXCEL的宏程序HLAMatchmaker[85]。由于該程序要創建臨時文件并要反復地在EXCEL表格之間剪切粘貼,既費時間又容易出錯,因此Filho等最近開發了基于HLAMatchmaker的EpHLA程序,實現的分析過程的完全自動化。[86]
6.在變態反應防治中的應用
民以食為天。然而,自古以來食物過敏(food allergy)就一直困擾著人類。流傳于民間和傳統醫學中的“發物”之說以及與之相關的種種飲食禁忌,在一定程度上反應了人們對食物過敏的經驗認識。現代醫學與免疫學研究表明,絕大多數食物過敏屬于IgE介導的I型變態反應,一般表現為哮喘、腹瀉、腹痛、蕁麻疹等;但嚴重的也可能出現危及生命的、與青霉素過敏反應類似的過敏性休克。流行病學調查的數據顯示,食物過敏在成年人中的發病率約為2 ~4%;而在兒童中則更高達8%;每年每100萬人中,約32人發生嚴重甚至致命的食物過敏[87]。隨著轉基因農作物的出現及其在食品工業中的廣泛應用,公眾對食物過敏的擔憂進一步加深。了解、獲取食物過敏的相關信息已經成為公眾的迫切需求。“新買的轉基因玉米會不會有更高的引起食物過敏的風險?”、“我吃豌豆過敏,那吃山里朋友送來的土特產小扁豆會不會也過敏呢?”人們自然而然會有諸如此類的種種問題。也就是說,公眾迫切需要一個與天氣預報與預警類似的,使用方便、通俗易懂的食物過敏預測、預警與查詢系統。
由于食物過敏極為常見,危害廣泛,且與公眾日常生活與健康息息相關,美國、日本、歐盟國家及相關國際組織如世界衛生組織(World Health Organization, WHO)、聯合國糧農組織(Food and Agriculture Organization, FAO)一直非常重視食物過敏及其防治研究。現代醫學研究認為,食物過敏主要由食物中一些特別的蛋白質引起;這些引起過敏(變態反應)的蛋白質在免疫學中被統稱為變應原(allergen)。目前,對食物過敏除了一些對癥治療外,并沒有根治措施。因此,避免接觸或攝入過敏食物,從而預防食物過敏的發生就至關重要了。臨床上,主要通過皮試和體外IgE檢測來診斷食物過敏。然而,臨床診斷用變應原的種類有限,而食物及其蛋白質組成卻紛繁復雜。如何根據有限的實驗結果,科學嚴謹地推斷到更多未經實驗檢測的食品(包括轉基因食品)中去,從而預測、預警其引起食物過敏的風險,這已經成為免疫信息學研究的一個前沿與熱點。
這主要體現在以下兩個方面:其一是1996年以來,大量變應原數據庫及IgE表位數據庫出現;其二是食物過敏預測方法日趨成熟。目前,食物過敏的免疫信息學預測已經發展出短肽匹配、序列比對、結構比較等3種不同方法[88]。短肽匹配方法比較用戶提交的蛋白質氨基酸序列與數據庫中所有已知過敏原有沒有8個連續相同氨基酸。如果有,則認為該蛋白質可能引起食物過敏。在美國、歐盟、日本,短肽匹配方法已經廣泛用于轉基因植物的安全評估中。序列比對方法采用BLAST或FASTA程序,把用戶提交的蛋白質氨基酸序列與數據庫中所有已知過敏原進行序列相似性的兩兩比對。2001年,FAO/WHO專家組推薦,兩比對序列80個氨基酸殘基的序列節段內,如果35%以上的氨基酸殘基相同則預測該蛋白質可能引起過敏反應。新近的研究顯示,兩條比對好的序列中如有70%以上的氨基酸殘基相同,則幾乎肯定會有食物過敏的發生。例如,Sanchez-Monge等報道,對豌豆過敏的18位患者同時也都對小扁豆過敏[89]。豌豆中的過敏原主要是豌豆種子球蛋白(vicilin)和伴球蛋白(convicilin);而小扁豆的種子球蛋白與豌豆種子球蛋白有90%以上的氨基酸殘基相同,豌豆伴球蛋白與小扁豆伴球蛋白之間,相同氨基酸殘基超過70%。Beyer等報道[90],14位對榛子過敏的患者中,12位經檢測有能與11S榛子球蛋白結合的IgE。同時,這14位對榛子過敏的患者約有一半也對花生或核桃、巴西果、腰果、杏仁等過敏。這些堅果的11S球蛋白序列有45%~55%的氨基酸殘基與榛子相同。本領域最新的研究思路是通過比較結構進行食物過敏預測。由于食物過敏主要由IgE介導,而大多數IgE識別的是變應原上的空間構象性表位;同時,大多數重要的變應原都可歸結到少數幾個結構家族,提示只要與已知變應原具有相似空間結構,即使氨基酸序列相似性程度低,也可能形成相似的空間構象性表位,并因此可能引發交叉的過敏反應。2005年,在西班牙召開了一場關于過敏預測方法的專題國際學術討論會。與會專家一致認為,FAO/WHO專家組2001年推薦的雙測試中,6連續氨基酸短肽匹配方法假陽性率高,不主張繼續采用。對序列比對方法中的同率閾值,與會專家存在分歧,主流意見認為,FAO/WHO專家組2001年推薦的35%的閾值較為保守,但仍可在應用中繼續檢驗。此外,與會專家還一致看好結構比較方法,但由于目前結構數據仍然缺乏,同時還沒有與序列比對類似的統一清晰的結構相似性指標,結構比較方法仍有待進一步研究。
藥物過敏是另一種最為常見的變態反應。最近,藥物過敏有突破性發現[91]。至少有部分藥物,如阿巴卡韋、卡馬西平等導致嚴重甚至是致命的IV變態反應,其機制完全不同于傳統觀點。現已確定,阿巴卡韋與卡馬西平能分別結合到HLA-B*57:01、HLA-B*15:02分子的抗原結合槽,從而使相應分子遞呈抗原肽的特性發生改變,就仿佛用藥后機體有了一個新的HLA分子,從而導致具有該HLA等位基因的患者發生類似器官移植不匹配的后果。今后,免疫信息學在預測藥物過敏方面必定大有所為。免疫信息學還能用到什么地方?未來總是超乎想象。
腳注
*諾華基金會是一個國際性的科學和教學慈善機構,它旨在促進生物學、醫學和化學研究方面的合作。John Wiley從1986年起就是諾華基金會的出版商,出版了獨一無二的、受到業界高度尊重的諾華系列叢書。這些書籍包括諾華基金研討會的論文集,并且還匯編了主要科學家和學者演講后廣泛的鼓舞人心的討論和辯論。這些珍貴的資源涵蓋了20世紀后期所有關鍵的生物學發展,并且由國際知名的專家作為撰稿人,其中更包括很多諾貝爾獎獲得者。生動的辯論加上撰稿人的國際地位,為諾華基金研討會系列叢書贏得了在科學文獻方面獨一無二的尊貴地位。
#1971年Anthony Nolan出生并發現患有Wiskott-Aldrich綜合征,只能通過骨髓移植治療,但當時沒有尋找除至親之外的供者系統。1973年,世界上第一例無親緣關系的配型與骨髓移植成功。居住在澳洲的安東尼媽媽雪莉.諾南(Shirley Nolan)看到了希望,不遠千里回到英國,呼吁國人踴躍驗血,并于1975年催生了Anthony Nolan基金會,建立了世界上第一個骨髓資料庫。可惜,安東尼.諾南沒有等到合適的供者,于1979年去世。1993年安東尼.諾南研究所建成;迄今已有職員171位,登記的供者已超過40萬份。
參考文獻
Orosz CG: An introduction to immuno-ecology and immuno-informatics. In: Design Principles for the Immune System and Other Distributed Autonomous Systems. Edited by Segel LA, Cohen IR: Oxford University Press; 2001: 125–149.
Orosz CG: The case for immuno-informatics. Graft 2002, 5(8):462-465.
Segel LA: Controlling the immune system: Diffuse feedback via a diffuse informational network. In: Complexity in biological information processing: Novartis Foundation Symposium 239. Edited by Bock GR, Goode JA: John Wiley & Sons; 2001: 31–44.
Petrovsky N, Schonbach C, Brusic V: Bioinformatic strategies for better understanding of immune function. In Silico Biol 2003, 3(4):411-416.
Rammensee HG: Immunoinformatics: bioinformatic strategies for better understanding of immune function. Introduction. Novartis Found Symp 2003, 254:1-2.
Hart E, Timmis J: Application areas of AIS: The past, the present and the future. Applied Soft Computing 2008, 8(1):191-201.
Timmis J: Artificial immune systems-today and tomorrow. Natural Computing 2007, 6(1):1-18.
Flower DR, McSparron H, Blythe MJ, Zygouri C, Taylor D, Guan P, Wan S, Coveney PV, Walshe V, Borrow P et al: Computational vaccinology: quantitative approaches. Novartis Found Symp 2003, 254:102-120; discussion 120-105, 216-122, 250-102.
Pinheiro CS, Martins VP, Assis NR, Figueiredo BC, Morais SB, Azevedo V, Oliveira SC: Computational vaccinology: an important strategy to discover new potential S. mansoni vaccine candidates. J Biomed Biotechnol 2011, 2011:503068.
Rappuoli R, Covacci A: Reverse vaccinology and genomics. Science 2003, 302(5645):602.
Jones D: Reverse vaccinology on the cusp. Nat Rev Drug Discov 2012, 11(3):175-176.
Hagmann M: Computers aid vaccine design. Science 2000, 290(5489):80-82.
Kuroda D, Shirai H, Jacobson MP, Nakamura H: Computer-aided antibody design. Protein Eng Des Sel 2012:in press.
Tomar N, De RK: Immunoinformatics: an integrated scenario. Immunology 2010, 131(2):153-168.
Benson DA, Karsch-Mizrachi I, Clark K, Lipman DJ, Ostell J, Sayers EW: GenBank. Nucleic Acids Res 2012, 40(Database issue):D48-53.
UniProtConsortium: Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res 2011, 39(Database issue):D214-219.
Madej T, Addess KJ, Fong JH, Geer LY, Geer RC, Lanczycki CJ, Liu C, Lu S, Marchler-Bauer A, Panchenko AR et al: MMDB: 3D structures and macromolecular interactions. Nucleic Acids Res 2012, 40(Database issue):D461-464.
Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40(Database issue):D109-114.
Lefranc MP, Giudicelli V, Ginestoux C, Jabado-Michaloud J, Folch G, Bellahcene F, Wu Y, Gemrot E, Brochet X, Lane J et al: IMGT, the international ImMunoGeneTics information system. Nucleic Acids Res 2009, 37(Database issue):D1006-1012.
Salimi N, Fleri W, Peters B, Sette A: The Immune Epitope Database: A Historical Retrospective of the First Decade. Immunology 2012:in press.
Kim Y, Ponomarenko J, Zhu Z, Tamang D, Wang P, Greenbaum J, Lundegaard C, Sette A, Lund O, Bourne PE et al: Immune epitope database analysis resource. Nucleic Acids Res 2012, 40(Web Server issue):W525-530.
Robinson J, Mistry K, McWilliam H, Lopez R, Marsh SG: IPD--the Immuno Polymorphism Database. Nucleic Acids Res 2010, 38(Database issue):D863-869.
Johnson G, Wu TT: Kabat Database and its applications: future directions. Nucleic Acids Res 2001, 29(1):205-206.
Rammensee H, Bachmann J, Emmerich NP, Bachor OA, Stevanovic S: SYFPEITHI: database for MHC ligands and peptide motifs. Immunogenetics 1999, 50(3-4):213-219.
Singh MK, Srivastava S, Raghava GP, Varshney GC: HaptenDB: a comprehensive database of haptens, carrier proteins and anti-hapten antibodies. Bioinformatics 2006, 22(2):253-255.
Sayers S, Ulysse G, Xiang Z, He Y: Vaxjo: a web-based vaccine adjuvant database and its application for analysis of vaccine adjuvants and their uses in vaccine development. J Biomed Biotechnol 2012, 2012:831486.
Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC Genomics 2005, 6:79.
Huang J, Honda W: CED: a conformational epitope database. BMC Immunol 2006, 7:7.
Yang B, Sayers S, Xiang Z, He Y: Protegen: a web-based protective antigen database and analysis system. Nucleic Acids Res 2011, 39(Database issue):D1073-1078.
Jongeneel V: Towards a cancer immunome database. Cancer Immun 2001, 1:3.
Zhang ZH, Tan SC, Koh JL, Falus A, Brusic V: ALLERDB database and integrated bioinformatic tools for assessment of allergenicity and allergic cross-reactivity. Cell Immunol 2006, 244(2):90-96.
Mills EN, Valovirta E, Madsen C, Taylor SL, Vieths S, Anklam E, Baumgartner S, Koch P, Crevel RW, Frewer L: Information provision for allergic consumers--where are we going with food allergen labelling? Allergy 2004, 59(12):1262-1268.
Mills EN, Jenkins JA, Sancho AI, Miles S, Madsen C, Valovirta E, Frewer L: Food allergy information resources for consumers, industry and regulators. Arb Paul Ehrlich Inst Bundesamt Sera Impfstoffe Frankf A M 2006(95):17-25; discussion 25-17.
Ivanciuc O, Schein CH, Braun W: SDAP: database and computational tools for allergenic proteins. Nucleic Acids Res 2003, 31(1):359-362.
Allcorn LC, Martin AC: SACS--self-maintaining database of antibody crystal structure information. Bioinformatics 2002, 18(1):175-181.
Huang J, Kawashima S, Kanehisa M: New amino acid indices based on residue network topology. Genome Inform 2007, 18:152-161.
Huang J, Honda W, Kanehisa M: Predicting B cell epitope residues with network topology based amino acid indices. Genome Inform 2007, 19:40-49.
Larsen JE, Lund O, Nielsen M: Improved method for predicting linear B-cell epitopes. Immunome Res 2006, 2:2.
Zhang W, Xiong Y, Zhao M, Zou H, Ye X, Liu J: Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature. BMC Bioinformatics 2011, 12:341.
Kulkarni-Kale U, Bhosle S, Kolaskar AS: CEP: a conformational epitope prediction server. Nucleic Acids Res 2005, 33(Web Server issue):W168-171.
Haste Andersen P, Nielsen M, Lund O: Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci 2006, 15(11):2558-2567.
Sun J, Wu D, Xu T, Wang X, Xu X, Tao L, Li YX, Cao ZW: SEPPA: a computational server for spatial epitope prediction of protein antigens. Nucleic Acids Res 2009, 37(Web Server issue):W612-616.
Hu X, Zhou W, Udaka K, Mamitsuka H, Zhu S: MetaMHC: a meta approach to predict peptides binding to MHC molecules. Nucleic Acids Res 2010, 38(Web Server issue):W474-479.
Zhang GL, Ansari HR, Bradley P, Cawley GC, Hertz T, Hu X, Jojic N, Kim Y, Kohlbacher O, Lund O et al: Machine learning competition in immunology - Prediction of HLA class I binding peptides. J Immunol Methods 2011, 374(1-2):1-4.
Smith GP: Filamentous fusion phage: novel expression vectors that display cloned antigens on the virion surface. Science 1985, 228(4705):1315-1317.
Devlin JJ, Panganiban LC, Devlin PE: Random peptide libraries: a source of specific protein binding molecules. Science 1990, 249(4967):404-406.
Smith GP, Petrenko VA: Phage Display. Chem Rev 1997, 97(2):391-410.
Huang J, Gutteridge A, Honda W, Kanehisa M: MIMOX: a web tool for phage display based epitope mapping. BMC Bioinformatics 2006, 7:451.
Huang J, Ru B, Dai P: Prediction of protein interaction sites using mimotope analysis. In: Protein-Protein Interactions - Computational and Experimental Tools. Edited by Cai W: InTech; 2012: 189-206.
Tong AH, Drees B, Nardelli G, Bader GD, Brannetti B, Castagnoli L, Evangelista M, Ferracuti S, Nelson B, Paoluzi S et al: A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules. Science 2002, 295(5553):321-324.
Thom G, Cockroft AC, Buchanan AG, Candotti CJ, Cohen ES, Lowne D, Monk P, Shorrock-Hart CP, Jermutus L, Minter RR: Probing a protein-protein interaction by in vitro evolution. Proc Natl Acad Sci U S A 2006, 103(20):7619-7624.
Pasqualini R, Ruoslahti E: Organ targeting in vivo using phage display peptide libraries. Nature 1996, 380(6572):364-366.
Hsiung PL, Hardy J, Friedland S, Soetikno R, Du CB, Wu AP, Sahbaie P, Crawford JM, Lowe AW, Contag CH et al: Detection of colonic dysplasia in vivo using a targeted heptapeptide and confocal microendoscopy. Nat Med 2008, 14(4):454-458.
Macdougall IC, Rossert J, Casadevall N, Stead RB, Duliege AM, Froissart M, Eckardt KU: A peptide-based erythropoietin-receptor agonist for pure red-cell aplasia. N Engl J Med 2009, 361(19):1848-1855.
Knittelfelder R, Riemer AB, Jensen-Jarolim E: Mimotope vaccination--from allergy to cancer. Expert Opin Biol Ther 2009, 9(4):493-506.
Lee YJ, Yi H, Kim WJ, Kang K, Yun DS, Strano MS, Ceder G, Belcher AM: Fabricating genetically engineered high-power lithium-ion batteries using multiple virus genes. Science 2009, 324(5930):1051-1055.
Nam YS, Magyar AP, Lee D, Kim JW, Yun DS, Park H, Pollom TS, Jr., Weitz DA, Belcher AM: Biologically templated photocatalytic nanostructures for sustained light-driven water oxidation. Nat Nanotechnol 2010, 5(5):340-344.
Smothers JF, Henikoff S, Carter P: Affinity selection from biological libraries. Science 2002, 298(5593):621-622.
Menendez A, Scott JK: The nature of target-unrelated peptides recovered in the screening of phage-displayed random peptide libraries with antibodies. Anal Biochem 2005, 336(2):145-157.
Vodnik M, Zager U, Strukelj B, Lunder M: Phage display: selecting straws instead of a needle from a haystack. Molecules 2011, 16(1):790-817.
Thomas WD, Golomb M, Smith GP: Corruption of phage display libraries by target-unrelated clones: diagnosis and countermeasures. Anal Biochem 2010, 407(2):237-240.
Brammer LA, Bolduc B, Kass JL, Felice KM, Noren CJ, Hall MF: A target-unrelated peptide in an M13 phage display library traced to an advantageous mutation in the gene II ribosome-binding site. Anal Biochem 2008, 373(1):88-98.
Derda R, Tang SK, Li SC, Ng S, Matochko W, Jafari MR: Diversity of Phage-Displayed Libraries of Peptides during Panning and Amplification. Molecules 2011, 16(2):1776-1803.
Ru B, Huang J, Dai P, Li S, Xia Z, Ding H, Lin H, Guo F, Wang X: MimoDB: a New Repository for Mimotope Data Derived from Phage Display Technology. Molecules 2010, 15(11):8279-8288.
Huang J, Ru B, Zhu P, Nie F, Yang J, Wang X, Dai P, Lin H, Guo FB, Rao N: MimoDB 2.0: a mimotope database and beyond. Nucleic Acids Res 2012, 40(Database issue):D271-277.
Huang J, Ru B, Dai P: Bioinformatics resources and tools for phage display. Molecules 2011, 16(1):694-709.
Mandava S, Makowski L, Devarapalli S, Uzubell J, Rodi DJ: RELIC--a bioinformatics server for combinatorial peptide analysis and identification of protein-ligand interaction sites. Proteomics 2004, 4(5):1439-1460.
Huang J, Ru B, Li S, Lin H, Guo FB: SAROTUP: scanner and reporter of target-unrelated peptides. J Biomed Biotechnol 2010, 2010:101932.
Abhinandan KR, Martin AC: Analysis and improvements to Kabat and structurally correct numbering of antibody variable domains. Mol Immunol 2008, 45(14):3832-3839.
Deret S, Maissiat C, Aucouturier P, Chomilier J: SUBIM: a program for analysing the Kabat database and determining the variability subgroup of a new immunoglobulin sequence. Comput Appl Biosci 1995, 11(4):435-439.
Martin AC: Accessing the Kabat antibody sequence database by computer. Proteins 1996, 25(1):130-133.
Abhinandan KR, Martin AC: Analyzing the "degree of humanness" of antibody sequences. J Mol Biol 2007, 369(3):852-862.
Abhinandan KR, Martin AC: Analysis and prediction of VH/VL packing in antibodies. Protein Eng Des Sel 2010, 23(9):689-697.
Whitelegg NR, Rees AR: WAM: an improved algorithm for modelling antibodies on the WEB. Protein Eng 2000, 13(12):819-824.
Arnold K, Bordoli L, Kopp J, Schwede T: The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling. Bioinformatics 2006, 22(2):195-201.
Marcatili P, Rosi A, Tramontano A: PIGS: automatic prediction of antibody structures. Bioinformatics 2008, 24(17):1953-1954.
Sircar A, Kim ET, Gray JJ: RosettaAntibody: antibody variable region homology modeling server. Nucleic Acids Res 2009, 37(Web Server issue):W474-479.
Tseng YY, Dupree C, Chen ZJ, Li WH: SplitPocket: identification of protein functional surfaces and characterization of their spatial patterns. Nucleic Acids Res 2009, 37(Web Server issue):W384-389.
Liang J, Edelsbrunner H, Woodward C: Anatomy of protein pockets and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998, 7(9):1884-1897.
Xiang Z, Todd T, Ku KP, Kovacic BL, Larson CB, Chen F, Hodges AP, Tian Y, Olenzek EA, Zhao B et al: VIOLIN: vaccine investigation and online information network. Nucleic Acids Res 2008, 36(Database issue):D923-928.
He Y, Xiang Z, Mobley HL: Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development. J Biomed Biotechnol 2010, 2010:297505.
Tettelin H, Saunders NJ, Heidelberg J, Jeffries AC, Nelson KE, Eisen JA, Ketchum KA, Hood DW, Peden JF, Dodson RJ et al: Complete genome sequence of Neisseria meningitidis serogroup B strain MC58. Science 2000, 287(5459):1809-1815.
Pizza M, Scarlato V, Masignani V, Giuliani MM, Arico B, Comanducci M, Jennings GT, Baldi L, Bartolini E, Capecchi B et al: Identification of vaccine candidates against serogroup B meningococcus by whole-genome sequencing. Science 2000, 287(5459):1816-1820.
Black S, Pizza M, Nissum M, Rappuoli R: Toward a meningitis-free world. Sci Transl Med 2012, 4(123):123ps125.
Duquesnoy RJ: Antibody-reactive epitope determination with HLAMatchmaker and its clinical applications. Tissue Antigens 2011, 77(6):525-534.
Filho HL, da Mata Sousa LC, von Glehn Cde Q, da Silva AS, dos Santos Neto Pde A, do Nascimento F, de Castro AF, do Nascimento LM, Kneib C, Bianchi Cazarote H et al: EpHLA software: a timesaving and accurate tool for improving identification of acceptable mismatches for clinical purposes. Transpl Immunol 2012, 26(4):230-234.
Gibson J: Bioinformatics of protein allergenicity. Mol Nutr Food Res 2006, 50(7):591.
Goodman RE: Practical and predictive bioinformatics methods for the identification of potentially cross-reactive protein matches. Mol Nutr Food Res 2006, 50(7):655-660.
Sanchez-Monge R, Lopez-Torrejon G, Pascual CY, Varela J, Martin-Esteban M, Salcedo G: Vicilin and convicilin are potential major allergens from pea. Clin Exp Allergy 2004, 34(11):1747-1753.
Beyer K, Grishina G, Bardina L, Grishin A, Sampson HA: Identification of an 11S globulin as a major hazelnut food allergen in hazelnut-induced systemic reactions. J Allergy Clin Immunol 2002, 110(3):517-523.
Illing PT, Vivian JP, Dudek NL, Kostenko L, Chen Z, Bharadwaj M, Miles JJ, Kjer-Nielsen L, Gras S, Williamson NA et al: Immune self-reactivity triggered by drug-modified HLA-peptide repertoire. Nature 2012, 486(7404):554-558.
總結
- 上一篇: ansible系列3-pyYAML
- 下一篇: 建行信用卡装修贷款申请条件有哪些?你是否