QB期刊 | 纪念HGP20周年系列文章3:陈润生院士回顾我国早期生物信息学的发展...
? ? 2021年是人類基因組草圖公布的20周年,QB期刊非常榮幸地邀請到了一批曾在人類基因組計劃(HGP)中發揮重要作用并做出突出貢獻、或見證HGP重大進展和影響的杰出科學家,為大家分享HGP背后的故事。我們相信這些故事不僅可以帶給大家很多見解,也可以為定量生物學未來的發展提供啟示。在QB2021年第1期中,QB編輯部分別邀請了Michael S. Waterman教授講述了HGP最早的那段歷史(點擊這里閱讀全文)以及Michael Q. Zhang教授分享了自己參與HGP的部分工作以及在從事基因組研究中的個人感悟(點擊這里閱讀全文)。
? ? 在第3期的文章中,QB編輯部又邀請了楊煥明院士、陳潤生院士以及美國Andrew F. Neuwald教授分別分享他們經歷HGP研究的見聞及感想。今天先和大家分享的是陳潤生院士的 “Early bioinformatics research in China”文章(點擊文末“閱讀原文”下載PDF全文)。在文章中,陳院士不僅回顧了國內早期生物信息學的發展及相關專家和團隊,還介紹了自己課題組如何加入國內HGP研究,以及克服各種困難從事非編碼序列研究的經歷。
陳潤生? 院士
Profile
? ? 陳潤生院士現任中國科學院生物物理研究所研究員,Quantitative Biology期刊編委。2007年當選中國科學院院士,2014年當選歐亞科學院院士,曾獲國家科學技術進步獎二等獎(第一完成人)。他是我國最早從事理論生物學、生物信息學以及非編碼RNA研究的科研人員之一。參加完成了我國第一個完整基因組泉生熱袍菌B4基因組序列的組裝和基因標識,并參加了人類基因組1%和水稻基因組工作草圖的研究。在非編碼RNA研究中,構建了收錄非編碼RNA及其基因的數據庫NONCODE,以及收錄非編碼RNA與其它生物大分子相互作用的數據庫NPInter,這兩個數據庫已成為國際在非編碼RNA領域非常有影響力的數據庫。
文章概要
? ? 生物信息學一詞是1988年由Dr. Hwa A. Lim首創,其定義為 “生物信息學是一門收集、分析遺傳數據以及分發給研究機構的新學科“。生物信息學真正的發展壯大得益于人類基因組計劃的實施,其內涵也更加豐富。它是當今自然科學和技術科學領域中“基因組”、“信息結構”和“復雜性”這三個重大科學問題的有機結合。
? ? 國際人類基因組研究醞釀于上世紀八十年代末,起始于九十年代初,我國科學家在1991年就已經討論如何參與基因組研究的事情。當時的國家自然科學基金委員會生命科學部主任吳旻先生于1991年底向基金委遞交了中國人類基因組計劃的重大課題建議書。1993年9月28日,由國家自然科學基金委員會生命科學部組織的以談家楨教授為組長的專家組,在滬論證并通過了強伯勤教授、陳竺研究員申請的《中華民族基因組中若干位點基因結構的研究》重大項目,這標志我國HGP(Human Genome Project)正式啟動。
? ? 陳潤生先生從上世紀八十年代末就開始關注人類基因組研究,特別是讀了發表于1990年4月6日Science上由James Watson撰寫“The Human Genome Project: Past, Present, and Future”一文后,他將自己長期以來對人類基因組的認識和理解通過郵件與James Watson教授進行交流。讓陳先生沒有想到的是與他素未謀面過的James Watson教授竟寄來了一份美國人類基因組第一個五年計劃的正式文件。在讀完這份文件后,陳先生堅定了投身基因組研究的決心。同時也了解到信息分析,包括序列的組裝與功能元件的標識是本項目的關鍵。隨后,陳先生找到吳旻先生表示愿意無償參加國內人類基因組研究項目中的序列組裝和分析這一環節,所以陳先生課題組從一開始就參加了我國人類基因組計劃的研究工作。
? ? 1998年隨著“國家基因組北方研究中心” (主任是強伯勤院士,學術委員會名譽主任是吳旻院士)和“國家基因組南方研究中心”成立(主任是陳竺院士),及1999年7月“北京華大基因研究中心”的成立,我國人類基因組大規模測序工作蓬勃展開并實現了與國際的接軌,參加了國際“人類基因組計劃”,并承擔了人類3號染色體短臂3000萬堿基(約占人類基因組全部堿基序列的1%)的測序任務。
? ? 在大規模的人類基因組測序之前,為了進行各項準備和鍛煉隊伍,中科院微生物所譚華榮團隊、遺傳發育所楊煥明團隊和生物物理所陳先生的團隊商定先進行一個微生物全基因組的序列測定。通過對各種因素分析后,最后確定了由云南騰沖熱泉里篩選出的具有我國知識產權并且只有三百萬堿基的泉生熱胞菌B4為研究對象。但令大家沒有想到的是這個細菌基因組的AT堿基含量很高(達到62.4%),GC含量卻很低(僅為37.6%)。由于當時沒有現成的軟件工具,所有的拼接、組裝和基因標識的算法和程序都是由團隊人員獨立完成。
? ? 在參加國內人類基因組計劃研究中,陳先生課題組的任務是DNA序列的拼接、組裝和功能元件(主要是編碼基因)識別的方法研究。為此,課題組建立了DNA序列的統計分析、分維分析、神經網絡、復雜性、局域簡并度等多種方法,特別是在國際上首次提出密碼學方法(Jun Xu, Runsheng Chen*, Lunjiang Ling, Ruqun Shen and Jian Sun:? Coincident Indices of Exons and Introns, Comput. Biol. Med. ?23 333-343 1993. ),并將這些方法綜合起來用于基因識別等,提高了預測的成功率。這一成果于1996年 9月29日在日本筑波召開的第十五屆國際科學技術數據委員會(CODATA)大會上獲得了“小谷正雄 ”獎 (“Kotani Prize”,生物領域)。
? ? 隨著參加基因組分析的工作越來越多,陳先生堅信基因組中除了編碼序列,大量的非編碼序列也具有一定的生物學功能。但由于當時國際上從事非編碼RNA研究的團隊不多,缺少大量實驗數據,要從生物信息角度分析了解非編碼序列的功能等于在做無米之炊。1999年起,陳先生開始建立自己的濕實驗室,以期通過自己產生的數據對非編碼RNA進行功能研究。但一直做理論研究的陳先生要從事分子生物學的研究并非易事。人才在哪里?經費在哪里?設備是什么?做什么?怎么做?都是亟待解決的問題。好在實驗室當時請來實驗做的比較好的鄧巍老師,以非編碼序列高達70%的多細胞模式動物線蟲作為切入點,并對轉錄本的長度范圍限定在50-500個堿基的序列進行研究。經過四年多系統而深入的研究,實驗室不僅在理論方面建立了一套自己的非編碼基因預測方法,還在線蟲中發現了161個新的非編碼基因,并確定了兩個非編碼基因家族,發現了三個特異的非編碼基因啟動子,結果顯示非編碼基因與編碼基因一樣各自有一套獨立的轉錄調控系統。論文于2006年1月6日在“Genome Research”發表后,美國科協(AAAS)所屬的科學評述雜志”EurekAlert”在1月9日發表了長文介紹了這一研究成果。介紹中不僅肯定了上述發現,還指出實驗技術的效率比國際上提高了10倍。所有發現的非編碼基因都收錄于GenBank (NCBI accession number: AY948555-- AY948719)。接著,應用線蟲研究中建立的整套非編碼基因的識別方法,獨立地承擔了人類3號染色體完成圖中非編碼基因的識別工作,發現了各類型非編碼基因近900個,作為署名作者本文于2006年發表在Nature上。
? ? 與此同時,陳先生課題組自2000年起就開始搜集國際上被實驗證實的NcRNA基因及非編碼轉錄本,發展了相應的軟件及檢索工具,建成了NcRNA數據庫--NONCODE,這是當前國際上最全的NcRNA數據庫,已成為很多研究的基本數據源,該工作的學術貢獻是提出了非編碼基因的分類系統。文章剛一發表,2005年1月21日Science雜志就介紹了該工作。此后,又構建了非編碼RNA和蛋白等相互作用數據庫--NPInter,這些均為國際非編碼基因研究提供了數據基礎。
? ? 在陳先生進行生物信息學研究之前,國內還有許多專家和團隊早在二十世紀八十年代初期就開始了這方面的研究。如內蒙古大學羅遼復教授于1982年起帶領團隊從理論物理轉向理論生物學研究,并把主要精力放到DNA序列研究上,這在國內是早的和為數不多的團隊。在此期間,他們提出了DNA序列分析的信息學理論。天津大學的張春霆教授在上世紀八十年代中期以后開始從事DNA理論研究,其貢獻一方面是提出了用雙Sine—Gordon偏微分方程組來模擬DNA分子在轉錄和復制過程中堿基運動的動力學機制;另一方面是提出了DNA序列的Z曲線理論,開拓了一條用幾何學方法分析DNA序列的新途徑。目前,Z曲線理論在基因組學和生物信息學中已獲得了廣泛的應用。由于在理論生物學和生物信息學領域的貢獻張春霆教授于1995年當選為中國科學院院士。1997年兩位在數理科學領域成績卓著的科學家郝柏林院士和李衍達院士帶領他們的團隊加入了基因組序列的信息分析,這不僅壯大了我國的生物信息研究隊伍,更激發了科技界對基因組學研究的興趣。2000年前后的很長一段時間,郝柏林先生和鄭偉謀教授經常出現在位于北京空港開發區的華大基因研究院。在那里他們致力于發展新的算法完成水稻基因組的組裝和信息挖掘。同時,郝先生還發展了“K-mer(K長度字符串)”技術利用全基因組數據重建了原核生物的生命演化之樹,這一套微生物親緣關系分析軟件CVtree得到國際認可。一進入生物信息領域,郝先生就和劉寄星教授主編了《理論物理與生命科學》一書(1997年12月,上海科學技術出版社)。2000年郝先生和他的夫人張淑譽教授合著了《生物信息學手冊》(2000年10月,上海科學技術出版社),2002年又出版了《生物信息學手冊 第二版》。2003年郝先生還寫了專門介紹生物信息學的著作《生物信息學淺說》。郝先生對我國生物信息學的發展做出了卓越的貢獻。1997年,李衍達院士與孫之榮教授合作創建了清華大學生物信息學研究所,2002年發展為生物信息學教育部重點實驗室。長期以來,他們培養了一大批生物信息學領域的骨干人才,為中國生物信息學的推廣和生物信息學領域的發展做出了重要貢獻。
? ? 進入二十一世紀后,又有兩只重要的隊伍開展了生物信息學的相關研究,分別是北京大學理論生物學中心和上海生物信息學中心。北京大學理論生物學中心是在李政道先生提議下、在北京大學有關領導的倡導和大力支持下于1999年開始籌建,2001年9月17日正式成立,它集中數學、物理、化學、力學、生物及計算機科學的研究力量,從實驗與理論兩個方向開展關于生物學交叉的理論生物學與系統生物學研究工作,特別是在生物調控網絡等的研究上取得了重要的成果。開始建立時的重要成員包括:來魯華教授、佘振蘇教授、湯超教授和歐陽頎教授,后兩位現已當選為中國科學院院士。中心現已更名為北京大學定量生物學中心。上海生物信息學中心成立于2000年6月,是中國科學院上海生命科學研究院內的生物信息學支撐平臺,中心主任為李亦學研究員。這支隊伍成為2002年成立的上海生物信息技術研究中心的核心力量。這一中心隸屬于上海科學院,是由上海市科學技術委員會依托中國科學院上海生命科學研究院、國家人類基因組南方研究中心、復旦大學、上海交通大學、上海醫藥工業研究院等11家科研單位,整合上海生物信息學主要研究力量正式組建的團隊。中心是一個專業從事生物信息研究和數據庫建設、生物信息學軟件開發的獨立事業法人單位,是上海市生物信息學會的依托單位。
? ? 2001年以后人類基因組、水稻基因組的數據先后公布,轉錄組、蛋白質組等功能基因組的數據不斷出現。隨著組學大數據的快速發展,我國從事生物信息學的個人或團隊在2002年以后迅速增加,比如哈爾濱醫科大學2004年3月學校正式批準成立了生物信息學系,李霞教授為系主任。2007年又在該系的基礎上成立了生物信息科學與技術學院,這樣巨大的規模,在國內也是首屈一指。
Quantitative Biology期刊介紹
? ? Quantitative Biology (QB)期刊是由清華大學、北京大學、高教出版社聯合創辦的全英文學術期刊。QB主要刊登生物信息學、計算生物學、系統生物學、理論生物學和合成生物學的最新研究成果和前沿進展,并為生命科學與計算機、數學、物理等交叉研究領域打造一個學術水平高、可讀性強、具有全球影響力的交叉學科期刊品牌。?
? ? ? ?為了促進本領域的學術交流,歡迎大家掃描下面二維碼進入《定量生物學》期刊交流群。
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的QB期刊 | 纪念HGP20周年系列文章3:陈润生院士回顾我国早期生物信息学的发展...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GPU(CUDA)学习日记(十一)---
- 下一篇: 人类为什么没有尾巴?这个跳跃基因抹去了人