一个10篇一作SCI博士的走心分享----宏组学研究之“道” (完整收藏版)!!
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
寫在前面
我自己做科研的邏輯其實挺簡單的,就是拆分、細化、成本核算的一個過程。
但是這種東西就是這個樣子,說起來容易,理解起來難,轉化為自身并加以應用更難!!
每個人最終其實都應該形成自己的“道”,但這個東西不是一朝一夕就可以的,也不是看了別人說的照著做就能行的。
這個東西其實和“三觀”的形成過程有點像,每個人的人生經歷和現有的知識儲備不可能完全一樣,也就是說你的“道”也不可能和別人完全一樣,所以說用別人的“道”硬往自己身上套肯定會出現很多的不兼容。
舉個例子,我們經常會遇到一種情況,同一個人說了同一句話,不同的人聽了理解的意思完全不同,有些人的理解可能完全偏離了說話人想表達的東西。
舉個更具體一點的例子,經常會有人來問我一些問題,這個時候對方的心里肯定是認為自己把問題描述清楚了,但其實很多時候我都是要靠猜。
反過來也是一樣,有時候我覺得理解了對方說的問題,但其實根本就是南轅北轍。這個時候我們說的就會驢唇不對馬嘴,最后問題基本上得不到解決。
這其實就是因為兩個人的背景不一樣,思考問題的方式不一樣,也即是“道”不一樣導致的一些不兼容。
再說一個非常現實的問題,作為一個學生來說,你和導師的“道”是不可能完全一致的,這個并不是說誰對誰錯的問題,也與導師的水平沒什么關系。
簡單的說就是兩個人的經歷背景不同,現有的知識體系不同,導師說的東西對于他自己來說肯定是完全的“對”,但是這個東西必然不能完全的適合于學生。
作為一個學生,如果不能把老師說的東西進行消化、吸收、修改、轉化,進而融入自己的“道”,而是不加思索的完全照做,那最后的結果大概率是不會成功的。
實驗為什么會失敗?為什么得不到想象中的結果?為什么文章寫不出來?
其實都是源自于此,“學而不思則罔”!!
說了這么多就是想傳達一個觀點,我接下來寫的東西是我的“道”,大家不要不假思索的照搬,我更希望大家能夠在科研實踐的過程中把我的東西揉碎了融入到自己的“道”中。
我的“道”
用一張圖來展示一下我平時做一項工作的邏輯流程。
圖比較簡單,這個東西也沒辦法講的太細,因為每個人面對的情況都不一樣,就算用一個實例來詳細的說一遍,其實對大家幫助也不大,還是要在自己研究的實踐過程中才能慢慢的掌握。
這里有兩點要強調一下。
第一,一定要記得,不是所有的工作都是能完成的,有些東西硬逼也逼不出來,該放棄的還是要放棄,而且越早放棄其實是越有利的。
執行人的能力是一方面,有些工作確實是力所不能及,同時還有很多客觀條件限制,比如說需要一個儀器但就是沒有,需要一個樣品但就是拿不到,需要足夠的經費但是錢不夠。
這種時候正面硬剛解決不了問題,果斷放棄去做另一個能實現的工作不香么。
第二就是不要鉆牛角尖,我們在做科研的時候當然會有一個預期的假設或者結果,但是這東西永遠是預測,不是現實,其實更多的時候都是結果與預期并不一致,至少并不完全一致。
這是非常非常正常的事,但是很多人一遇到這種情況就懵了,然后就開始不斷的嘗試各種方法讓結果與預期一致,最終自己給自己灌輸了一個“與預期不一樣的結果就沒法用”的心理暗示,極端的情況可能還會導致個別人走上“學術不端”的不歸路。
其實完全沒有必要這樣,與預期不一致也不是沒有結果,把所有的結果都列出來,丟掉預先給自己設置的框架,單純的從結果出發,只要幾個結果之間能找到邏輯的聯系,能給出一些合理的解釋,那么也能講一個不錯的故事,文章也就出來了。
研究思路
接下來會分3部分來分別介紹一下宏組學研究從研究目的確定到執行的過程我是如何實現拆分和成本核算的。
當然水平有限,肯定做不到讓大家看完了就全懂了,只是希望盡量的能夠把與宏組學研究決策相關的幾個關鍵點講清楚。
第一部分主要是介紹一些宏組學研究的基本思路,所有的研究工作都是基于想要回答一個科學問題,沒有一個明確的科學問題,研究工作也就無從談起了。
現在宏組學相關的研究其實開展的已經非常廣泛了,大部分簡單的問題都已經有人做過了,現在能做的工作更多的是某一方向的細分內容或者是不同學科方向之間的交叉內容。
因為涉及到的方向非常多,我個人也沒有能力把一些科學問題說的特別的細,下面的內容大多只是對于一些宏觀研究方向的羅列,應該會對一些研究初期考慮是否能夠使用宏組學的方法有一定的幫助,但是對于具體的研究內容肯定需要各位自己的總結和思考。
做了一個圖對基本的研究思路做了一個歸類,當然比較簡陋、也比較表面,每一類也只是簡單的舉了一兩個基本的例子。
雖然比較簡陋,但是在選題的時候基本的思路就是這樣的,核心的觀點就是做的東西要是別人沒做過的,或者至少沒有完全回答清楚的問題。
現在大部分單一分類尺度的內容都已經被做過了,除非有一些特殊的研究靶標,比如說冷門的物種、特殊的環境、新型的添加劑、特定的處理等等。
如果這些東西你都沒有,換句話說就是你沒有別人拿不到的樣本,那就只能做的相對麻煩一點。
兩個基本的思路,一個是在單一問題上深入的研究,比如別人只觀察到有差異或者關聯,那你要做到回答這些表象下面的深層機制,這通常比較難,也更依賴于個人的能力。
第二個就是不同尺度的結合,比如說單一時間尺度和空間尺度都有人做了,那可以做一個時間+空間尺度的研究。再或者說正常發育階段的有人做了,那可以在正常發育過程中結合一些人為處理。通常這種工作相對來說比較容易,但是常規工作量可能會大一些,而且這種工作其實誰都能做,要想不被別人搶先,可能也要花費更多的經費。
宏組學研究框架
上一部分中,我淺要的談了一下宏組學研究的研究思路,也就是我們在開始進行研究之前所要確定的“科學問題”。
有了“科學問題”這個出發點,我們就可以進行研究方案框架的搭建工作。
整個的研究框架涉及以下幾個問題:
確定具體需要的宏組學技術;
樣本的設置和實驗的流程;
其它相關數據的獲取;
成本與成果的妥協。
接下來分別來介紹一下。
宏組學研究的分類
具體使用哪一種宏組學技術是確定研究方案的第一步,這直接關系到后續研究樣本的設置、樣本采集和保存的方法、組學數據獲取的技術策略以及數據的分析策略等等,而這一問題完全取決于最初想要研究的“科學問題”。
我個人把宏組學研究基本上分為三類:單一宏基因組學、比較宏基因組學、多組學關聯。
單一宏基因組學
顧名思義,就是對單一樣品進行宏基因組學的測序和研究。
這種方法一般是針對稀有、珍貴的樣本,比如極地、深海、太空等環境樣本。
主要的研究目的是深入研究其中難分離難培養的微生物,盡可能的得到不可培養微生物的完整基因組信息,從而對其生態功能、環境適應性、進化等方面進行研究,部分研究還會探索其工業應用的價值。
這種研究通常樣本數目較少,但是由于其需要盡可能的對測得的數據進行組裝,因此所需的測序數據量通常較大,一般都會達到100G以上,有的甚至會測數百G的數據進行分析。
比較宏基因組學
這種方法是目前使用最多的研究方式,簡單的說就是通過不同樣本之間的比較來回答最初的“科學問題”。
這種方法主要的研究目的是分析不同環境、不同處理、不同時間節點、不同來源、不同性狀等等總之就是不同的樣本中微生物群落結構和功能的差異,以及這些差異與樣品其它數據之間的關系。
那么很直觀的就是至少要有不同的樣本,單一樣本肯定是沒有辦法進行比較的。
這種比較通常是基于統計學的方法,那也就是說不同樣本之間要具有足夠的生物學重復,不然一方面很多比較方法無法進行計算,另一方面樣本量不足夠統計學分析結果的準確性也會受到影響。
生物學重復
生物學重復這個問題其實困擾了非常多的人,很多人都想讓別人告訴他多少個生物學重復就肯定足夠,這是不可能的,因為理論上來說多少個都不夠。(如果不是沒有錢,誰想測3個重復?)
一條其實不用說大家也都知道的規則就是:“能獲得多少樣本就測多少樣本”。
但這通常來說不現實,一方面有可能我們本身就拿不到幾個樣本,另一方面也是更為重要的就是兩個字“差錢”!!!
當然公司都會告訴大家最低要求3個重復,那3個重復到底夠不夠呢?
某種意義上來說是夠了,如果你對最終的成果沒有要求,簡單的說就是能發文章就行,那3個重復夠了。
要是稍微對研究成果有點要求,恐怕3個重復都是不夠的,要想發高水平的文章,那更是遠遠不夠。
現在的高水平文章,不說都是幾百個樣本,至少也是幾十個樣本吧。
所以道理也很簡單,想要發好文章就要舍得花錢多測點樣本。
雖然道理大家都懂,但是有些人就是比較軸,非要去琢磨這個臨界點,就想知道多少個樣本恰好就夠了,多一個樣本也不想測。
這個其實也很簡單,沒測出來結果之前沒人能說到底多少個樣本就恰好夠用,都是憑感覺,這個時候一定要想明白一個事情。
多測了樣本,是多花錢了,不過文章發出來了之后多花點錢其實可以接受,但要是測的樣本不夠,后期想補都沒法補,最后文章發不出來這個是沒法接受的。
有舍有得嘛,最好還是認花錢多測點樣本。
還有一些更不信邪的,非要去賭那些小概率事件,正常研究思路不想做總想著去以小博大,極端一點的比方說就想用1萬塊錢發10分的文章。
這種建議出門去買個雙色球,中了直接千萬富翁不需要搞科研了,沒中說明你運氣不行還是老老實實的做正常的研究吧。
比較+單一宏基因組學
宏基因組技術已經發展了很多年了,比較宏基因組的研究也已經非常多了,具體到現在來說,可能很多研究體系的簡單比較宏基因組已經被人做過很多了,這就需要研究人員更進一步。
很多研究者就將比較宏基因組學和單一宏基因組學相結合進行研究,簡單的說就是在比較宏基因組的基礎上對數據進行深度的拼接,爭取獲得一些物種的基因組草圖,從而為功能基因的宿主識別提供更準確的證據。
前面也說過了單一宏基因組學要求樣本的測序數據量比較大,而比較宏基因組學要求測序樣本的數目比較多,兩者相結合那研究所需要的成本就是幾何倍數的增加。
所以這種研究其實還是需要比較巧秒的設計的,對執行者個人能力的要求也很高,最好不要輕易嘗試。
多組學關聯
這個比較直觀,宏基因組只能回答基因層面的結果,可以結合宏轉錄組、宏蛋白質組、宏代謝組等技術的結果在生物代謝網絡水平得到更深入、更準確的研究結果。
另外一個方向是可以通過宿主的轉錄組、蛋白質組、代謝組數據與共生微生物的宏組學數據相結合,探索微生物與宿主的互作機制。
多組學關聯屬于投入大、回報大同時風險也大的研究方案。
投入大很好理解,單獨的宏基因組成本就已經很高了,還要再同時測其它的組學數據,這個成本一般的實驗室是很難承擔的。
回報大也比較好理解,多組學關聯研究由于數據很多、研究的非常深入,所以通常來說發表的都是“大文章”。
風險大其實往往是被忽視的一點,這么大的數據量、這么復雜的研究體系,首先對分析執行人的要求必然就很高,另外也非常容易遇到難以理解的、前后邏輯不通的、甚至是自相矛盾的結果。
所以說想要做好一個多組學關聯研究還是非常難的,在開始實施之前已經要有血本無歸的心理準備。
樣本的設置
a.在分析不同組樣品差異時,組內樣品具有其它因素的混淆者有助于真實差異單元的發現
這個不難理解,比方說做一個人類疾病相關的研究,理論上來說疾病組和健康組發現的差異就是與疾病有關的結果,但實際上,人類的性別、年齡、生活方式、飲食、生活地域等等因素都會對其產生影響。
極端的一點說,如果疾病組都是男性而對照組都是女性,那么發現的結果必然包含很多的性別差異,也就造成了研究結果的不準確。
b.長期的時間跨度研究可以同時解決混淆者和群落穩定性的問題
這一點其實和上一點比較類似,比方說我們想要分析某種人類活動對周圍環境的影響,我們如果只取一個時間點的受影響樣本和對照樣本,由于環境微生物還會受到其他氣候環境條件的影響,我們得到的差異結果必然就有一部分的假陽性。
此時如果采集一定時間跨度內的樣本進行綜合分析,就可以有效的排除其它環境因素的干擾,其實就是我上一篇推文中所說的時間和空間尺度結合的研究。
c.對于所有研究,標準的技術和樣品處理過程都十分必要
雖然說現在宏組學的技術已經比較成熟了,但是不同的實驗過程,比如說不同的試劑、不同的測序平臺、不同的樣本處理方式等等依然會對測序結果產生很大的影響。
所以在整個研究中,一定要保證所有樣本的處理和測序過程要完全一致,這可以去除試劑和操作因素導致的差異,同時要有不添加樣品的陰性對照,以排除某些試劑的特定影響。
這一點對于大規模樣本的研究或者是與前人已發表數據的綜合分析尤為重要。
d.對于動物模型研究,食糞性和父母差異的影響是必須要考慮的
動物的食糞性會導致“cage effects”,就是位于同一個籠子的動物個體會有明顯的趨同性。
同樣來自不同父母的動物個體會有很多固有的先天差異,這會導致研究結果的不準確。
這兩點都是在使用動物模型進行實驗和驗證時需要考慮的問題。
相關數據的收集
相關的數據也就是所謂的meta數據,在樣品采集過程中盡可能多的收集meta數據,以消除混淆因素對結果的影響。
臨床研究包括性別、年齡、抗生素使用情況、居住地、飲食等,環境樣品包括地理位置、季節、pH、溫度等,當然這些只是舉例,并不是全部,總之就是能多收集就多收集,越多越好。
收集這些數據的目的是什么呢?
一方面在后續的分析中,可能需要將meta數據與測序數據進行關聯從而回答一些研究中關注的問題。
另一方面也給了分析更多的可能性,比方說一開始的假設是研究個體間的性別差異,但是很不走運最后的結果沒有發現什么明顯的性別差異,此時如果有樣本的其它meta信息,比如說年齡、飲食等等,就可以直接轉而分析研究個體間的年齡差異,至少能保證這些數據不至于廢掉吧。
此外還有一點非常重要,就是要嚴格的、詳細的記錄實驗過程中的所有操作,包括樣品采集和DNA提取的間隔時間、冷凍儲存的時間、凍融次數等。
這樣能夠幫助我們在研究結果有異常的時候作出合理的判斷,從而給出一些對應的解釋。
成本與成果的妥協
其實無論是什么樣的研究方案,所有的樣本都進行宏基因組測序肯定是最好的,但是這也意味著研究的成分非常高,很多時候我們是無法承擔如此高昂的測序成本的。
那么也就不可避免的要做出一些妥協,其實很簡單,宏基因組價格比較貴,但是擴增子測序很便宜,我們可以大規模的對所有樣本先進行擴增子的測序,之后通過數據分析挑選出一些關鍵的樣本,再對這個關鍵的樣本進行宏基因組的研究。
以上就是宏組學研究的方案設計部分,最后給出一個總結的圖,大家可以看一下。
宏基因組研究策略
一個典型的宏基因組研究包括5步:
1.實驗過程,包括樣品收集、處理和測序;
2.測序reads的預處理;
3.數據分析,包括分類學、功能、基因特性分析等;
4.統計學和特定的生物信息學分析。
5.結果的驗證。
第一部分實驗的過程,在前文中已經說過了,測序reads的預處理這個沒什么好說的,就是質量控制,大家都需要進行的工作也有基本的質控標準,參照執行就可以了。
本部分重點來說一下數據分析的過程。
這里主要是針對宏基因組研究,宏基因組研究的數據分析過程基本上可以概括為3個層次:Read、Contig和Genome。
這三個層次并不是一個層級的關系,而是互相依賴的一個整體。
Read層次的分析
Read就是宏基因組測序直接得到的序列,read層次的分析就是不經過其它處理,直接使用測序得到的短序列進行下游的分析,包括物種分類學和功能基因的注釋及豐度計算。
這種分析策略的優勢是定量的結果相對比較準確,并且因為不需要對數據進行過多的處理,所以學習成本相對較低。
但是這種策略也有其難以跨越的瓶頸,因為是序列直接與參考數據庫比對進行注釋,那么參考數據庫就非常重要了,參考數據庫的覆蓋度和完整性對最終結果的影響非常的大。
我們都知道NCBI的NR和NT數據庫是目前來說最為完整的數據庫,但是read層次的宏基因組分析是無法直接通過與NR或NT數據庫比對進行注釋的。
這是因為本身宏基因組測序的數據量就非常的大,一個樣本的read條數都是百萬級,而NR和NT數據庫本身也非常的大,如果直接進行比對,對計算機的要求和時間成本都是無法接受的。
首先普通的服務器壓根就無法執行這個比對,就算勉強能夠執行,一個樣本的注釋做幾個月恐怕沒人能接受。
因此這種方法的開發人員都會建立專門的marker基因數據庫,這種數據庫通常都比較小,通過一些marker基因來代表不同的物種分類學和功能分類,典型的工具就是MetaPhlAn和Humann。
但是因為是選擇的marker,適用范圍和覆蓋程度都會存在一定的問題,比如說上面提到的這兩個工具,都是基于人類微生物組計劃開發的,對于人類相關的共生微生物注釋結果就還不錯,但是個人感覺對于環境微生物的分析偏差性還是挺大的。
所以說基于read的直接注釋分析,雖然在定量上更為準確,分析工具的學習和操作也相對容易,但是所用分析工具是否適合自身的研究的體系是必須要考慮的問題。
基于read的直接注釋分析更加適合于一些特定功能分類的注釋和定量研究,比如說抗生素抗性基因、污染物降解關鍵基因、氮循環相關基因等,只要參考數據庫建立的足夠好,那么得到的結果基本上都會讓人滿意。
contig層次分析
contig就是測序的read經過拼接得到的相對較長的序列,也就是說contig層次的分析需要先對測序數據進行拼接。
基本的過程是先將序列拼接為contigs、之后識別ORF進一步對其進行注釋分析。
相比于未拼接序列,拼接后的序列在定性方面更為準確,但定量上有一定偏差,這種方法的定量是通過read與拼接得到contigs的mapping,利用read的覆蓋深度進行定量。
這種方法是目前基本上所有測序公司統一使用的方法,為什么公司都要用這種方法呢?是這個方法效果最好么?
其實不是,首先使用這種方法是出于成本的考慮,宏基因組最開始出現的時候是沒有直接使用read進行分析的方法的。
那個時候并沒有特定功能的專門的參考數據庫也沒有針對read注釋開發的相應分析工具,對宏基因組注釋只有NR、KEGG、GO等少數幾個綜合數據庫。
還是剛才說的問題,數據量太大、數據庫也很大,直接比對成本不能接受,所以拼接其實是一個變通的方式,通過對數據的拼接,將數量龐大的原始短序列,縮減到只有幾百M的contigs數據,之后用contig中的基因與參考數據庫比對進行定性分析,這就大大縮減了注釋所需的成本。
之后再通過read與contig的mapping對其進行定量也是相對可以接受的結果。
我個人的感覺是,現在公司給的這些結果基本上是沒辦法直接使用的,就算有一些結果能用,對于現階段的研究來說也是遠遠不夠。
那為什么公司還一直在使用這個分析策略呢?為什么不添加一些其它的分析策略進來呢?
主要還是一個研究內容細化和成本的問題,公司要的是標準化,只有標準化才能控制成本,才能形成產品,但是研究人員要的是個性化,只有個性化才能達到研究目的發表文章。
而宏基因組恰恰又無法做到在標準化的方法中得到個性化的結果,這個東西并不像擴增子測序,在擴增子測序中不同的樣品使用同樣的分析流程就可以得到不同的結果,但是在宏基因組中,不同的功能基因組注釋就需要不同的分析流程,而每一項分析的成本又都很高,最終導致公司只能給出一個非常非常基本的結果。
所以還是想強調一下,如果覺得宏基因組研究就是樣品送到公司然后就能用公司給的結果寫文章那就大錯特錯了,這東西真沒這么簡單。
Genome層次分析
這個其實就是現在比較火的binning,通過分箱的方式從宏基因組數據庫中得到不可培養微生物的基因組草圖,這樣就可以把功能基因與物種分類通過實質的證據關聯起來,從而得到更為深入、更為明確的研究結果。
這種分析策略其實是contig層次分析的一個延伸,做binning之前首先就需要對數據進行拼接,再以得到的contig為基礎進行基因組草圖的繪制。
binning這個東西比較復雜,之后會開專門的專題來講,這里就提一點,對于自身沒有分析能力的實驗室,還是放棄binning這個方案吧,靠公司的結果幾乎不可能成功。
總結
總結一下整個宏組學研究中需要確定的問題:
1.實驗設計階段
確定樣品的時間、空間跨度范圍及樣品數量;
確定meta數據的內容及其測定方法;
確定樣品的保存方法。
2. 宏基因組和宏轉錄組測序的分析過程
確定DNA、RNA的提取、純化、擴增方法;
確定文庫構建類型和建庫方法;
確定測序平臺、測序深度和測序數據量;
確定數據要進行分析的項目;
確定物種分類學注釋采用的分析方法;
確定分析項目所使用的參考數據庫、搜索工具和注釋閾值;
確定數據拼接所用軟件和拼接參數以及ORF識別所用軟件;
確定ORF功能注釋作用的參考數據庫、搜索工具和注釋閾值;
確定binning所用軟件。
3. 宏蛋白質組和宏代謝組測序的分析過程
確定蛋白質和代謝物的提取方法;
確定蛋白質和代謝物測定平臺及樣品前處理方法;
確定蛋白質和代謝物的鑒定方法;
確定蛋白質和代謝物結果驗證的方法。
最后就是要評估每一個步驟有沒有能力完成,成本是否能夠接受。
參考文獻:
[1] Christopher Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017, 35, 833-844.
[2] Feng Ju et al. Experimental design and bioinformatics analysis for the application of metagenomics in environmental sciences and biotechnology. Environmental Science & Technology. 2015, 49(21), 12628-12640.
[3] Rob Knight et al. Best practices for analysing microbiomes. Nature Reviews Microbiology. 2018, 16, 410-422.
[4] Eric A. Franzosa et al. Sequencing and beyond: integrating molecular ‘omics’ for microbial community profiling. Nature Reviews Microbiology. 2015, 13, 360-372.
[5] Christopher Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017, 35, 833-844.
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的一个10篇一作SCI博士的走心分享----宏组学研究之“道” (完整收藏版)!!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 英雄?好汉?可否有人站出来回应下?
- 下一篇: Cell重磅综述:关于人类转录因子,你想