当我们谈论生信的时候我们在谈什么
生物信息學(xué)習(xí)的正確姿勢
NGS系列文章包括NGS基礎(chǔ)、高顏值在線繪圖和分析、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
作為進(jìn)化研究的重要手段,生物信息學(xué)擔(dān)當(dāng)了越來越重要的作用。作為一個(gè)極難進(jìn)行實(shí)驗(yàn)重復(fù)和驗(yàn)證的學(xué)科,只能嘗試根據(jù)現(xiàn)有的東西推斷上百萬及千萬年前的歷史。同時(shí),生物信息學(xué)依然受到很多的質(zhì)疑,且不為很多生物研究者所理解。這也是由于其是新興的交叉學(xué)科(統(tǒng)計(jì)學(xué),計(jì)算機(jī)科學(xué)與生物學(xué))的特性所決定的。
本片短文總結(jié)以下:我們應(yīng)該如何認(rèn)識(shí)生信,如何了解自己的定位,以及最關(guān)鍵,如何在茫茫生信海中找到出路。
@一些對生物信息學(xué)常見的誤解:
“你們搞分類的,搞分子的,搞生信的…”
雖然生物信息學(xué)聽起來確實(shí)有那么點(diǎn)點(diǎn)酷。可事實(shí)上,并不是進(jìn)行生物信息分析工作的人,都喜歡被別人尊稱為“搞生信的”。例如,分類學(xué)工作也會(huì)借助一代、二代甚至三代測序提供的分子標(biāo)記來進(jìn)行系統(tǒng)發(fā)育樹的構(gòu)建。
達(dá)爾文繪制的系統(tǒng)樹 現(xiàn)在該工作基本由計(jì)算機(jī)完成
純粹的濕實(shí)驗(yàn)研究,亦可使用生物信息學(xué)手段輔助進(jìn)行引物的構(gòu)建,序列的預(yù)測,或者通過多組學(xué)的手段來縮小的基因篩選目標(biāo),以降低對應(yīng)項(xiàng)目的時(shí)間成本。實(shí)際上,不論是“搞”什么,對應(yīng)的都應(yīng)該是一種方向的知識(shí),而知識(shí)是用來達(dá)成目標(biāo),也就是解決生物學(xué)問題的。“搞分類”指對特定類群的系統(tǒng)以及形態(tài)特性的掌握、“搞分子”指關(guān)注更微觀層面、以及使用濕實(shí)驗(yàn)手段的人群、而“搞生信”指的是工作在個(gè)人電腦或服務(wù)器上完成的生物分析。
對于生物學(xué)問題的解決,不同的能力可以共同使用,只是側(cè)重點(diǎn)稍有不同。所以我們平時(shí)理解的生物信息學(xué),和其本身的含義不同,在解決具體的生物問題上,應(yīng)該是作為一種工具。
“開局一篇測序報(bào)告,輸出全靠扯”
有的小伙伴認(rèn)為,進(jìn)行生物信息學(xué)相關(guān)生物學(xué)課題的研究,是很簡單的,博士幾年,什么實(shí)驗(yàn)沒做,入學(xué)三個(gè)月就有數(shù)據(jù),直接分析就行了,太輕松了吧?事實(shí)并非如此,拿到數(shù)據(jù)之后,工作才剛剛開始:拋開都需要的文獻(xiàn)和解讀工作不談,拿到數(shù)據(jù)的第一步需要對數(shù)據(jù)進(jìn)行質(zhì)量的評估,這個(gè)過程就需要上機(jī)器了。一篇文章或者一個(gè)項(xiàng)目,會(huì)有很多個(gè)研究和分析的點(diǎn),首先需要層層擊破。例如拿到一個(gè)物種的基因組數(shù)據(jù),在解答具體生物學(xué)問題前,一般需要檢測是否存在全基因組復(fù)制(WGD, Whole Genome Duplication)事件,計(jì)算自身同義替換率之前,需要找出同一次復(fù)制事件產(chǎn)生的基因?qū)Α5垲惡蟮玫降募易宄蓡T少則幾個(gè)多則幾十,如何界定誰和誰是一對則需要設(shè)計(jì)分析方法。當(dāng)然,這部分可以砸錢讓公司跑流程,但實(shí)際上不同物種差別很大,流程經(jīng)常會(huì)出現(xiàn)各種各樣看不出來的Bug,這方面也已經(jīng)有太多的實(shí)例。例如本身生活在特殊生境下,進(jìn)化速率很快的物種,其Ks峰可能會(huì)受到稀釋,只能通過共線性區(qū)段的分析尋找蹤跡,這些工作公司可是無法幫你完成的。
拿到數(shù)據(jù)后 復(fù)雜的分析流程才剛剛開始
“除了測序費(fèi),基本無開銷”?
絕對不是!首先測序費(fèi)本身就是很大的一筆經(jīng)費(fèi)。雖然說測序費(fèi)用越來越便宜,但這也代表著解決同一個(gè)生物學(xué)問題,使用同樣的經(jīng)費(fèi),能產(chǎn)出的數(shù)據(jù)越來越多,對結(jié)果的要求就越來越準(zhǔn)確,雜志的同行審議也會(huì)越來越嚴(yán)格。其次是服務(wù)器集群,一個(gè)合格的具備生物信息分析能力的課題組,機(jī)器是不可少的。少則大幾萬十幾萬,多則上百萬不封頂,每年的電費(fèi)也是以萬十萬計(jì)算的。即使租借,每個(gè)月也是一筆不小的開銷。另外,大部分自己有服務(wù)器集群的組,都需要有專人進(jìn)行維護(hù)和管理,管理的人工費(fèi)也不低。
以數(shù)據(jù)公開和接受為主的雜志越來越多 生物學(xué)問題也變得更為重要
最后還有,咖啡咖啡咖啡!!這部分的經(jīng)費(fèi)很多課題組都會(huì)忽略,據(jù)我觀察,之前留過較頂級的生信課題組,咖啡的飲用和購買量是遠(yuǎn)遠(yuǎn)高于其他課題組的,一個(gè)是生信人,除了會(huì)把更多的時(shí)間花在電腦前靠喝咖啡緩解因出bug以后無處安放的雙手外,不要忘記,每個(gè)生信人都有著程序員的魂,因?yàn)楣ぷ鞯攸c(diǎn)不受限制,加班熬夜是家常便飯。
一天四杯膠囊咖啡是家常便飯
@生信人的分類:
根據(jù)一些年的經(jīng)驗(yàn),身邊做生信的人大致可以分為三類:
法師型選手
生物學(xué)出身,需要使用生信解決問題的人。常見于高校或研究機(jī)構(gòu)的老師和學(xué)生。了解生物學(xué)基礎(chǔ)問題,但對生信分析手段的了解程度參差不齊:
初級生信學(xué)者,指自己的研究課題需要使用到生物信息學(xué)的手段,這類小伙伴的生物信息工作主要由其他熟悉生信的人或者生物公司完成,并需要將結(jié)果轉(zhuǎn)換為熟悉的生物學(xué)語言,方能完成論文及項(xiàng)目;
中級生信學(xué)者:自己能夠進(jìn)行基本的分析,例如序列比對,系統(tǒng)發(fā)育樹的構(gòu)建等等,并能使用一下在線工具和平臺(tái)完成基礎(chǔ)的分析,完善自己的論文工作,更為復(fù)雜的分析則由其他小伙伴或生物公司完成;
高級生信學(xué)者:在熟悉生物學(xué)基礎(chǔ)的情況下,了解大部分生信軟件的使用,并能夠構(gòu)建基礎(chǔ)的流程,根據(jù)挖掘出來的生物學(xué)問題,進(jìn)行生信分析策略的調(diào)整,這類小伙伴能夠和公司互補(bǔ),以促進(jìn)項(xiàng)目的完成。
?戰(zhàn)士型選手
計(jì)算機(jī)、統(tǒng)計(jì)、數(shù)學(xué)等專業(yè)背景,后轉(zhuǎn)入生物信息。隨后進(jìn)行生物知識(shí)的補(bǔ)充,根據(jù)自己的發(fā)展目標(biāo)可以分為兩類:
1)著重流程的構(gòu)建和分析項(xiàng)目的完成,有基礎(chǔ)的生物學(xué)知識(shí),不過多關(guān)注生物學(xué)問題。這類生信人常見于生物公司的技術(shù)人員。他們的目標(biāo)是能夠高效的完成工作,他們和了解生物學(xué)問題的老師或同事一起可以釋放出強(qiáng)大的能量。
2)隨著對生信的接觸,開始熟悉生物學(xué)知識(shí)并開始產(chǎn)生濃厚興趣,對他們來說,這些生物學(xué)問題是他們應(yīng)用所學(xué)知識(shí)的特定場景,力求根據(jù)場景的需要構(gòu)建合適的流程。
大賢者
無所謂何種背景,左可入硅實(shí)驗(yàn),右可入濕實(shí)驗(yàn),看起來什么都懂,并能融匯貫通。對于這類人而言,生物學(xué)和計(jì)算機(jī)科學(xué)和其他學(xué)科一樣,對于他們都是一種知識(shí),可以說是前兩種類型的綜合體。他們的目標(biāo)是為了解決對應(yīng)的項(xiàng)目或生物學(xué)問題,生物信息學(xué)只是和PCR,電泳一樣的普通實(shí)驗(yàn)手法,為達(dá)到目標(biāo)用一用就好了。大賢者成為了實(shí)驗(yàn)室的PI,則絕對是沖鋒型的老板。
大魔導(dǎo)師
對算法問題近乎饑渴和瘋狂,著迷于方法學(xué)不可自拔,是生物信息學(xué)發(fā)展基礎(chǔ)的推動(dòng)力之一。他們不關(guān)注大的生物學(xué)問題,僅在意特定軟件所解決的生物學(xué)場景,不斷的優(yōu)化算法,力求達(dá)到百密無一疏,以及高速運(yùn)行的目標(biāo)。大量魔導(dǎo)師混跡于一個(gè)叫做GitHub的網(wǎng)站,并經(jīng)常互相斗法以交流法術(shù)研發(fā)心得。
???
無欲無求,進(jìn)行生信研究純粹是為了滿足自身的愛好和好奇心,和自己的課題目標(biāo)不一定相關(guān),經(jīng)常不小心做一些“支線任務(wù)”。但他們對生物學(xué)問題和計(jì)算機(jī)問題的銜接有自己獨(dú)到的見解,經(jīng)常做出一些騷操作。甚至?xí)褂蒙镄畔W(xué)手段來解決一些社會(huì)學(xué)問題。
@如何關(guān)愛身邊的生信小伙伴:
1. 看他整日坐在電腦前,不參加課題組其他的工作,千萬不要覺得他在偷懶。他可能正在非常煎熬的應(yīng)對某個(gè)問題,甚至可以給他一點(diǎn)鼓勵(lì),因?yàn)樗娴臅?huì)很擔(dān)心別人覺得他偷懶。
2 讓他幫忙之前先問清楚他可能需要的時(shí)間,是否會(huì)耽誤他手頭的工作。因?yàn)榭此坪唵蔚囊豁?xiàng)工作,他有時(shí)就要為此熬幾個(gè)晚上:例如“隨便跑個(gè)樹就行”或“隨便算個(gè)分子鐘就行”。正是因?yàn)樗茉谝饽?#xff0c;所以會(huì)去閱讀很多文獻(xiàn)并改善流程才能完成這些“簡單的任務(wù)”,單純的下載數(shù)據(jù)也都會(huì)花費(fèi)很多時(shí)間。
3 看到他在咖啡廳玩電腦,或者在辦公室看不到他人的時(shí)候,也不要覺得他是在偷懶。只要有一臺(tái)電腦和wifi,所有地方都是他的辦公室!
@生信汪末日自救指南:
面臨井噴一樣的數(shù)據(jù),應(yīng)該如何生存?
1. 明確定位:了解自己打C位還是輔助,決定了裝備的選擇。而確定自己想達(dá)到的水平,是很重要的。時(shí)間有限,初學(xué)者往往在沒有任何基礎(chǔ)的情況下翻出一本厚厚的某版生物信息學(xué)一讀幾小時(shí),離開后還是“abandon”。如果還有很多繁重的濕實(shí)驗(yàn)需要進(jìn)行,不如直接和生物公司的技術(shù)多多交流,必要的時(shí)候在一些在線平臺(tái)做一些分析,可能比從某些教材一開始的貝葉斯或者似然法的公式看起來要簡單許多,也更有成效。
2. 學(xué)會(huì)利用文獻(xiàn)資料:雖然說生物信息學(xué)發(fā)展很快,每天都有新的軟件和解決問題的流程出現(xiàn),但還有有很多套路的。了解自己的課題,找到同樣解決類似問題的文獻(xiàn),以模仿其材料與方法部分進(jìn)行生物信息分析的重復(fù),這不僅僅知道別人解決這個(gè)問題都使用的軟件,也會(huì)了解不同軟件能夠完成什么工作,幫助作者論證什么問題。
《CELL》上的文章會(huì)把文章用到的軟件列舉出來
3. 程序語言學(xué)習(xí)要解決具體問題:生信選手到了進(jìn)階的過程,都需要學(xué)習(xí)一些簡單的編程語言,例如perl、python和R。如果需要長時(shí)間進(jìn)行生信工作,學(xué)習(xí)語言是很有必要的且節(jié)約時(shí)間的,簡單的掌握部分語句能夠幫助你修改文件格式,搭建簡單的流程,以及找到別人腳本中的錯(cuò)誤。但時(shí)間有限的情況下,請直接以生信場景為基礎(chǔ)進(jìn)行腳本的撰寫練習(xí) (生信寶典的教程都是這樣面向生信的應(yīng)用的)。這比完成教材后面一些計(jì)算時(shí)間,放100個(gè)小球取幾個(gè)的概率等問題要好的多,也容易記下來。例如使用perl編寫一個(gè)根據(jù)位置提取fasta中序列的腳本,簡單容易,還能夠很有成就感,學(xué)完后甚至可以直接使用。
4. 不要不舍得花錢:如果有想上手生信的決心,還是應(yīng)該花點(diǎn)錢參加培訓(xùn)或購買網(wǎng)絡(luò)課程,畢竟一個(gè)課題組購買到的資料都是可以共享學(xué)習(xí)的。雖然一些轉(zhuǎn)發(fā)或者付10塊錢拿到成噸的文件夾的資料,看似也非常有價(jià)值,但一般都已經(jīng)是一些上古資料,以及常見軟件的說明書(也可能是我運(yùn)氣不好)。生信分析手法的更新是很快的,一定要日新月異,畢竟參加培訓(xùn)班或網(wǎng)絡(luò)課程一步一步操作,比純粹看資料摸索更容易激活大腦。另外,導(dǎo)師或者課題組的PI也應(yīng)該讓比較有潛力的學(xué)生或者課題組的人員參加生信的培訓(xùn),畢竟幾千塊的培訓(xùn),今后僅僅在測序報(bào)告上找到一個(gè)不妥的地方,可能就能夠省下幾千甚至上萬元。
今天就總結(jié)到這,希望對正在學(xué)習(xí)生物信息學(xué),以及看到身邊有同學(xué)同事學(xué)習(xí)生物信息學(xué)的朋友有幫助。更新得再快的學(xué)科也會(huì)有自身的套路,快準(zhǔn)狠的解決問題才是使用生信的不二之選。
教程合集
生信寶典-Linux教程.pdf (微信公眾號后臺(tái)回復(fù)?生信寶典福利第一波)
生信寶典Py3_course.pdf
生信寶典-R學(xué)習(xí)教程.pdf
系列教程
生物信息之程序?qū)W習(xí)
關(guān)于編程學(xué)習(xí)的一些思考
該如何自學(xué)入門生物信息學(xué)
生信寶典視頻教程
轉(zhuǎn)錄組分析的正確姿勢
收藏 你想要的生信學(xué)習(xí)系列教程-寶典在手,生信無憂
生信的系列書籍
文章用圖的修改和排版 (1)
文章用圖的修改和排版 (2)
簡單強(qiáng)大的在線繪圖
簡單強(qiáng)大的在線繪圖-升級版
簡單強(qiáng)大的在線繪圖-第3版
論文圖表基本規(guī)范
學(xué)術(shù)圖表的基本配色方法
數(shù)據(jù)可視化基本套路總結(jié)
英語寫作常見錯(cuò)誤總結(jié)和學(xué)習(xí)視頻
教育部推出首批490門”國家精品在線開放課程”
你該知道的雜志分區(qū)和影響因子及最新表格下載
你和PPT高手之間,就只差一個(gè)iSlide
推薦 3 個(gè)超贊的 EXCEL 插件,讓你 5 分鐘從小白變大神
史上最全的圖表色彩運(yùn)用原理
生信寶典一周年福利第一波 - 電子書贈(zèng)送
測序發(fā)展史:150年的風(fēng)雨歷程
生信老司機(jī)以中心法則為主線講解組學(xué)技術(shù)的應(yīng)用和生信分析心得
別再讓投稿信耽誤你發(fā)稿啦!(附cover letter模板)
生物信息學(xué)數(shù)據(jù)庫分類概覽 (第一版)
跟Cell editor學(xué)做scientific presentation (25個(gè)判斷標(biāo)準(zhǔn),18個(gè)不能做,8個(gè)建議)
北京遇上西雅圖會(huì)下雨嗎?這是感情問題還是統(tǒng)計(jì)問題?
Web of stories - 聽大師講故事
什么,你算出的P-value看上去像齊天大圣變的廟?
高顏值免費(fèi)在線繪圖
往期精品
畫圖三字經(jīng)?生信視頻?生信系列教程?
心得體會(huì)?TCGA數(shù)據(jù)庫?Linux?Python?
高通量分析?免費(fèi)在線畫圖?測序歷史?超級增強(qiáng)子
生信學(xué)習(xí)視頻?PPT?EXCEL?文章寫作?ggplot2
海哥組學(xué)?可視化套路?基因組瀏覽器
色彩搭配?圖形排版?互作網(wǎng)絡(luò)
自學(xué)生信?2019影響因子?GSEA?單細(xì)胞?
后臺(tái)回復(fù)“生信寶典福利第一波”獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的当我们谈论生信的时候我们在谈什么的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 单细胞转录组基本概念(一)
- 下一篇: 中国中医科学院大学落户苏州吴中区