NBT:你想成为计算生物学家?
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
學生信,不是貪多的,而是求精的!
生信學習入門常見錯誤可能的原因分類總結和求助指南
生信學習學的是什么?常識!
1. 理解你的目標并選擇合適的工具
好的計算生物學家的關鍵是選擇合適的工具。就像我們不能在不理解PCR的基本原理時就去實驗室操作這個實驗,同樣地如果我們不理解軟件的原理,就會不知道選擇的軟件是否合適、結果怎么解釋。比如轉錄組序列比對需要選擇支持Splice-map的工具,因為mRNA成熟時經歷了剪接;比對會基因組時會初選跨越內含子的reads。理解算法不需要我們去讀懂源碼,但對其原理、適用性和特點要有個概念。
2. 對自己和他人的腳本設置陷阱測試
做實驗需要正對照和負對照,運行腳本也是。腳本不知道我們的目的是什么,只要提供的數據格式正確,就可以運行不報錯。但結果是否正確需要我們自己把關。通常是手寫數個小的結果已知的數據集進行測試,涵蓋自己能想到的盡可能多的情況,已確定腳本做的事情跟自己預期一致。
3. 記住自己是科學家不是程序員
完美是完成的敵人。牢記自己是科學家,研究的質量優先級高于代碼的優雅。在確保核心算法無誤的基礎上,多關注生物問題,有時間再去完善代碼和文檔。
4. 使用版本控制工具
采用GitHub等記錄腳本、文檔的修改,維持多個版本和協作代碼。寫好README文件記錄開發歷程,何時因何故對代碼作此修改,以備后續用到時再回想起來當初的設計。發表文章的同時發表腳本和數據,以便他人復現。也可以發表到這個Nature推薦的代碼海洋竟然有文章作者上傳的所有可重現性腳本,涉及單細胞、微生物組、轉錄組分析、機器學習等相關。
5. 凡事流程化不可取 (不過早包裝)
Pipeline是一系列腳本的集合,可以更方便結果的重現和類似分析工作的快速完成。但你需要衡量形成Pipeline是否節省了時間、是否有必要。三思而后行。大家如果熟悉Makefile,倒也無妨,不外乎是把Linux命令放到Makefile中運行。
6. 要擁有奧巴馬般的自信
Yes you can! 不畏懼,用于嘗試和探索,修改現有代碼滿足自己的需求。寫代碼其實就是怎么想的怎么寫,寫出來前幾句,路就順了。愛冒險,也接受會遇到坑,借助谷歌、討論群,大踏步邁過去。
參加好的培訓班是有意義的,可以節省很多時間,快速走上正確的道路。但切記,培訓班只是開始,需要不斷的練習。學習沒有捷徑,但可以借力加速。
7. 要有懷疑精神和質疑氣魄
生物數據集尤其是來源于高通量測序的數據,龐大而有噪音干擾。即便是受過統計訓練的生物學家在看到軟件或流程輸出的符合預期的結果時也會把懷疑置之腦后。通常需要多個不同角度的結果輔助一個結論。生物知識對解釋實驗結果至關重要,生物實驗驗證也是必須的。
8. 命令行下工作和編碼
習慣在Unix/Linux命令行下工作,你會發現它們真的很強大。編程語言無優劣,選擇在你身邊最流行的,有問題可以交流。EXCEL會改變你的數據。
9. 做一個數據偵探
計算生物學家很長時間都在分析和解釋數據。數據里面包含0個或多個故事,但通常不太明顯。需要我們從實驗設計和分析過程來綜合解析。勇于識別和排除數據中的系統偏差和異常點。與項目中的其它科學家通力合作,討論結果,提出后續實驗驗證假設。也有可能你的數據什么都發現不了,果斷放棄。
10. 不重復造輪子
通常無論多么奇怪的問題都有可能在網上搜索到解決方案,善用搜索引擎、論壇和社交工具。加入或成立本地的交流圈是很好的互相促進的開始。(自己衡量造輪子和搜索輪子哪個時間更劃算)
Mick Watson is at The Roslin Institute, University of Edinburgh, Edinburgh, UK, and is Head of Bioinformatics at Edinburgh Genomics, an academic genomics facility developing bioinformatics training in next-generation sequence analysis (http://genomics.ed.ac.uk). Follow him on Twitter, @BioMickWatson, and on his blog at http://biomickwatson.wordpress.com/.
Nick Loman works as an independent research fellow in the Institute for Microbiology and Infection at the University of Birmingham, Birmingham, UK, sponsored by a Medical Research Council Special Training Fellowship in Biomedical Informatics. Follow him on Twitter, @pathogenomenick, and on his blog at http://pathogenomics.bham.ac.uk/blog.
https://www.nature.com/articles/nbt.2740
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的NBT:你想成为计算生物学家?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Nature Milestones |
- 下一篇: 样本分布不平衡,机器学习准确率高又有什么