14岁的男孩说想学生信,应该给予哪些指导?
前言
隨著高通量測序技術的發展,越來越多的文章重視濕實驗和數據分析結合。現今大數據當道,生信分析也似乎是很多醫學或生物科研工作者的一把劍,上可問道?—分析實驗數據發篇大文章,下可修枝裁芽?— 處理日常數據來個小美化。而從理論到實踐的no error總是“路漫漫其修遠兮”。Mark Twain說:出名要趁早,啥時候學生信,現在剛剛好。
在國外著名社交網站 reddit?(www.reddit.com)上,有一個十四歲的男孩發了個帖子,他說自己能在Tensorflow上搭建流程,動手做過類似自動駕駛汽車和股票預測的小項目,現在對生信很感興趣,于是發帖尋求經驗分享。看看帖友們都是怎么回復的?
知識綱要
-
學好生信需要具備二代測序和基因組學的基礎知識,另外扎實的生物學和統計學基礎對后續工作會有很大幫助;
-
定期閱讀 CNS(Science,Nature,Cell)期刊掌握最新科研動態;
在NCBI的PubMed庫通過關鍵詞“Bioinformatics”等可以瀏覽專業文章,其中有一些可以免費下載。不能下載的可以使用SCI-HUB客戶端(文獻神器V4.0)
-
醫學專業相關的需要重視TCGA數據的挖掘。
在所有科學領域中,真正讓人與眾不同的是能夠通過現有的技能和資源提出有關生物學的有趣且創造性的問題。想要做到這個就需要有一定量的生物學知識儲備,否則怎么知道技術技能可以用來干什么呢?可以花一些時間閱讀盡可能多的生信相關論文,然后盡可能多地學習生物學/化學/統計學。
網站推薦
網站:
-
Rosalind:是一個通過解決各種問題來學習生信的平臺。沒有編程基礎的話,網站會推薦先從Python Village?模塊開始學習python,慢慢適應各種解決生信問題的操作。網站主頁還提供有生信算法的文檔下載學習。(http://rosalind.info/problems/locations/)
-
edX:由哈佛大學和麻省理工學院等共同創建的大規模在線課程平臺,里面有一些免費的編程/計算機科學的入門課程,可以通過它了解數據結構和流程邏輯,這比直接學習特定一門語言更重要。(https://www.edx.org/)
-
TED talks:很多人或多或少都看過一些TED演講,里面也有關于生物學家的talks,在分享自己的科研經驗之余,還會科普一些生物知識(推薦視頻https://www.ted.com/talks/karissa_sanbonmatsu_the_biology_of_gender_from_dna_to_the_brain?language=zh-cn#t-599131,了解生活方式對基因的影響,以及不同性別到底意味著什么)。如果了解了一些趣聞并對科研產生興趣,那更是極好的,畢竟興趣也是我們最好的老師(之一)。
-
https://sci-hub.tw/:從NCBI上下載科研數據和文章是常規操作,然后有些文獻的獲得會需要一些權限,首先聲明我們絕對尊重版權,支持正版。不過經費是薅出來的學生黨可以考慮這個網站(聽說很多有機構賬號的老師也會從這里下載文章…)
語言/知識儲備/軟件推薦
語言
-
Python/R:這兩門語言是數據科學和生物信息學中最流行的語言(包括他們的模塊和工具包)
-
Bash:了解linux系統的基本操作命令和編程邏輯
計算機科學理論:學習基本數據結構(鏈接列表),算法(快速排序),關系代數
生物學理論:孟德爾遺傳學,生物學的中心法則(詳細理解)
生信方向知識:
-
細胞生物學(增強子,外顯子剪接位點,常見的三級蛋白質模體motif)
-
常見的生物信息學問題/解決方案(fastq文件的GC含義,以及利用網站ORF finder找到DNA序列中的開放閱讀框等)
-
生物信息學算法(史密斯·沃特曼算法,FM-index等)
-
專業書籍推薦,陳同老師之前梳理有一份學習生信的經驗書單:學習生信的系列書籍
算法相關
-
算法導論(CLRS):由美國麻省理工學院出版社出版,是當代計算機算法的經典書籍
-
Pro Deep Learning with TensorFlow: A Mathematical Approach to Advanced Artificial Intelligence in Python:發帖人說這本書理論部分很好,實踐操作部分有點過時,他本人重點推薦的是Ian Goodfellow的《the Deep Learning book》
軟件推薦
-
Prokka :一款出色的基因預測軟件,能快速注釋細菌,古細菌和病毒基因組。(https://github.com/tseemann/prokka)
-
canu or flye:基因組裝軟件。Canu是Celera Assembler的一個分支,專門用于高噪聲單分子序列的reads(例如PacBio RS II / Sequel或Oxford Nanopore MinION);Flye可以de nove組裝單分子序列reads,將PacBio和Oxford Nanopore的原始reads數組裝成經過修飾的重疊群,它的特定模式還可以組裝宏基因組(https://github.com/marbl/canu;https://github.com/fenderglass/Flye/)
-
軟件還有很多,取決于研究方向,后面會專門介紹(可以先從文末收集一波之前的工具推薦)
在這個帖子中,最值得在意的是一個生信方向的研究生的回答:在編寫流程的過程中,他主要在Linux上使用Bash腳本。關于學校課程安排是:
-
基礎課程?包括數據結構、生物化學和基礎生物知識
-
核心課程?生信(主要通過Python來搭建工作流程和檢索利用NCBI等在線數據庫),計算生物(主要用Python來解決生信方面的程序問題),統計學核心和蛋白組學
-
選修課程?則是從軟件工程到宏基因組學,再到數學、統計課程。
除此之外,他重點推薦了一本伯內特(Burnett)撰寫的非技術書籍,名為《Designing Your Life》,能幫生信人找到合適的最佳職業。
PS.一個好的學習習慣是獲得任何知識的最佳方式
總結
以上是生活随笔為你收集整理的14岁的男孩说想学生信,应该给予哪些指导?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Conda solving enviro
- 下一篇: 机器学习算法-随机森林之决策树R 代码从