这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关
可重復性研究一直是學術發表希望實現的方式,更有助于判斷研究結果的準確性和幫助后人以此為基礎進行深入研究。計算分析類型的研究,是能夠比較容易實現可重復性的 - 只要分享代碼和數據就可以 (當然配置運行環境也需要一定的功底),如使用R markdown或Bookdown?或者?Jupyter notebook等,像宏基因組主編劉永鑫老師的植物根系菌群分析的NBT文章那樣,把代碼存放在Github上面也是一種比較好的方式。
CodeOcean是Nature推薦過的一個可重現性代碼共享平臺。其實質類似于一個云平臺,可以直接在上面配置環境、開展項目分析,合作者之間協作并存放數據和代碼,發表時提供給雜志社或讀者,實現從原始數據到文章圖表的整個可重復過程,并且可以進行衍生分析,或者上傳自己的文件數據測試。而且有部分雜志要求作者發表時要把自己的代碼和數據上傳到CodeOcean上面。
我們以2019年9月份發表在Nature microbiology上的一篇文章Life cycle progression and sexual development of the apicomplexan parasite Cryptosporidium parvum為例,查看下其代碼的可重用性使用方式。作者在CodeOcean上面提供了其從原始數據到基因定量、差異分析、火山圖、熱圖、功能注釋用到的Bash和R的代碼,只需要在右側點一下Reproducible Run按鈕就可以重現分析。(Note: 從Rmarkdown中可以看到Bash相關代碼默認沒有執行,因為沒有存放原始數據,可以自己從NCBI的SRA數據庫下載,修改eval=T再繼續分析)
具體可參考微信公眾號上有錄制的視頻。
從視頻中可以看到,CodeOccean不是一個簡單的代碼存放平臺,是可以根據自己的需求配置環境、安裝軟件、R/Python包、存儲數據和運行程序的平臺,相當于一臺共享的云服務器。所有的配置信息也都在對應的文件中有記錄,如果我們想用于分析自己的數據,就在自己服務器配置對應的環境、下載代碼和數據進行運行即可。
瀏覽過程中,發現一篇Microbiome上發表的人和狗腸道菌群的比較文章,作者提供了全部分析的Python代碼,腳本很多,是學習宏基因組分析和Python的好文檔。
還有2019年發表在eLife上的一篇單細胞分析的文章,Identifying Gene Expression Programs of Cell-type Identity and Cellular Activity with Single-Cell RNA-Seq,用Jupyter notebook的形式列出了各個分析部分的所有代碼,還貼心的提供了目錄。
更多文章和代碼等著你去探索了。
https://codeocean.com/
總結
以上是生活随笔為你收集整理的这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马上开课 | 临床基因组学数据分析实战助
- 下一篇: 史上最全AI论文集结:近千篇论文分门别类