生物信息学有哪些值得参与的开源项目?
生活随笔
收集整理的這篇文章主要介紹了
生物信息学有哪些值得参与的开源项目?
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
沒人提picard和gatk嘛。我看過一些開源項目的源碼,在我看過的源碼中,私以為picard和gatk的架構(gòu)和測試和異常處理和代碼質(zhì)量相當(dāng)之高,可以說達(dá)到了it級別。完爆類似varscan,mirdeep這種二三流的好幾條街。想想mapsplice的索引居然還要一個染色體一個文本我也是醉了。gatk是個框架,在該框架下只需要很少的代碼就可以實現(xiàn)一系列的工作譬如查找snp之類的--當(dāng)然這個人家已經(jīng)實現(xiàn)了。話說c的我看不懂不然很想去觀摩李恒大神的bwa,估計那個也是神作,一點點大小性能不輸n倍大的bowtie2。以上,這幾個貨都是broad institution的啊,膜拜broad中,個人認(rèn)為是業(yè)內(nèi)最強生物信息。話又說回來,如果不局限于生物信息,spring-io和hadoop也是不錯的開源項目哦,特別是Hadoop yarn,那個實現(xiàn)的真是,好吧其實我看不懂啦:)
生物信息領(lǐng)域值得參與一下的開源項目我覺得挺多的,沒整理過,說兩個我比較熟悉的Bioconductor和Cytoscape。Bioconductor: 這玩意其實是很多生物相關(guān)的R語言擴展包的集合,在國內(nèi)外的生物信息學(xué)術(shù)界和工業(yè)界都有廣泛的使用。Bioconductor中一些核心的包構(gòu)建了關(guān)鍵生物數(shù)據(jù)的類,于是各種分析方法都基于這些類開發(fā)出來,各種生物實驗數(shù)據(jù)和注釋注釋以這些類的形式導(dǎo)入到Bioconductor中,既方便處理生物數(shù)據(jù),也方便方法學(xué)開發(fā)者測試方法。所以,參與Bioconductor項目也有很多形式:1.1 自己開發(fā)一個包,提交給Bioconductor:這個事情對于非生物或生物信息背景的人來說,麻煩在于得先找到需求。然后就是開發(fā)和維護了。@elemenTY 同學(xué)ggbio包就是這個情況。1.2 參與某個包的開發(fā)。鑒于還沒有fork和pull的機制,只能自己發(fā)郵件找開發(fā)者了。1.3 整理注釋數(shù)據(jù)或者經(jīng)典的實驗數(shù)據(jù)導(dǎo)入到Bioconductor項目——這事情似乎不是樓主擅長的。1.4 翻譯:Bioconductor不僅僅是個軟件包的集合,還有很多教程和學(xué)習(xí)資料,非常值得傳播。參與Bioconductor項目R語言是必須得,最好還能整整C++,C,Java之類的。其實,我覺得參與R語言項目本身也是不錯的:)Cytoscape:一個Java開發(fā)的開源的復(fù)雜網(wǎng)絡(luò)可視化和分析軟件,最初是用于生物網(wǎng)絡(luò)分析的??梢詤⑴c軟件本身的開發(fā),也可以為其開發(fā)插件。核心開發(fā)團隊還為Cytoscape開發(fā)了App Store~~讀書的時候開發(fā)過一款Cytoscape上用于網(wǎng)絡(luò)聚類分析的插件,還有用戶用這個插件作分析,發(fā)了Nature Genetics的論文。我覺得,參與開源軟件本來就是要靠興趣。但如果不了解需求,或者沒有遇到需求,就很難有興趣。所以,最好的辦法應(yīng)該是找個生物信息相關(guān)的項目或工作,然后去理解其中的任務(wù)和需求,再看看是否能改進其中的開源軟件或者是自己發(fā)起一個開源項目。生物信息領(lǐng)域的主流軟件幾乎都是開源的。更新一下:這個領(lǐng)域的開源除了貢獻代碼,還有一種方法是貢獻數(shù)據(jù)——把自己的基因組測了,連同一些表型信息一起開放出來:)@西貝 在準(zhǔn)備干這個事情
Python 的計算生物學(xué)處理包 Biopython: http://biopython.org/wiki/Main_Page還是 Google Summer of Code 項目,值得參與另,如果覺得代碼能力不足的話,可以先貢獻翻譯比如 Biopython 文檔的中文版:https://github.com/bigwiv/Biopython-cn
接@unionx 所說,Google Summer of Code是一個很好的參加開源項目的機會,當(dāng)然包括生物信息開源項目。項目只針對學(xué)生申請,順利完成項目會有數(shù)千美刀的獎勵(14年好像是6000$)。我13年的時候參加了GSoC,搞了一個biopython的小項目。下面根據(jù)我的了解大概介紹一下GSoC的情況,希望能幫到想?yún)⒓拥耐?----------項目參與:1. 谷歌:參與組織,提供平臺,提供獎金;2. 開源組織:提供項目(一般是某個大型開源項目里面的某個具體化的小任務(wù))給學(xué)生申請,因為每個項目都需要學(xué)生在大概三個月的時間內(nèi)多帶帶完成,所以不會太大;3. 學(xué)生:和開源組織接觸,獨立完成開源組織提供的項目。具體流程1. 開源組織申請:開源組織提供相應(yīng)的項目(一個或多個)向谷歌進行申請,谷歌篩選并公布最終的參與結(jié)果。這個階段包括階段前后的間隔時間,可以先了解各個組織所提供的項目,尋找感興趣和有把握的項目,當(dāng)然你如果有idea,還可以提供自己的項目。找準(zhǔn)項目之后,盡早和項目提供者接觸,在社區(qū)里面進行交流,自我介紹,說明對項目的想法,展示自己的能力,總之讓組織者覺得你有能力完成該項目。另外需要注意的,這里的組織和開源項目最終可能不在一個。需要注意的是:雖然申請時,谷歌只會讓你參與一個項目,但是你可以選擇和多個項目接觸。因為,這些項目所對應(yīng)的組織可能會被谷歌淘汰,說不定就包括你想?yún)⑴c的項目。當(dāng)然,某些項目也會在自己的組織被淘汰后加入進別的組織。如Bioperl、Biopython、Biojava等項目每年會以O(shè)BF組織進行申請,但如果OBF被淘汰,某些項目會加入NESCent,反之亦然。2. 學(xué)生申請:在官網(wǎng)填寫表格申請,完善個人信息,教育背景,郵寄地址等等,當(dāng)然需要能提供學(xué)生證或相應(yīng)證明,只要是在申請時還未畢業(yè)就行(我就是這種情況)。提交一個完整的Proposal,大概寫的內(nèi)容是:準(zhǔn)備參與的項目,為什么想?yún)⒓?,為什么你而不是別人能完成,計劃怎樣完成(具體的工作時間表)。這個Proposal需要在申請開始之前就和對應(yīng)的項目組去交流,那些老師會幫助你完善。不要想著申請多個項目,一個是沒那么多時間和精力,另外谷歌在這個階段也會有一個嚴(yán)格的查重步驟。3. 接觸交流:這個階段是項目導(dǎo)師和學(xué)生交流的階段,也是申請篩選和公布結(jié)果的階段。每個項目的導(dǎo)師會和申請的學(xué)生一個一個接觸,使用Skype、谷歌hangout之類的視頻聊天工具,最終每個項目選擇一個學(xué)生。當(dāng)然會問一些完成項目相關(guān)的技術(shù)問題,以及是否希望完成項目后繼續(xù)為社區(qū)做共享的問題。好好準(zhǔn)備吧,之前詳細(xì)了解過項目,精心準(zhǔn)備過proposal應(yīng)該問題都不大。4. 編寫代碼:按照計劃寫代碼吧,定期在社區(qū)更新項目進展。當(dāng)然計劃趕不上變化,實現(xiàn)方式的更改、計劃的變更及時在線更新,保證充足的時間,遇到問題和導(dǎo)師交流。整個階段持續(xù)大概三個月時間,中間會有中期考核,最后有個終期考核,考察項目的完成情況。會上傳一些資料到GSoC官網(wǎng),但過不過都是由導(dǎo)師和項目組來決定。可以看到整個流程中基本上是和開源項目組織在交流,學(xué)生申請和項目通過與否都決定于項目組,谷歌只是提供平臺和資金,申請條件審核也不會存在什么大問題。所以,早點去接觸哪些開源組織吧。下面列出一些常參加GSoC的開源組織和他們的項目頁面。常見生物信息開源組織OBF: 開源生物信息基金會,各種Bioxxx項目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 項目多與進化相關(guān),由世界各地的實驗室項目加入、常參與的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,許多小工具。GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 這個就不用介紹了。GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用說了,Cytoscape。GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 許多有名的項目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于圖的生物信息數(shù)據(jù)庫平臺。GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物數(shù)據(jù)可視化JS庫。GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 項目比較雜,但貌似年年中。GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS項目。GSOC地址: http://sulab.org/gsoc;包裹與獎金 谷歌會分兩次發(fā)包裹,三次發(fā)獎金。Coding開始后寄過來銀行卡、筆和筆記本、活動貼紙,銀行卡發(fā)放500$;中期考核通過發(fā)放剩下獎金的一半,否則沒有;最終考核通過,發(fā)放最后一半獎金,并郵寄通過的證書與紀(jì)念衫。----------就寫這么多,希望有點用處。今年的GSoC還有一個月就要開始了,感興趣的趕緊行動吧。 https://www.google-melange.com ... c2015
生物信息領(lǐng)域值得參與一下的開源項目我覺得挺多的,沒整理過,說兩個我比較熟悉的Bioconductor和Cytoscape。Bioconductor: 這玩意其實是很多生物相關(guān)的R語言擴展包的集合,在國內(nèi)外的生物信息學(xué)術(shù)界和工業(yè)界都有廣泛的使用。Bioconductor中一些核心的包構(gòu)建了關(guān)鍵生物數(shù)據(jù)的類,于是各種分析方法都基于這些類開發(fā)出來,各種生物實驗數(shù)據(jù)和注釋注釋以這些類的形式導(dǎo)入到Bioconductor中,既方便處理生物數(shù)據(jù),也方便方法學(xué)開發(fā)者測試方法。所以,參與Bioconductor項目也有很多形式:1.1 自己開發(fā)一個包,提交給Bioconductor:這個事情對于非生物或生物信息背景的人來說,麻煩在于得先找到需求。然后就是開發(fā)和維護了。@elemenTY 同學(xué)ggbio包就是這個情況。1.2 參與某個包的開發(fā)。鑒于還沒有fork和pull的機制,只能自己發(fā)郵件找開發(fā)者了。1.3 整理注釋數(shù)據(jù)或者經(jīng)典的實驗數(shù)據(jù)導(dǎo)入到Bioconductor項目——這事情似乎不是樓主擅長的。1.4 翻譯:Bioconductor不僅僅是個軟件包的集合,還有很多教程和學(xué)習(xí)資料,非常值得傳播。參與Bioconductor項目R語言是必須得,最好還能整整C++,C,Java之類的。其實,我覺得參與R語言項目本身也是不錯的:)Cytoscape:一個Java開發(fā)的開源的復(fù)雜網(wǎng)絡(luò)可視化和分析軟件,最初是用于生物網(wǎng)絡(luò)分析的??梢詤⑴c軟件本身的開發(fā),也可以為其開發(fā)插件。核心開發(fā)團隊還為Cytoscape開發(fā)了App Store~~讀書的時候開發(fā)過一款Cytoscape上用于網(wǎng)絡(luò)聚類分析的插件,還有用戶用這個插件作分析,發(fā)了Nature Genetics的論文。我覺得,參與開源軟件本來就是要靠興趣。但如果不了解需求,或者沒有遇到需求,就很難有興趣。所以,最好的辦法應(yīng)該是找個生物信息相關(guān)的項目或工作,然后去理解其中的任務(wù)和需求,再看看是否能改進其中的開源軟件或者是自己發(fā)起一個開源項目。生物信息領(lǐng)域的主流軟件幾乎都是開源的。更新一下:這個領(lǐng)域的開源除了貢獻代碼,還有一種方法是貢獻數(shù)據(jù)——把自己的基因組測了,連同一些表型信息一起開放出來:)@西貝 在準(zhǔn)備干這個事情
Python 的計算生物學(xué)處理包 Biopython: http://biopython.org/wiki/Main_Page還是 Google Summer of Code 項目,值得參與另,如果覺得代碼能力不足的話,可以先貢獻翻譯比如 Biopython 文檔的中文版:https://github.com/bigwiv/Biopython-cn
接@unionx 所說,Google Summer of Code是一個很好的參加開源項目的機會,當(dāng)然包括生物信息開源項目。項目只針對學(xué)生申請,順利完成項目會有數(shù)千美刀的獎勵(14年好像是6000$)。我13年的時候參加了GSoC,搞了一個biopython的小項目。下面根據(jù)我的了解大概介紹一下GSoC的情況,希望能幫到想?yún)⒓拥耐?----------項目參與:1. 谷歌:參與組織,提供平臺,提供獎金;2. 開源組織:提供項目(一般是某個大型開源項目里面的某個具體化的小任務(wù))給學(xué)生申請,因為每個項目都需要學(xué)生在大概三個月的時間內(nèi)多帶帶完成,所以不會太大;3. 學(xué)生:和開源組織接觸,獨立完成開源組織提供的項目。具體流程1. 開源組織申請:開源組織提供相應(yīng)的項目(一個或多個)向谷歌進行申請,谷歌篩選并公布最終的參與結(jié)果。這個階段包括階段前后的間隔時間,可以先了解各個組織所提供的項目,尋找感興趣和有把握的項目,當(dāng)然你如果有idea,還可以提供自己的項目。找準(zhǔn)項目之后,盡早和項目提供者接觸,在社區(qū)里面進行交流,自我介紹,說明對項目的想法,展示自己的能力,總之讓組織者覺得你有能力完成該項目。另外需要注意的,這里的組織和開源項目最終可能不在一個。需要注意的是:雖然申請時,谷歌只會讓你參與一個項目,但是你可以選擇和多個項目接觸。因為,這些項目所對應(yīng)的組織可能會被谷歌淘汰,說不定就包括你想?yún)⑴c的項目。當(dāng)然,某些項目也會在自己的組織被淘汰后加入進別的組織。如Bioperl、Biopython、Biojava等項目每年會以O(shè)BF組織進行申請,但如果OBF被淘汰,某些項目會加入NESCent,反之亦然。2. 學(xué)生申請:在官網(wǎng)填寫表格申請,完善個人信息,教育背景,郵寄地址等等,當(dāng)然需要能提供學(xué)生證或相應(yīng)證明,只要是在申請時還未畢業(yè)就行(我就是這種情況)。提交一個完整的Proposal,大概寫的內(nèi)容是:準(zhǔn)備參與的項目,為什么想?yún)⒓?,為什么你而不是別人能完成,計劃怎樣完成(具體的工作時間表)。這個Proposal需要在申請開始之前就和對應(yīng)的項目組去交流,那些老師會幫助你完善。不要想著申請多個項目,一個是沒那么多時間和精力,另外谷歌在這個階段也會有一個嚴(yán)格的查重步驟。3. 接觸交流:這個階段是項目導(dǎo)師和學(xué)生交流的階段,也是申請篩選和公布結(jié)果的階段。每個項目的導(dǎo)師會和申請的學(xué)生一個一個接觸,使用Skype、谷歌hangout之類的視頻聊天工具,最終每個項目選擇一個學(xué)生。當(dāng)然會問一些完成項目相關(guān)的技術(shù)問題,以及是否希望完成項目后繼續(xù)為社區(qū)做共享的問題。好好準(zhǔn)備吧,之前詳細(xì)了解過項目,精心準(zhǔn)備過proposal應(yīng)該問題都不大。4. 編寫代碼:按照計劃寫代碼吧,定期在社區(qū)更新項目進展。當(dāng)然計劃趕不上變化,實現(xiàn)方式的更改、計劃的變更及時在線更新,保證充足的時間,遇到問題和導(dǎo)師交流。整個階段持續(xù)大概三個月時間,中間會有中期考核,最后有個終期考核,考察項目的完成情況。會上傳一些資料到GSoC官網(wǎng),但過不過都是由導(dǎo)師和項目組來決定。可以看到整個流程中基本上是和開源項目組織在交流,學(xué)生申請和項目通過與否都決定于項目組,谷歌只是提供平臺和資金,申請條件審核也不會存在什么大問題。所以,早點去接觸哪些開源組織吧。下面列出一些常參加GSoC的開源組織和他們的項目頁面。常見生物信息開源組織OBF: 開源生物信息基金會,各種Bioxxx項目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 項目多與進化相關(guān),由世界各地的實驗室項目加入、常參與的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,許多小工具。GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 這個就不用介紹了。GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用說了,Cytoscape。GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 許多有名的項目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于圖的生物信息數(shù)據(jù)庫平臺。GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物數(shù)據(jù)可視化JS庫。GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 項目比較雜,但貌似年年中。GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS項目。GSOC地址: http://sulab.org/gsoc;包裹與獎金 谷歌會分兩次發(fā)包裹,三次發(fā)獎金。Coding開始后寄過來銀行卡、筆和筆記本、活動貼紙,銀行卡發(fā)放500$;中期考核通過發(fā)放剩下獎金的一半,否則沒有;最終考核通過,發(fā)放最后一半獎金,并郵寄通過的證書與紀(jì)念衫。----------就寫這么多,希望有點用處。今年的GSoC還有一個月就要開始了,感興趣的趕緊行動吧。 https://www.google-melange.com ... c2015
總結(jié)
以上是生活随笔為你收集整理的生物信息学有哪些值得参与的开源项目?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《If(翻自 丁可) 》原版歌词 《If
- 下一篇: 怀孕多久可以用试纸测出来?14天可以吗?