生物信息还需要云计算提供什么样的功能?
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                生物信息还需要云计算提供什么样的功能?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                
                            
                            
                            快速分析?
ODPS這個云服務器,除了自己寫函數和上傳jar文件外。比如我在服務上想跑一個測序數據的tophat,服務器如何進行tophat運算啊?
事實上,我還沒有用到任何云,但是近期可能有需求,也調研了亞馬遜和阿里的云,下面說一說我的現實需求。我研發的多重PCR引物設計的軟件mprimer,在常規的多重PCR引物設計中,計算量不存在問題,因為一般不超過10重,即使針對基因組進行特異性分析,使用一個CPU,也會很快出結果。但是如果要設計高通量的多重PCR引物用于二代測序目標區域富集的話,那時間問題就非常嚴重了。因為,至少在100重以上,1000重都是比較常見的,如果要針對整個外顯子設計引物(10000+),那時間問題就更為嚴重了,單核我估計得按年計算了,即使使用幾十個CPU,也得上月。所以,高通量的多重PCR引物設計,尤其是針對二代測序目標區域的富集,絕對是一個計算密集型的問題。當然,程序本身后續還要不斷的性能優化,但當前階段,我對云有一個簡單粗暴的需求:核越多越好。其實,我的程序本身可以提高性能的地方不少,比如,用c語言改寫一下核心計算模塊;改成map-reduce兼容的模式等等。但是無論如何,對計算資源的需求都是一定的。不同的問題,對于云的需求肯定不同,就我目前的需求而言,亞馬遜的彈性云(計算優化)是比較合適的。
華大云計算的項目經理,曾經說過基因數據中心的建設目前遇到的問題,也就是需要云計算去做的事情:一個是數據的同步,他從一個分支到另外一個分支,他的計算資源可能是在另外一個分支,他的計算可能在深圳,數據怎么同步過去,這是他們遇到最大的關于數據中心的管理問題。第二個是一種自動化的配置,數據中心太多了,管理起來就會非常的麻煩。每個中心會有不同的管理人員,日志怎么同步,這是比較大的問題。第三個是數據中心的虛擬化,在整個數據中心的管理過程中,現在走向一個新的趨勢,數據中心要進行虛擬化,才更容易管理,更容易把數據更好的利用起來。多個數據中心分支如何做虛擬化,然后做數據的同步。第四個是建設綠色的數據中心,因為規模越大,他的浪費越嚴重,會給他帶來非常大的運營成本的問題,如何能夠建設更加綠色的數據中心,真正的能夠按需所取,讓數據中心整個的投入能夠達到最大的投入產出比。
                        
                        
                        ODPS這個云服務器,除了自己寫函數和上傳jar文件外。比如我在服務上想跑一個測序數據的tophat,服務器如何進行tophat運算啊?
事實上,我還沒有用到任何云,但是近期可能有需求,也調研了亞馬遜和阿里的云,下面說一說我的現實需求。我研發的多重PCR引物設計的軟件mprimer,在常規的多重PCR引物設計中,計算量不存在問題,因為一般不超過10重,即使針對基因組進行特異性分析,使用一個CPU,也會很快出結果。但是如果要設計高通量的多重PCR引物用于二代測序目標區域富集的話,那時間問題就非常嚴重了。因為,至少在100重以上,1000重都是比較常見的,如果要針對整個外顯子設計引物(10000+),那時間問題就更為嚴重了,單核我估計得按年計算了,即使使用幾十個CPU,也得上月。所以,高通量的多重PCR引物設計,尤其是針對二代測序目標區域的富集,絕對是一個計算密集型的問題。當然,程序本身后續還要不斷的性能優化,但當前階段,我對云有一個簡單粗暴的需求:核越多越好。其實,我的程序本身可以提高性能的地方不少,比如,用c語言改寫一下核心計算模塊;改成map-reduce兼容的模式等等。但是無論如何,對計算資源的需求都是一定的。不同的問題,對于云的需求肯定不同,就我目前的需求而言,亞馬遜的彈性云(計算優化)是比較合適的。
華大云計算的項目經理,曾經說過基因數據中心的建設目前遇到的問題,也就是需要云計算去做的事情:一個是數據的同步,他從一個分支到另外一個分支,他的計算資源可能是在另外一個分支,他的計算可能在深圳,數據怎么同步過去,這是他們遇到最大的關于數據中心的管理問題。第二個是一種自動化的配置,數據中心太多了,管理起來就會非常的麻煩。每個中心會有不同的管理人員,日志怎么同步,這是比較大的問題。第三個是數據中心的虛擬化,在整個數據中心的管理過程中,現在走向一個新的趨勢,數據中心要進行虛擬化,才更容易管理,更容易把數據更好的利用起來。多個數據中心分支如何做虛擬化,然后做數據的同步。第四個是建設綠色的數據中心,因為規模越大,他的浪費越嚴重,會給他帶來非常大的運營成本的問題,如何能夠建設更加綠色的數據中心,真正的能夠按需所取,讓數據中心整個的投入能夠達到最大的投入產出比。
總結
以上是生活随笔為你收集整理的生物信息还需要云计算提供什么样的功能?的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 安徽公布最早感染者基本轨迹:可能仍然不是
 - 下一篇: 我用1台笔记本模拟黑洞引力波 和超算2个