基因行业容器存储解决方案
1、基因行業(yè)背景
1.1. 中國基因市場分析
基因組學是未來精準醫(yī)療的“基石”。70%的基因企業(yè)選擇使用云計算來處理基因組相關業(yè)務。過去一年內,阿里云為基因醫(yī)學影像數(shù)據(jù)提供了安全可靠的存儲,500%數(shù)據(jù)增長,增長迅猛。強大無限制的計算能力,阿里云支撐了百萬以上的基因樣本數(shù)據(jù)分析工作。
2. 基因行業(yè)的存儲痛點和需求分析
2.1. 基因組學數(shù)據(jù)管理相對復雜
一家大型基因測序功能公司每日會產生 10TB 到 100TB 的下機數(shù)據(jù),大數(shù)據(jù)生信分析平臺需要達到 PB 級別的數(shù)據(jù)處理能力,這背后需要生物科技和計算機科技的雙向支撐。測序應用從科研逐步走向臨床應用,計算模式從離線向在線演進,交付效率越來越重要。多變的數(shù)據(jù)處理流程,以及大量的生物信息軟件版本的管理,大量排隊的數(shù)據(jù)處理任務,由于生物信息軟件的運行特性CPU平均利用率仍然不足,難以無人職守的處理失敗任務,成本居高不下等等問題存在于以下的現(xiàn)有的系統(tǒng)中,催生了生物信息行業(yè)對云計算和云原生技術的擁抱姿態(tài),在成本,彈性,效率,規(guī)模也提出了更高要求。
從基因業(yè)務角度理解,基因行業(yè)的數(shù)據(jù)處理的主要需求是提升效率,降低成本。基因場景的數(shù)據(jù)傳輸要求高速、穩(wěn)定。如下圖所示,是基因業(yè)務的數(shù)據(jù)處理流程圖。
典型的基因行業(yè)數(shù)據(jù)傳輸與交付場景如下:? 測序服務商海量數(shù)據(jù)上云,數(shù)據(jù)上云有多重途徑,通過OSS工具、存儲網(wǎng)關、閃電立方等。一般1PB數(shù)據(jù)離線遷移,最快1周上云。? 科技服務公司:企業(yè)客戶數(shù)據(jù)交付。數(shù)據(jù)交付,通知杭州到上海,同賬號的跨地域復制的數(shù)據(jù)交付,在線遷移服務,完成跨地域、跨賬號交付。杭州傳到全球訪問,全球訪問加速。杭州傳到企業(yè)用戶,基于阿里云ram子賬號,企業(yè)客戶自己賬號系統(tǒng)的交付體系。? 樣本數(shù)據(jù)保存進行高吞吐分析計算,對存儲要求高吞吐、高IOPS,對計算資源要求彈性、橫向擴展。? 科研院所分析結果實現(xiàn)全球數(shù)據(jù)分發(fā)快速,一般每天交付19TB數(shù)據(jù),全球14個數(shù)據(jù)中心保障快速就近交付。? 分析結果長期保存歸檔,要求高性價比、高可靠性。
2.2. 典型的基因行業(yè)的數(shù)據(jù)存儲痛點
1、數(shù)據(jù)存儲:數(shù)據(jù)增長快,存儲費用高,管理困難;長期保存數(shù)據(jù)可靠性難以保障;需要尋求低成本大數(shù)據(jù)量的數(shù)據(jù)壓縮方式;元數(shù)據(jù)管理混亂,數(shù)據(jù)清理困難。
2、分發(fā)共享:海量數(shù)據(jù)需要快速、安全的分發(fā)到國內多地及海外;傳統(tǒng)硬盤寄送方式周期長,可靠性低;多地中心數(shù)據(jù)需要共享訪問。
3、計算分析:批量樣本處理時間長,資源需求峰谷明顯,難以規(guī)劃;大規(guī)模樣本的數(shù)據(jù)挖掘需要海量計算資源,本地集群難以滿足;計算工作流流程遷移困難、線上線下調度困難、跨地域管理困難;線下彈性能力差,按需計算需求。
3、阿里云基因容器存儲解決方案
阿里云上的基因行業(yè)的容器存儲解決方案架構如下:
阿里云基因文件存儲解決方案說明:
? 基于AGS/ACK工作流搭建極速、低成本、高精度的基因測序的容器計算環(huán)境,根據(jù)業(yè)務需求,按需彈性提供計算資源,解決業(yè)務高峰期排隊問題的同時,提高資源利用率。
? 文件存儲可以對接容器基因計算環(huán)境,滿足基因測序的計算和數(shù)據(jù)共享需求:
? NAS為基因行業(yè)用戶提供低時延、高 IOPS 的文件存儲,用于基因數(shù)據(jù)分析中的共享存儲,保存下機數(shù)據(jù)和組裝后的數(shù)據(jù),以及過程中的中間數(shù)據(jù)。
? NAS計算結果數(shù)據(jù)會同步到 OSS 存儲,文件存儲集成OSS 提供海量存儲空間,同時通過冷數(shù)據(jù)歸檔存儲,降低存儲成本。保存測序儀下機數(shù)據(jù)和組裝后數(shù)據(jù)以及分析結果數(shù)據(jù),用于數(shù)據(jù)的分發(fā)、歸檔、交付。保證10000+用戶同時上傳、下載數(shù)據(jù),提高數(shù)據(jù)交付效率。
阿里云整體解決方案在基因行業(yè)的優(yōu)勢:
? 生態(tài)閉環(huán):70%的基因行業(yè)客戶都在阿里云上,包括100%的測序工廠頭部客戶跟阿里云有高速專線,基因數(shù)據(jù)在阿里云上各個基因客戶之間高速流動;
? 產品成熟:K8S、ACK、AGS、OSS、NAS等產品都已經商業(yè)化多年,在基因行業(yè)客戶得到廣泛使用。對比友商,我們的產品穩(wěn)定,功能豐富,性價比高;
? 行業(yè)老兵:服務基因行業(yè)多年,深入理解客戶的業(yè)務場景和痛點,針對性的解決了數(shù)據(jù)上云、數(shù)據(jù)分析、數(shù)據(jù)交付的問題,給客戶提供端到端的解決方案;
? 全球化:借助阿里云全球基礎設施以及跨境高速通道,幫助客戶拓展海外業(yè)務。
阿里云文件存儲解決方案在基因行業(yè)的優(yōu)勢:
? 擴展能力強:集群最大規(guī)模支持近萬個節(jié)點,容量可達數(shù)十PB規(guī)模;便于基因海量數(shù)據(jù)的性能升級和容量擴展。
? 性能能力強:協(xié)助客戶使用高性能文件存儲;有力支撐基因業(yè)務增長帶來的大容量和高性能需求;大大提高海量數(shù)據(jù)快速分發(fā)和基因計算分析效率。
? 更經濟:通過阿里云文件存儲服務構建基因測序高性能工作負載;沒有一次性成本投入或冗長的采購周期,享受按需付費、更經濟的基礎設施資源。
? 靈活敏捷:阿里云高性能文件存儲服務,與ACK等計算集群整合,支持集群直接掛載文件系統(tǒng);多種產品選型:通用型NAS、CPFS公共云及CPFS一體機,滿足不同基因用戶性能、成本、多云部署需求;靈活售賣方式,資源彈性伸縮,按需購買;支持云下和云上整體解決架構,既提供線下固定資產輸出方案,滿足對數(shù)據(jù)存儲管理和基因業(yè)務高性能的雙重要求,也提供快速數(shù)據(jù)上云的方案。
? 數(shù)據(jù)生命周期管理:支持數(shù)據(jù)智能流轉至低頻節(jié)約成本;支持集成OSS,實現(xiàn)數(shù)據(jù)計算、分發(fā)、歸檔、交付的智能數(shù)據(jù)流轉;智能數(shù)據(jù)冷熱分層,同時滿足基因快速高效計算和海量基因數(shù)據(jù)成本優(yōu)化需求。阿里云文件存儲解決方案用戶收益:
? 敏捷,按需使用,彈性擴展? 超高性能存儲提高基因計算的高性能和效率
? 數(shù)據(jù)冷熱分層,降低成本
4、基因行業(yè)容器文件存儲介紹
阿里云文件存儲NAS為非結構化數(shù)據(jù)提供存儲服務。隨著云原生的快速發(fā)展,許多公司的容器化應用程序使用NAS存儲數(shù)據(jù),有些甚至存儲PB級數(shù)據(jù)。阿里云在云原生布局上提供容器K8s服務(ACK)、彈性容器實例(ECI)、容器服務ACK/ASK,容器實例使用NAS文件系統(tǒng)作為持久化存儲。容器存儲離不開共享文件存儲。通常,彼此共享數(shù)據(jù)的容器自然需要共享文件存儲,長期運行的容器也可使用共享文件存儲應對故障。阿里云文件存儲同時滿足容器應用場景對持久化存儲彈性伸縮、靈活掛載、高性能的需求。此外,容器鏡像的配置文件或初始加載數(shù)據(jù)存儲可以在 NAS 文件存儲上實現(xiàn)共享,在容器批量加載時實時讀取,多 POD 間通過 NAS 共享持久化數(shù)據(jù),在 POD 故障時可以進行故障切換。阿里云NAS是容器存儲的自然選擇,因為它是一種完全托管的服務,配置簡單,添加或刪除數(shù)據(jù)時自動擴展,和容器基礎架構一樣靈活便捷。它還可以擴展到每秒數(shù)GB的吞吐量以及每秒數(shù)萬的IOPS。它基于 POSIX 文件接口,提供 NFS / SMB 協(xié)議,天然適配原生操作系統(tǒng),提供共享訪問,同時保證數(shù)據(jù)一致性和鎖互斥。文件存儲中的數(shù)據(jù)在可用區(qū)內以多副本冗余方式存儲,避免數(shù)據(jù)的單點故障風險。
文件存儲目前包括三款產品,分別是通用型NAS、極速型NAS和CPFS并行文件存儲,為企業(yè)應用、大數(shù)據(jù)處理、小文件存儲、高性能計算等場景提供全方位解決方案。了解更多阿里云文件存儲
阿里云文件存儲主要具備以下特性:無縫對接容器存儲插件,簡化的云原生體驗:
文件存儲基于POSIX/NFS/SMB文件接口,現(xiàn)有應用無需任何改造,可直接從本地磁盤平滑遷移至文件存儲。針對容器編排,文件存儲提供了CSI、Flexvolume存儲插件,簡化部署和使用,擁有完整的云原生體驗。
共享持久化數(shù)據(jù),故障靈活切換:
文件存儲具備多節(jié)點共享訪問能力,文件存儲還可以在不同可用區(qū)(不支持跨地域)、不同VPC之間共享。多Pod間通過NAS共享持久化數(shù)據(jù),在POD故障時可以進行故障切換。統(tǒng)一的名字空間,統(tǒng)一的管理方式。彈性文件系統(tǒng)無需擴容縮容,0-10PB完全按量。
高性能加速,在容器批量加載時實時讀取:
文件存儲基于分布式存儲架構,具備性能水平擴展能力。提供不同類型、不同規(guī)格存儲產品,充分滿足各類應用的吞吐、延遲、IOPS和小文件等性能需求。文件存儲支持us時延,數(shù)十GB吞吐,加速存儲訪問,提升應用性能,在容器批量加載時實時讀取數(shù)據(jù),支撐有狀態(tài)應用、AI數(shù)據(jù)智能應用。
企業(yè)級應用特性,Pod存儲安全可靠:
文件存儲支持副本、糾刪碼技術,同時通過備份、快照提供完整的數(shù)據(jù)保護和恢復機制。支持傳輸、落盤加密,確保數(shù)據(jù)不會被任何人竊取和篡改。統(tǒng)一命名空間支持海量pod存儲隔離和統(tǒng)一管理。
持久化數(shù)據(jù)生命周期管理,優(yōu)化成本:
文件存儲提供按量付費模式,您只需為正在使用的存儲空間付費,不需要提前配置存儲,并且不存在最低費用或設置費用。借助文件存儲的共享能力可以節(jié)約大量的冗余數(shù)據(jù)拷貝和同步費用。數(shù)據(jù)生命周期管理,支持冷熱分層,自動歸檔冷數(shù)據(jù),降低成本90%。
?
本文作者:孟威
原文鏈接:https://developer.aliyun.com/article/768760?utm_content=g_1000161277
本文為阿里云原創(chuàng)內容,未經允許不得轉載。
?
總結
以上是生活随笔為你收集整理的基因行业容器存储解决方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开放下载!基于PAI个性化推荐系统开发指
- 下一篇: 深度 | 数据仓库分层存储技术揭秘