技术解读|云上企业级存储——打开存储新维度,促进用户核心业务创新
前言
提到企業級存儲,大家印象最深的是“高穩定”、“高性能”、“豐富的企業級特性”等關鍵詞;而說到云計算,大家會想到“大規模”、“全球部署”、“彈性”、“服務化”、“智能化”、“即時開通"、“按量付費”這些鮮明特征。如果把兩者結合,會產生什么樣的新存儲形態呢?云上企業級存儲的目標就是將企業級存儲和云的特點進行完美的融合,打開存儲更多新的維度,在保障用戶業務永續的同時,幫助用戶更好的進行業務創新。
以塊存儲為例,常見的企業級解決方案是存儲區域網絡(Storage Area Network,簡稱 SAN),通過專用網路連接存儲陣列和業務主機,提供存儲統一管理和共享,并實現高性能低延遲的數據訪問。但 SAN 存在成本高、運維復雜、可擴展性差等不足,而這些問題恰恰是云技術最擅長的方面。為此,阿里云推出了基于 ESSD 云盤的云上企業級存儲,幫助用戶更好的滿足當前數字化轉型和創新的需要。
ESSD 企業級云盤
ESSD 云盤為用戶提供高可用、高可靠、高性能的塊級隨機訪問服務,并提供原生快照數據保護和跨域容災等豐富的企業特性。它于 2016 年啟動項目, 基于盤古 2.0 分布式存儲底座,采用 RDMA 和 NVMe SSD 全用戶態 IO 技術,并結合阿里 10 多年分布式存儲自研技術積累, 在 2017 年首次亮相阿里“雙11”購物節,承載數據庫和中間件等核心業務部分峰值流量,取得了驚艷的表現;于是在 2018 年開始在阿里內部大規模推廣使用,并開始開放給部分外部客戶使用,都取得了非常積極的反饋;在 2019 年 ESSD 云盤大規模商業化,率先帶領云盤進入了微秒時代; 2020 年推出普惠型規格 ESSD PL0,讓中小客戶也能獲取 ESSD 全閃技術的紅利;到 2021 年 9 月,ESSD 云盤已經在 59 個可用區規模售賣, 95% 的阿里云頭部客戶選擇使用 ESSD, 成為最受歡迎的云盤產品。
作為云產品服務,ESSD 云盤提供服務化、安全、智能的運維管控服務,幫助用戶屏蔽了底層復雜的硬件和系統運維,以聲明式開放 API 方便用戶構建上層的業務系統。同時,ESSD 云盤服務隨著云的基礎設施在全球部署輸出,無論是中心區域、還是本地云、邊緣云,更好的滿足用戶多樣化的部署需求。
ESSD 云盤為用戶提供了三大方面的數據服務: 高穩定、高性能、高彈性的數據訪問服務, 輕量、實時、彈性的原生快照數據保護服務,隨時隨地、容災多活服務。
在最基礎的數據訪問方面,ESSD 云盤提供了 9 個 9 的高可靠和 5 個 9 的高可用,并提供端到端的數據保護,百微秒低延遲和百萬 IOPS,支持自定義密鑰加密、在線擴容和秒級性能變配。并且在近期發布按業務負載性能自動彈性伸縮的 ESSD Auto PL 云盤,支持 NVMe 標準協議和共享訪問, 以及滿足安全合規物理隔離的專屬集群。
在基礎數據訪問服務之上,ESSD 云盤還為用戶提供了原生快照服務,幫助用戶更便捷的做好數據保護。它提供靈活的快照策略,并且在快照期間不影響前端 IO 讀寫性能, 能夠秒級完成快照的創建、回滾和克隆,支持多塊云盤創建一致性組快照和應用一致性快照, 提供快照跨區域復制,并且滿足云原生和容器場景通過快照大規模批量創建云盤進行實時訪問的需求。
除了快照數據保護,為了更好滿足用戶多地域容災多活的需求,ESSD 云盤新推出了異步復制服務,讓用戶“零”門檻起步,利用阿里云全球部署的基礎設施和網絡專線,實現異地容災架構。未來還會為用戶提供同步復制、跨區多活等更多容災服務。
ESSD 云盤以服務為中心,結合云和企業級存儲的特性,構建云上企業級存儲服務。下面我們選取 ESSD 云盤最新發布的產品和功能特性,為大家做更詳細的解讀。
ESSD Auto PL 高彈性 IO
ESSD Auto PL 云盤的推出是為了應對很多用戶面臨的問題:無法準確預估業務峰值,在性能配置上難以做好精準規劃。如果性能配置預留過高,會造成日常資源的大量閑置浪費;而如果性能預留不足,業務突發洪峰會造成業務受損。ESSD Auto PL 云盤希望幫助用戶解決這個困境,它支持性能指定配置的同時,支持按業務負載自動伸縮,單盤性能可以自動提升到最高 100 萬 IOPS,為不可預期的突發訪問提供安全便捷的性能自動配置。在打開自動性能伸縮的情況下,用戶只需按實際發生超出預先配置性能的讀寫次數付費,保障業務穩定運行的同時,最大化節省用戶的資源配置開銷。
作為業界第一個支持性能容量解耦同時支持性能按負載彈性伸縮的云盤,ESSD Auto PL 需要解決很多技術上的挑戰:比如如何快速感知業務的負載變化,如何動態按需申請釋放資源支持性能伸縮,如何快速平衡負載調度等等。經過反復打磨,ESSD Auto PL 云盤可以做到 10 毫秒級別的業務負載感知和預測,在秒級別完成動態隊列調度和并發度調整,對單個云盤細粒度切分能夠讓它均衡使用整個后端存儲集群的資源并快速動態調整。不止于此,我們還解決另外兩個問題來掃除用戶的顧慮:
1. 通過對集群容量-性能水位的實時監控預測和分鐘級跨集群調度均衡,來滿足用戶大批量云盤負載同時升高,可能超出單集群性能上限的情況;
2. 通過多級 QoS 隔離和優先級管理,包括硬件卸載的隊列動態分發,IO 打標和執行代價評估重排等方法,避免在多租戶場景下因為彈性提升帶來多租戶間的性能干擾。
通過這些技術,我們希望 ESSD Auto PL 云盤簡化用戶的性能配置,更好助力用戶平滑度過業務的尖峰時刻。
NVMe 和 共享訪問
隨著閃存技術的迅速發展和普及,存儲介質已經不再是存儲的瓶頸,而介質之上的軟件處理成為最大瓶頸。NVMe 協議是針對高性能設備新推出的數據訪問協議,相比傳統的 SCSI 協議,它更加簡捷輕量,同時提供了豐富的擴展特性。 這次 ESSD 云盤支持用戶使用 NVMe 協議更高效的訪問數據,同時基于 NVMe Persistent Reservation 標準實現了云盤共享訪問。
很多主流的商業數據庫比如 Oracle RAC, SAP HANA 等需要使用磁盤共享訪問來實現高可用, NVMe Persistent Reservation 為共享訪問和權限管理提供了安全、輕量的支持,大幅縮短故障切換時間。同時,ESSD 云盤還利用了硬件卸載技術將 NVMe 虛擬化延遲降低 30%, 并采用自研的 Solar-RDMA 網絡協議支持高效數據傳輸,并能夠秒級完成網絡多路徑的故障切換。
輕量、實時、彈性的原生快照數據保護
ESSD 云盤提供原生快照為用戶提供便捷的數據保護服務,本次發布除了新增多盤一致性快照組和應用一致性快照外,還對快照體驗進行了極致的升級優化,體現在“輕”、“快”、“彈”三個方面。
“輕”: 在快照創建期間不影響 IO 讀寫性能。很多用戶擔心創建快照影響 IO 性能,只在業務低谷期才進行快照數據保護。我們對分布式快照算法和實現進行了大量優化,讓用戶可以拋開影響性能的顧慮,隨時進行數據保護。從下圖的實測數據可以看到,對 2 塊正在大量寫入的 ESSD 云盤創建一致性快照時,前臺寫入的延遲不變;我們也實測了另外 2 家友商的快照表現,會發現 IO 延遲增加接近 1-3 倍。
“快”: ESSD 云盤快照可以在秒級內完成創建、回滾和克隆,滿足用戶實時數據保護和 DevOps 快速編排上的需要。
“彈”: 隨著云原生和容器技術的普及應用,用戶希望能夠在短時間內拉起大量容器 Pod,我們對快照批量克隆云盤并進行實時數據訪問做了大量優化,能夠讓用戶在分鐘級拉起數千個 Pod 快速啟動運行。
異步復制,跨域容災
數據是企業的核心資產,現實世界總會發生非人力可及的災難,導致數據中心大面積停服,甚至造成數據丟失。數據異地容災是企業級客戶的普適需求,傳統的容災方案往往需要用戶自建容災中心、購買專線、以及投入大量人力運維和測試驗證,投入成本大、周期長。而云計算服務在全球部署的基礎設施天然為用戶構建了隨時隨地的容災能力。ESSD 云盤這次推出了異步復制服務,幫助用戶“零”門檻,隨時按需進行跨地域數據容災。
在 ESSD 云盤異步復制技術設計實現上,我們對云盤一致性組復制算法做了很多創新優化, 保證主從云盤組的時序強一致性和多重交叉校驗, 主盤前臺讀寫性能無損; 同時在數據傳輸鏈路,確保最小增量數據復制,利用多路并發調度壓縮復制時間周期,并對網絡健康狀況進行實時檢測和切換;用戶在控制臺輕點幾下鼠標,即可隨時開通異步復制服務,只需按實際使用量來付費。
ESSD 專屬集群
部分云上用戶希望對數據實施物理隔離以滿足行業規范需要, ESSD 專屬集群既能讓用戶享有云上的統一運維和軟硬件持續迭代的優勢,又可以獨占集群滿足物理資源隔離和定制化的需要。
全新一代高性能 ESSD PL-X 云盤
ESSD 的高性能和豐富企業特性得到很多用戶的喜愛,我們也從和用戶的互動交流中學習很多,不斷打磨迭代來帶給用戶更好的云盤體驗。很多用戶都反饋希望 ESSD 在性能方面能更進一步,能夠滿足他們最苛刻性能場景的需求。我們也一直朝這個方向努力,這里提前給大家帶來一個好消息,全新一代的高性能 ESSD PL-X 云盤即將發布邀測。
ESSD PL-X 云盤相比之前性能最強的 ESSD PL-3 云盤,4K 數據寫端到端延遲降低 70%,只有 30 us; IOPS 提升 3 倍,最高達到 300 萬; 而吞吐從 4GB/s 提升到 15GB/s。 相比其他友商的高性能云盤, ESSD PL-X 性能對比優勢更加明顯。
ESSD PL-X 云盤采用了最新的高速 RDMA 網絡和持久性內存技術,對數據鏈路進行深度優化,并通過創新的高并發讀寫一致性協議,極致壓縮了協議串行化開銷。同時考慮到持久性內存的單位成本要比 SSD 高一個數量級, ESSD PL-X 云盤融合持久性內存和 NVMe SSD 存儲介質,采用智能分層數據存儲管理,為用戶帶來最高的性價比。
從我們當前的 FIO 實測數據看,ESSD PL-X 云盤 4K 單路寫端到端延遲只有 25.44 微秒, 這個延遲分解下來: 主機端虛擬化延遲 10.6 us,RDMA 網絡傳輸 13us, 存儲后端處理僅 1.8 us。
我們還測試 ESSD PL-X 在數據庫場景下的表現,在 32 核 64 GB 內存的云服務器上部署 MySQL 8.0.18 社區版,通過 sysbench 壓測多家本地盤和云盤的性能表現,可以從下圖看到,ESSD PL-X 云盤在純寫純讀場景下性能都超出其它本地盤和云盤。同時由于 ESSD 云盤支持 16KB 原子寫,滿足 MySQL 關閉 double write 來更好的提升性能。我們還期望通過不斷優化持久化內存的彈性緩存算法來進一步提升性能,從右下圖可以看到,隨著持久化內存作為讀 cache 命中率的提升,MySQL 讀性能還會不斷攀升。
總結
ESSD 云盤創新融合了云和企業級存儲的特性,為用戶提供了更便捷、更智能的存儲服務體驗。我們相信,未來存儲不再是大家印象中的笨重的“鐵盒子”,云上企業級存儲以服務為中心,打開存儲更多維度,讓存儲變得更加柔性和智能。ESSD 云盤新的產品功能發布朝這個方向邁出了一大步,“穩定安全高性能,普惠智能新存儲”,我們在路上!
原創作品:阿里云存儲 滿弓
原文鏈接:https://developer.aliyun.com/article/793534?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的技术解读|云上企业级存储——打开存储新维度,促进用户核心业务创新的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文回顾阿里云弹性计算云栖大会精彩看点
- 下一篇: 【ESSD技术解读】 云原生时代,阿里云