五个问答,告诉你阿里云对象存储如何助力钉钉战胜业务洪峰
“基于OSS在彈性擴容、跨省容災、多租戶管理以及傳輸加速方面的基礎能力,釘釘在此次戰役過程中,實現了一鍵切換寫入區域,拆分業務到多個區域的功能,同時釘釘在跨區域的圖片處理、文檔預覽的并發處理量上有了10倍速的提升。”——釘釘高級技術專家 金喜
大多時候,我們都無法從青萍之末,預測到暴風驟雨的到來,就如我們無法從一個病毒身上預測到整個疫情的到來一樣。在新冠肺炎疫情這只灰犀牛在全球狂奔的當下,諸多線下業務受到了影響。為了積極迎接此次疫情的挑戰,政府組織、企業、院校等紛紛開啟了線上辦公,視頻會議、在線教育以及基于互聯網的數據分析已然成為當下最重要的剛需。僅以釘釘為例,目前已經有1000萬家企業組織、2億上班族在釘釘平臺上協同工作。
在這樣如此巨大的業務流量和數據增量的壓力下,釘釘積極應對,借助阿里云對象存儲(以下簡稱“OSS”)成功實現了存儲的快速擴容,保障了業務連續性,同時解決了多租戶之間的數據隔離問題。我們將通過以下5個問題,向大家詳解解讀。
問題1.:為什么是OSS?
 答: 更適合互聯網業務的存儲產品。
 作為一個在線協同平臺,釘釘在直播,釘盤,圖片處理等方面需要使用到云存儲。而作為在最初就將存儲看作為一種服務的對象存儲,在應對互聯網數據存儲的規模化、高增長方面可謂開創了一個全新的、具有劃時代意義的解決方案。對象存儲的興起從被傳統存儲產品所忽視的互聯網數據存儲為切入點的對象存儲是面向互聯網、移動互聯網(3G、4G、5G)而產生的,是為大量使用的網頁、視頻、圖片、音頻、文檔訪問等場景而設計的。在技術上,對象存儲采用基于互聯網的 HTTP/HTTPS 的 S3(Simple Storage Service)/OSS(Object Storage Service) 訪問接口,其本質是通過互聯網(或移動互聯網)訪問網絡內容,為應用提供了全局、全網共享的數據池化管理,非常適合做為短視頻、圖片、音樂等互聯網應用的底層平臺。現在,對象存儲已經擁有了面向海量數據存儲、快速訪問的能力,不但可以構建數據統一分析平臺,還可以發揮數據挖掘的價值,讓存儲更智能。
進一步了解阿里云對象存儲(OSS)
在各行各業不斷擁抱互聯網的當下,基礎設施的云化需要一套新的技術體系,需要基于互聯網技術來進行改造。在企業組織數字化轉型的當下,在產業互聯網蓬勃發展的當下,需要更加適合互聯網場景的技術升級方案。從成立的第一天開始,阿里云就具有了獨特的互聯網基因,通過不斷應對互聯網時代的諸多挑戰,從而在今天構建起來數字經濟時代的底層范式和技術脈絡。
問題2:存儲作為一個有狀態的產品,如何在已有海量數據的同時,快速擴容來保障釘釘的業務需求?
 答: Region(地域)級資源快速調度能力。
 通過將單個對象分離為 meta、data 兩部分,并且將二者分離存儲,OSS 實現了 Region 級別的快速資源調度能力。在用戶有突發的帶寬、Qps 需求而舊數據所在集群又無法滿足時,可以按前綴、或按比例將一個桶的新寫入數據在一個 Region 內不同集群,甚至不同AZ(可用區)間調度,從而快速滿足用戶的需求。
 Meta、data 分離是否會影響用戶的 ListObject 操作的效率,或者導致無法保證 ListObject 的強一致呢?答案是不會,OSS 會保證單個桶的對象的 meta 都集中在一個集群,從而保證 ListObject 的高性能和強一致。同時用戶也不用擔心單集群無法滿足海量對象的 meta 存儲需求,OSS 高效的 KV 索引層保證了 meta 處理能力的水位擴展能力(實際生產中已經有了單桶超過了1萬億對象)。
 Region 級資源調度要解決的另一個問題是用戶的訪問模式問題。新寫入可以快速在 Region 級調度,但是用戶的訪問有多少會跟隨到新的集群,取決于用戶的訪問模式,訪問新舊數據的比例特性。OSS 具有在集群、AZ(可用區)間細粒度遷移舊數據的能力(用戶無任何感知),但是在存量數據量非常大的情況下,搬遷的耗時會比較久,這樣可能就無法快速實現對用戶讀取帶寬的調度。這時候就輪到OSS的運營大腦 OSSBrain 出馬了,多維度的用戶畫像能力可以快速判斷用戶的訪問特性,預測出有多少的讀取會跟隨寫入的調整而變化,進而更好的實現資源調度。比如,戰疫期間釘釘某業務需要快速支持數倍的訪問帶寬,通過 OSSBrain 分析,該業務讀取的數據90%以上是30分鐘以內寫入的數據。根據該特性,OSS通過快速將新寫入拆分到多個集群滿足了該業務的帶寬需求。
問題3:對于基礎設施來說,災備能力至關重要,釘釘如何基于OSS的容災能力快速搭建跨越四省的容災系統,如何保證業務的連續運行?
答:基于OSS 的跨區域復制和鏡像回源實現Region級容災。
 基于 OSS 的跨區域復制功能,用戶可以快速搭建具備Region級容災能力的云存儲服務。下圖是一個基于OSS搭建的三數據中心示例。用戶在主數據中心寫入,使用OSS的跨區域復制功能將數據持續同步到備數據中心。配合OSS的鏡像回源功能,3個數據中心都可以支持讀取操作。當然,在實際部署中需要對架構做適當的調整,保證不對對象做覆蓋操作,或者可以接受對象的最終一致。
戰疫期間,由于資源需求大漲,釘釘共使用了OSS 張家口、深圳、上海、成都四個區域的服務,保證了任意一個區域故障其他區域仍然可以承接全部的業務需求。
問題4: 作為一個天生共享型的云服務,OSS在服務釘釘的同時也服務著國內眾多的游戲、直播、教育類客戶,戰疫期間眾多客戶的資源需求都有大幅上漲,如何保證讓眾多用戶在共享OSS海量資源池的同時不互相影響?
答:持續在線的租戶隔離能力。
 OSS天生是一個共享型的服務,數十萬的客戶共享OSS的海量資源池,做好租戶之間的資源隔離就顯得尤為重要。得益于OSS持續在線的帶寬、Qps、CPU的QoS能力,戰疫期間直播、教育類客戶暴漲的訪問壓力未造成任何一起互相影響的線上問題。下圖是某個大帶寬客戶的讀取帶寬監控圖,從圖中可以看出OSS持續將客戶的帶寬控制在了約定的帶寬值。
問題5: 在疫情期間,各企業多地辦公甚至跨洋辦公成為日常,那么釘釘是如何保證文檔的快速分享與預覽的?
答:OSS的傳輸加速功能。
 OSS傳輸加速功能是OSS利用全球分布的云機房,將全球各地用戶對釘釘的存儲空間(Bucket)的訪問,經過智能路由解析至就近的接入點,使用優化后的網絡及協議,來訪問Bucket從而實現加速的目的。
 OSS傳輸加速的對于釘釘在上傳、下載文件都可以起到加速的效果,特別是對于上傳大文件(GB、TB)文件,這種加速方式是首選。
正是基于以上五點,OSS在戰役期間,為包括釘釘在內的眾多用戶提供了穩定、安全的基礎設施服務。以云計算為代表的數字化服務在此次疫情中發揮了重要作用。隨著產業互聯網、5G、AI時代的到來,以釘釘為代表的在線協同辦公將駛入發展的快車道,這是行業發展的必然趨勢。不久之后,當疫情退去,釘釘們依然會成為企業高效協同運作的助推器,而云計算,將成為這個助推器的重要燃料。
原文鏈接
 本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的五个问答,告诉你阿里云对象存储如何助力钉钉战胜业务洪峰的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 解密阿里云高效病原体基因检测工具
- 下一篇: 案例解析|广东自由流收费稽核方案,AI稽
