IAAS: IT公司去IOE-Alibaba系统构架解读
從Hadoop到自主研發,技術解讀阿里去IOE后的系統架構
原地址:......................
云計算阿里飛天 摘要:從IOE時代,到Hadoop與飛天并行,再到飛天單集群5000節點的實現,阿里一直摸索在技術衍變的前沿。這里,我們將從架構、性能、運維等多個方面深入了解阿里基礎設施。【導讀】互聯網的普及,智能終端的增加,大數據時代悄然而至。在這個數據為王的時代,數十倍、數百倍的數據給各個機構帶來了無盡的機遇;然而,無可否認的是,數據體積的暴增同樣前所未有的挑戰著企業的基礎設施。
??????? 在這個大背景下,各個機構不得不在控制好成本支出的同時,不停摸索著時刻激增用戶數據的解決之道,其中阿里的成績無疑令人艷羨——單集群規模5000+的飛天,以及多集群跨機房計算的支持。本次我們將以飛天為例,為大家分享大規模分布式系統打造過程中的艱難坎坷及應對之道。
??????? 本次分享共分為視點、技術專題、應用實踐三大板塊:“視點”從人物著手細分阿里當時所面臨的形勢及各個據測制定的依據;“技術專題”主要從實踐出發剖析飛天5000節點擴展時所遭遇的艱難險阻及應對之道,涉及架構調整、性能優化、系統運維等多個領域;“應用實踐”則更注重于云實踐經驗及用例分享。
目錄
視點
技術專題
探索5K巔峰,云梯架設的飛天之夢。在3個月deadline的情況下,阿里卻選擇投入更多人力物力及時間的云梯1(以Hadoop為底層的集群)和云梯2(以飛天為底層的集群)并行擴容,阿里人選擇背水一戰的原因究竟是什么?在這個過程中,他們又會遭遇哪些挑戰?目標實現后的驚喜又是什么?
優化無極限:盤古Master優化實踐。盤古,飛天的分布式文件系統,在內部架構上盤古采用Master/ChunkServer結構,Master管理元數據,ChunkServer負責實際數據讀寫,通過Client對外提供類POSIX的專有API。在集群擴展到5K規模后,相關問題紛至沓來,主要可分為兩個部分:首先,盤古MasterIOPS問題;其次,盤古Master冷啟動速度。那么究竟是什么造成了這些問題?阿里工程師又該如何應對?
走近伏羲,談5000節點集群調度與性能優化。伏羲,飛天平臺的分布式調度系統。在5K攻堅中,從設計到實現每一步都可能存在性能“陷阱”,原因主要在三個方面:規模放大效應;木桶效應;長路徑模塊依賴。5000節點后這些方面究竟存在什么樣的問題?阿里人又通過了什么方法保證了服務的性能與穩定性?
走近華佗,解析自動化故障處理系統背后的秘密。5K后的運維模式究竟會產生什么樣的變化?阿里人究竟為什么會開發華佗?上通飛天系統,下達運維各種系統,華佗健壯、簡單和開放的架構究竟表現在什么方面?系統又是如何實現了自動化的運維?
ODPS技術架構及應用實踐。ODPS采用抽象的作業處理框架將不同場景的各種計算任務統一在同一個平臺之上,共享安全、存儲、數據管理和資源調度,為來自不同用戶需求的各種數據處理任務提供統一的編程接口和界面。那么,在DT時代,不斷擴大的數據規模又會給ODPS帶來什么樣的挑戰?網站日志分析又該如何進行?
ODPS跨集群遷移與數據同步經驗分享。阿里各業務部門如淘寶、天貓、一淘、B2B等每天都會產生大量的數據,日均增量數百TB。2013年初,阿里內部的生產集群PA所在機房的存儲量最多可擴容到數十PB,而當時已使用75%的存儲量。存儲容量告急,迫切需要將生產集群PA上的大量數據遷移到其他集群。那么阿里人該如何安全地跨集群遷移幾十PB的數據和其上相關業務?數據遷移之后,兩個集群間存在大量的數據依賴,需要互相訪問最新的數據,如何安全快速地實現跨集群數據同步?
飛天5K實戰經驗:大規模分布式系統運維實踐。但短時間大規??焖倥蛎浀默F狀,給運維帶來了巨大挑戰,其中云梯2單集群規模更是從1500臺升級到5000臺。為此,運維需要做多個方向的調整,比如:提升全局掌控能力、實現系統的自我保護和自動化修復、大規模與精細化的平衡。那么,阿里又是通過什么途徑完成這些工作的?
應用實踐
節選
《不期而遇的飛天之路》——去IOE,飛天勢在必行
??????? 翻開歷史,淘寶曾啟用全亞洲最大的OracleRAC集群,阿里更是購買過3年無限制的許可,阿里在IBM小型機以及EMC SAN存儲上的投入也曾成為媒體爭相報道的事件。但隨著互聯網爆發式發展,淘寶、支付寶和阿里巴巴B2B的注冊用戶數激增,阿里只能不停地通過水平和垂直擴展架構來應對新增用戶生成的海量數據。而這種集中式數據庫的架構,使得數據庫成為了整個系統的瓶頸,越來越不適應海量數據對計算能力的巨大需求,更不用說越來越難以承受的高昂投入。阿里的“去IOE”已經勢在必行:通過自主研發的分布式系統取代集中式數據庫架構,使用MySQL+HBase取代Oracle,商用機取代小型機+SAN。
?????? 選擇自主研發,這也是阿里云在步入云計算之路上做出的最重要的抉擇:堅持追求擁有自有的最有競爭力的核心技術。在唐洪看來,云計算是一門高技術門檻的生意,具備核心技術競爭力等于具備了在戰場上可以正面抗衡競爭對手的實力,盡管這個技術攻關的歷程非常之艱難。選擇自主研發而非采用開源Hadoop優化,也是基于一定的考慮,盡管Hadoop在離線大數據處理上具備優勢,但無法完全提供阿里云要求的大規模分布式計算與處理的能力,而目前基于飛天上線的云服務,已遠遠超出Hadoop的能力。開源可以說是一條先易后難的路,盡管一開始可以走一些捷徑,但事后在版本升級、研發上都會受頗多限制;從核心知識產權角度來看,今天無論是微軟、Amazon或者Google的云計算平臺,都沒有采用Hadoop且不開放代碼開源,本質上都是在追求自有的核心競爭力。開源軟件無法徹底成為一個云計算底層平臺的基礎,采用開源軟件并非解決做分布式系統這個問題的一劑良方。發展自有技術,堅持底層自主研發,如今能夠構建超級計算機的飛天已成為阿里擁抱云計算,以及對外提供云計算服務的堅實基礎。
結語
?????? 已經實現5000節點單集群的飛天5K擁有驚人的規模:10萬核的計算能力;100PB存儲空間 ;可處理15萬并發任務數;可承載億級別文件數目;100TB排序30分鐘完成,遠超今年7月1日Yahoo!在Sort Benchmark排序測試Daytona Gray Sort所創造的世界紀錄——100TB排序完成時間約71分鐘。
?????? 優秀的產品背后,必定有優秀的基礎設施支撐。在此,我們期望越來越多的團隊打造出更加穩定、更具性能的底層平臺,不管是自主研發,亦或是基于開源。(審校/魏偉)
總結
以上是生活随笔為你收集整理的IAAS: IT公司去IOE-Alibaba系统构架解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 「重点」范仲淹的作品有什么
- 下一篇: 知己好友的雅称