一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘!
【CSDN 編者按】逍遙子曾說,對阿里人來說「打仗是最好的團建,參加過雙 11 的叫戰友」,同樣,參加過多次雙 11 考驗的系統技術都會成為真正意義上的基礎設施,阿里云飛天系統的云網絡平臺洛神就是如此。
本文作者 —— 阿里云智能事業群研究員、網絡產品線負責人祝順民(花名江鶴)老師就是洛神背后的核心鑄造者。在「CSDN 在線峰會 —— 阿里云核心技術競爭力」上,江鶴老師為我們詳細分享洛神網絡的 10 年演進之路。
復制鏈接或點擊「閱讀原文」可免費觀看江鶴老師分享視頻:
https://edu.csdn.net/course/play/28249/388353
作者 | 祝順民(江鶴),阿里云研究員
責編 | 唐小引
頭圖 | CSDN 下載自東方 IC
出品 | CSDN(ID:CSDNnews)
今天的主題是《云網絡技術架構的演進之路》,主要介紹阿里云網絡產品從無到規模應用的 10 年過程中,云網絡技術平臺洛神是怎么發展的。?
阿里云飛天洛神云網絡平臺
阿里云系統叫飛天,云網絡平臺稱為洛神,洛神和飛天系統的關系如下圖所示,洛神云網絡平臺是阿里云飛天操作系統內核的核心組件和系統服務,伴隨著飛天系統一起誕生、成長。
圖 1 阿里云網絡洛神平臺與飛天操作系統
整個飛天系統架構分為幾個層次,底層數據中心基礎設施,包含物理資源、機房、服務器,還有多地域和可用區(AZ)、物理網絡等;其上是飛天操作系統的核心,支撐了整個云計算的虛擬化,包括計算平臺神龍,存儲平臺盤古,以及網絡平臺洛神;基于系統核心組件,構建了面向用戶的系統服務以及原生服務,支撐不同行業客戶在阿里云上構建自己的應用系統。
飛天洛神平臺的誕生
洛神伴隨飛天系統誕生,是云計算產業發展的結果,云計算首先是計算虛擬化,并提供給不同的用戶使用,當用戶在云上使用計算資源時,網絡地址獨立規劃,不同用戶地址可以相同,且虛擬機可以在不同機房之間遷移,地址保持不變,同時云計算是一個基礎設施,支持海量用戶同時使用,這些關鍵需求要求提供一個超大規模的虛擬化大二層的網絡。
圖 2 云計算租戶網絡應用需求
這些需求,使用傳統商用物理交換機和路由器構建的網絡,無法滿足云計算的需求,也滿足不了阿里云運營這張網絡的需求,主要原因在于:
1)在百萬級別的租戶之下,如果每個租戶都給到一張獨立的地址空間,地址空間的數量非常龐大,傳統交換機里面使用 VRF 來隔離租戶之間的空間,意味著交換機要支持海量的 VRF 資源,這是目前硬件能力無法支持的。
2)服務器和虛擬機的數量增長,網絡節點以及路由表的規模快速增大,虛擬機通訊和遷移要求路由表能快速同步。
3)當用戶對云上網絡層面的功能需求越來越多的時候,比如說用戶在云上不僅希望有個虛擬機,還可以有個公網 IP;比如說用戶可以自行定義這張網絡 IP、路由和安全組。另外隨著 NFV 技術發展,用戶希望在云上運行虛擬化業務網元,例如負載均衡、NAT 網關、VPN 網絡,要求對應的底層網絡能快速進行功能迭代,以滿足新需求和新技術的快速應用。
4)更關鍵的是,傳統物理交換機是一個黑盒,各個廠商實現各異,接口各不一樣,同時不支持設備內功能定制開發,讓設備的運維成為一個難題。
圖 3 傳統網絡設備應對云計算的約束
所以阿里云網絡選擇了一條自研的路,使用三大技術滿足云計算的需求:
1)虛擬化網絡;?
2)SDN 技術,軟件來定義網絡;
3)整個技術棧自研。
阿里云網絡洛神平臺就此誕生。
圖 4 洛神網絡 10 年演進
洛神云網絡平臺隨著阿里云飛天系統一起,已經經歷了 10 年演進,分為兩個階段,洛神 1.0 時代,主要定位為支撐超大規模和多租戶的網絡。
隨著阿里云的業務快速發展,尤其近幾年規模增長特別快,2018 年開始推出洛神 2.0,洛神 2.0 的特點主要在高性能、彈性開放能力。
現在阿里云上運行著很多超級規模的用戶,比如阿里巴巴集團的淘寶業務,這些超大規模用戶對網絡的性能提出了很高的要求,特別是在例如雙 11 這種大型活動期間,網絡流量的峰值是十分巨大的,這對網絡的性能提出了非常高的要求。
同時阿里云提供了豐富的基礎 IaaS、 PaaS 產品與服務,第三方的生態伙伴可以在阿里云上提供眾多的 SaaS 服務,包括網絡類的 SaaS 服務,例如網絡管理類、網絡數據分析類、網絡日志管理類、網絡轉發類的軟件。這些軟件在阿里云上很好的運行,需要網絡提供彈性,開放的能力,就是洛神 2.0 的定位。?
飛天洛神 1.0:超大規模、多租戶網絡
洛神 1.0 平臺由很多網絡組件組成,架構上主要分成兩類:AVS(Apsara vSwitch)和各種網關網元。AVS 是部署在每個物理服務器上的軟件網元。最早基于 XEN 的 Kernel 架構實現,轉發性能不高,單機只有 15 萬 PPS。隨后演進到了 KVM 的架構,在這個架構下,vSwitch 還是在 Kernel 的,但已能提供單機 120 萬 PPS 性能。然后在 Intel 推出 DPDK 版本后,AVS 進行了架構升級,使用用戶態 DPDK,轉發性能提升至 600 萬 PPS。
AVS 的演進,是為了追求網絡性能大幅提升的過程,是阿里云網絡持續迭代和改造網絡軟件架構的原動力。
關于業務網關,最早也是基于 Kernel 網絡協議開發。例如 Load Balance 設備,第一代也是基于 Kernel 開發,當時整臺物理機性能大約只有 300 萬 PPS。為了追求更高的性能,這些網元基于 DPDK 進行了重新構建,既包括公網網關、私網網關,還有 SLB、NAT 網關、VPN 網關等等,轉發性能提升了 20 倍。
洛神 1.0,基于 DPDK 的 AVS 和各種網關,最終搭建出一張支持超大規模租戶、超大規模虛擬機的網絡。?
圖 5 洛神 1.0 支持超大規模租戶網絡
如圖所示,在這張超大規模的租戶網絡里面,我們達到的核心能力包含:
1)多租戶隔離,每個區域可以支持百萬規模的 VPC。如果說一個租戶對應一個 VPC,一個區域就可以支持百萬規模的租戶;
2)單個 VPC 支持超大規模虛擬實例,目前有一些超大規模的 VPC 中實際部署并運行了超過 30 萬的 ECS,也就意味著此租戶的這張網絡里面有 30 萬個以上的 IP, ECS 之間的通訊,包括東西和南北向的流量,都能很好的在虛擬網絡里面運行。
3)最后就是基于 AVS 能力,單個 ECS 能夠提供百萬級 PPS 能力的轉發性能。
飛天洛神 2.0:連接全球,高性能,彈性開放網絡
洛神 1.0 支撐了阿里云網絡從無到有,至規模應用,隨著阿里云的業務不斷增長,租戶越來越多,也帶來了越來越多的 VPC。租戶購買的虛擬機越來越多,也代表著網絡里的節點越來越多,轉發性能要求越來越高。此外,也有越來越多的租戶在云上不但僅僅滿足簡單的連通性要求,提出了豐富的業務網元處理訴求。例如用戶原來在自己的數據中心里面構建了防火墻和 NAT,或者自己買了一些 Load balancer 的設備,現在業務系統搬到阿里云上之后,希望原來的網絡功能繼續在阿里云使用。
在此背景下,洛神平臺升級到 2.0。如圖所示,洛神 2.0 提供了更加豐富的轉發網元,既有神龍 MOC 卡,還有專用可編程芯片以及通用 ECS;同時洛神 2.0 新構建了一個 NFV 平臺,支持業務網元不再依賴傳統 X86 服務器,直接基于 NFV 平臺構建,例如 NAT、SLB、VPN 產品,同時 NFV 平臺支持開放能力,第三方的網元也可以基于 NFV 平臺部署,通過 VPC 內和 VPC 間的訪問。?
圖 6 洛神 2.0 架構圖
洛神 2.0 的基礎是阿里云遍布全球的網絡基礎設施和 Region 數據中心的基礎設施。目前在全球有 20 個 Region、61 個可用區,100 多個 POP 節點。當國內用戶需要出海或者國外的用戶需要進中國的時候,不再需要自己購買很多物理形態的設備和網絡連接,并花很長的時間搭建出網絡基礎設施。基于洛神 2.0,阿里云的網絡產品就可以分鐘內快速構建出運營網絡、基礎設施。
洛神 2.0 的 AVS 和業務網關都進行了架構跨越式升級,AVS 基于軟硬件一體化方式,使用神龍 MOC 卡實現快速轉發,轉發性能提升數倍,達到千萬 PPS。
圖 7 軟硬件一體的新一代 AVS
洛神 2.0 另一個跨越式架構升級是提供新一代的 NFV 平臺,通過網元邏輯部署在通用 ECS 上,提供彈性和開放能力。當第三方廠商將其應用移植到阿里云之后,就可以在阿里云市場里對阿里云的租戶進行售賣和提供能力,形成了一個非常好的生態:
1)網元可以給大量租戶使用;
2)客戶的白天流量很大,半夜的流量很少時,阿里云會自動幫你縮容。
如果說在某個時刻點突然碰到高峰,阿里云會自動協助擴容,也就意味著第三方的網元利用洛神 NFV 平臺,不僅可以開放部署,還可以享受到自動的彈性。
圖 8?洛神 2.0 NFV 開放平臺架構
飛天洛神的未來
洛神 2.0 中,還有一個齊天智能網絡平臺,是未來演進的重要能力,未來的網絡將是一個智能化的網絡。當客戶業務部署在阿里云的時候,如果網絡發生波動或故障,需要非常快速的排查問題,因為網絡是屬于最底層的服務,當業務不能對外提供服務的時候,首先會想到網絡問題。這個時候網絡可能是正常的,有可能是上層業務的問題。如何讓上層業務團隊快速定界問題所在,如何讓網絡的管理員能快速自證清白,提升未來生產運營服務的效率,就這是未來智能化網絡需要解決的問題。
圖 9 洛神的未來演進
未來阿里云洛神平臺的發展方向就是智能化,未來會通過自研網元,采集網絡中數據,并且用大數據的方式去做產品問題分析和資源規劃,目前洛神齊天系統已經構建在一部分能力,在內部使用,未來會提供給阿里云的客戶,讓客戶可以智能化的運營自己的網絡基礎設施,這就是阿里云洛神平臺未來演進的方向。
作者簡介:祝順民(花名江鶴),阿里云智能事業群研究員,網絡產品線負責人,在軟件定義網絡(SDN)和網絡功能虛擬化(NFV)領域有多年技術研發和管理經驗。他帶領團隊歷時多年,從無到有,打造了業內最豐富的云網絡產品線,并鑄造了阿里云飛天系統的云網絡平臺-洛神,服務了百萬用戶,并歷經 8 次天貓雙十一考驗,已經成為真正意義上的基礎設施。
同時,歡迎所有開發者掃描下方二維碼填寫《開發者與AI大調研》,只需2分鐘,便可收獲價值299元的「AI開發者萬人大會」在線直播門票!
推薦閱讀:在容器上構建持續部署及最佳實踐初探在Kubernetes上部署一個簡單的、類PaaS的平臺,原來這么容易!全球呼吸機告急!醫療科技巨頭美敦力“開源”設計圖和源代碼互聯網之父確診新冠,一代傳奇:任谷歌副總裁、NASA 訪問科學家微軟為一人收購一公司?破解索尼程序、寫黑客小說,看他彪悍的程序人生!2020年,這20個大家都認識的加密交易所過得怎么樣?真香,朕在看了總結
以上是生活随笔為你收集整理的一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在容器上构建持续部署及最佳实践初探
- 下一篇: Teradata天睿公司任命Steve