【FIW2022精彩回顾】国泰君安新一代核心交易系统网络底座建设实践
9 月 21—23 日,第一屆“金融現代化IT基礎架構轉型論壇(FinTech Infrastructure Wave 2022)”成功舉辦。該論壇由中國信息通信研究院云計算與大數據研究所、《中國金融電腦》雜志社主辦,北京志凌海納科技有限公司(SmartX)與北京鯤鵬聯合創新中心協辦。論壇分為三大專場,覆蓋銀行、保險、證券、基金、期貨、信托六大金融細分行業,內容涵蓋多云平臺建設、核心業務系統信創轉型、超融合關鍵場景落地、核心業務改造、數據中心零信任安全、基礎設施等前沿話題。
國泰君安 IT 基礎架構主管譚澤廷分享了新一代核心交易系統網絡底座建設實踐。
文丨國泰君安 IT 基礎架構主管 譚澤廷
一、挑戰與目標
數字化轉型背景下,證券行業核心交易系統面臨四大挑戰:
一是高可用。目前,證券行業正處于持續發展階段,無論客戶還是監管部門,都對證券公司核心交易系統的高可用能力提出了極高要求,這就意味著對核心交易所在的基礎架構底座提出了更高要求。
二是高吞吐。伴隨證券市場的蓬勃發展,2015 年國泰君安在“大行情”時的交易峰值達到了每秒 5.2 萬筆;到 2022 年,國泰君安的客戶數量已達千萬級,是 2015 年的 3 倍,“大行情”時的交易量也迎來了更高的峰值。
三是低延時。證券市場交易永遠追求超低延時,雖然目前國泰君安的集中交易生產環境委托單筆延時僅為 30 毫秒,但依然無法充分滿足部分投資客戶的實際需求。
四是高安全。目前,集中交易系統大多使用 Windows 操作系統、SQL Server 商用數據庫和 Cisco 網絡設備,在全力推動數字化轉型的大背景下,亟須在下一代核心交易系統建設中采用我國自主創新的操作系統、數據庫以及網絡設備。
針對上述難點,國泰君安于 2018 年開始自主研發新一代低延時分布式核心交易系統,并于 2021 年試點投產。新系統在高可用、低延時以及大容量等方面均對基礎網絡環境提出了更高要求。例如,在高可用方面,要求同城雙中心高可用網絡集群故障或服務器故障自動切換 RTO<10 秒、RPO=0;主備數據中心切換 RTO<1 分鐘,RPO=0;異地容災中心切換 RTO<5 分鐘,RPO<1 分鐘。在低延時方面,新系統要求委托上行時延小于 2 毫秒,系統內部回路時延小于 40 微秒。在大容量方面,新系統要求 25G 接入與 40G 匯聚,且接入設備最大組播量在 10K 以上,核心設備最大組播量在 20K 以上。
二、技術選型
國泰君安集合應用開發團隊、系統運維團隊、技術架構團隊等骨干力量組成專項技術攻堅小組,在技術選型階段針對市場上多款交換機產品進行了詳細的對比測試,全面覆蓋了功能測試、組播測試及可靠性測試等內容。具體實踐中,攻堅小組通過專業測試儀打流,確認待測設備的交換容量和包轉發率均滿足要求,之后對 VLAN、MAC 地址、IP 路由、虛擬化等功能以及組播路由協議、組播特性及組播容量等進行了詳細測試,確認有兩款產品可滿足要求。
在此基礎上,攻堅小組開展了多項破壞性測試,例如在設備高負荷運行時,將部分電源及風扇強制拔出,以確認設備的高可用性滿足要求,同時針對核心交換機與接入交換機在二層網絡及三層網絡的單播和組播等多個場景,對時延進行了深入測試,確認了各款產品的具體時延。經過嚴格的 POC 測試和技術選型,國泰君安最后選擇了一款高性能核心交換機作為新一代核心交易系統的網絡底座,并于 2021 年在兩地三中心建設完成了新一代高性能核心交易系統。
三、路由設計
對新一代核心交易系統而言,其核心交易網絡主要涉及來安路、金橋和南方三個數據中心(如圖 1 所示),其中,來安路數據中心是國泰君安的生產主中心;金橋數據中心是在上交所租用的托管機房,定位是同城雙活及災備中心;南方數據中心是在深交所租用的托管機房,定位為異地災備中心。
?圖 1 國泰君安核心交易網絡
在實際運行中,每個數據中心的網絡架構均為“核心交換機+接入交換機”的模式。來安路數據中心與金橋數據中心采用兩條 10G 裸光纖互聯,南方數據中心分別采用了 10G 和 2.5G 的專線連接來安路數據中心和金橋數據中心,且每個中心均部署了全套交易組件,支持獨立運行。此外,整個網絡通過 VPN-Instance 實現邏輯隔離,并在每個數據中心的核心交換機配置三層互聯接口,在互聯接口為每個域劃分了子接口,子接口與 VPN-Instance 綁定。
在路由設計方面,數據中心之間使用 BGP 路由協議互聯互通,使用 Loopback 0 作為 BGP 的 Router-ID,通過子接口的互聯地址建立 BGP 鄰居關系,負責將該域在數據中心的業務網段以及 BGP 的 Router-ID、Anycast RP 的 Local 地址等信息,通過 Network 發布進對應的 BGP-VPN 實例地址簇,進而實現每個域在數據中心之間的路由學習。值得強調的是,由于金橋數據中心和南方數據中心之間距離較遠,而 BGP 的收斂能力僅為秒級,難以滿足低時延網絡要求,故國泰君安在網絡中專門配置了 BFD 來提供毫秒級的檢測精度,以快速識別故障并觸發 BGP 路由的收斂,從而確保業務連續性。
四、組播設計
新一代核心交易系統的各應用組件在同城數據中心之間使用組播實時同步,并支持在同步完成后通過單播發送給南方數據中心進行備份。在此過程中,上海同城數據中心互聯接口開啟 PIM-SM,數據中心內部在各組件的網關地址下開啟 PIM-SM 以及 IGMP V3 功能,以滿足組件之間的業務訪問需求。同時,為增強 PIM-SM 中 RP 節點的可靠性,上海兩個數據中心配置了 PIM Anycast RP,且每個數據中心核心交換機均配置了相同的 RP 地址,RP 地址間通過 Loopback 地址建立對等體關系,從而實現組播源就近注冊和接收者就近加入,既能緩解單個 RP 的負擔,也可實現 RP 備份,同時優化了轉發路徑。
PIM Anycast 注冊過程如圖 2 所示。在二層網絡中,為防止組播流量泛洪對帶寬造成影響,所有連接服務器的交換機通常會配置 IGMP Snooping,通過偵聽三層組播設備和用戶主機之間發送的組播協議報文來維護組播報文的出接口信息,進而管理和控制組播報文在數據鏈路層的轉發過程。通過組播技術,新一代核心交易系統的數據傳輸效率整體提升了 5 倍以上,目前核心交換機的組播表項已達 8900 個。
?圖 2 PIM Anycast 注冊過程
五、模塊化部署
在部署設計方面,來安路數據中心的每個機柜額定功率為 5kW,按照每臺服務器功率不超過 400W 計算,每個機柜可放置 12 臺服務器。基于此,國泰君安將 3 個機柜作為一個標準模塊,并為每個模塊配置一對接入交換機,可同時支持 48 臺服務器的雙網卡接入。此外,每個機柜中同時部署交易節點、外部接入群集、數據庫群集、控制群集等各類業務組件,通過將每個節點中各組件的主備節點部署在不同的標準模塊中,確保即使某對接入交換機同時發生故障,組件的整體處理能力亦不會受到太大影響,從而可最大程度保證系統可用性。
對于同城災備中心及異地災備中心而言,因托管機房對單個機柜的電量限制,導致每個機柜部署的服務器數量會相應減少,故金橋數據中心以 4 個機柜作為一個標準模塊,而南方數據中心則是以 5 個機柜作為一個標準模塊。
六、整網性能指標
新一代核心交易系統部署完成后,同城雙中心的網絡集群中任何一臺設備故障對系統均不會造成影響,且標準模塊下的網絡設備發生故障時,應用亦可實現平滑切換。在時延方面,新一代交易系統網絡滿足了業務委托上行時延小于 2 毫秒,系統內部處理時延小于 40 微秒,查詢時延小于 100 微秒,單筆時延小于 200 微秒,速度提升 10 倍以上。在容量方面,系統通過壓測整體達到每秒 30 萬筆交易,并且支持后期根據業務需求進行水平擴展。經過應急演練驗證,主備數據中心切換 RTO<1 分鐘、RPO=0,異地災備中心切換 RTO <5 分鐘、RPO<1 分鐘,可用性高達 99.999%。目前,國泰君安近 400 家營業部已經全部切換至新一代核心交易系統,新平臺承載了 1500 萬零售客戶交易。
國泰君安新一代核心交易系統成功上線,代表新一代分布式低時延架構在中國證券公司核心交易領域取得了重大突破,不僅標志著千萬級賬戶規模的證券公司零售交易系統正式從以數據庫為中心的大集中交易系統時代,走向以消息處理為核心的新一代分布式低時延交易系統時代,更是標志著金融核心系統自主創新方案的不斷成熟,推動網絡設備應用從測試網、辦公網逐步走向了最核心的交易網,進而為后續全面創新轉型積累了寶貴經驗、增加巨大信心。
總結
以上是生活随笔為你收集整理的【FIW2022精彩回顾】国泰君安新一代核心交易系统网络底座建设实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宽带市场开启烧钱模式 民资入场容易留下难
- 下一篇: 怎么自由裁剪图片大小?分享一款在线图片编