OCP大会 | 腾讯云Open DCN Networking(附PDF)
導讀:1月15日,首屆OCP中國技術研討會在深圳召開,本次會議是由騰訊云和OCP國際社區合辦。在大會現場,騰訊專家工程師瞿孝榮在OCP技術研討會上發表名為《騰訊云Open DCN Networking?》的演講,以下為演講全文。瞿孝榮,長期從事網絡系統及軟件架構設計工作。早期在思科參與研發多款路由器,核心交換機的工作。其后在華為,博科,擎發等公司負責SDN策略,數據中心系統研發,及超大型數據中心商業交換芯片開發工作。
今天很高興來跟大家分享見證開放和開源生態環境對騰訊云數據中心網絡系統研發幫助。
這里我列出了有關開發性網絡所具備的多個關鍵特性,本意不是來定義什么是OpenNetworking,而是想把觀察到的開放式網絡里面的關鍵模塊列在這里來討論。說明一下, 紫色所代表的幾個模塊是開放性網絡重要特征及能力,但不在我這次討論的范圍里,我今天要交流的是Intertion based Proceses, Open Source Software, SDN, Automation,和Open? Network? Device這幾個關鍵部分,想從這幾個部分來說明我們是如何得益于開放和開源的生態環境。
2004年我還在思科工作的時候,陸續有幾位同事去了谷歌,后來聽說2004年谷歌已經開始做自己的網絡交換機的研發項目。那時候我是抱著懷疑的態度,因為那是2004年,谷歌必須自己開發所有網絡系統關鍵部分軟件,從一個傳統系統研發角度,我以為最后系統穩定性及完整性都會輸給系統廠商產品。事實上, 谷歌的確聘請來大量的開發人員, 也確實獨立開發了大部分軟件平臺, 比方說, 其中一個開源IP路由協議軟件quagga,谷歌是貢獻最多的。但同時,自研系統高度定制化同時大大減少了系統特性, 及復雜性, 谷歌DCN自研系統已經成功部署使用多年了。 超大型數據中心自研系統的必要性不是今天討論重點, 這里只是想比較14年前后開源開發社區的發展。
大家請看現在我列在這里的開放式生態環境所有的模塊,14年后的今天, 幾乎每個領域都有非常穩定開源軟件。14年來,北美多個OTT公司在自研網絡系統上的工作已經向業界證明自研設備系統軟件的可行性,并充分體現了自研模式在質量可控性、成本控制力,支持業務所需的靈活性、對業務需求的響應速度各方面為云業務提供競爭所產生的優勢。我也是滿有信心的在去年加入騰訊,來負責數據中心自研系統開發項目。
來到騰訊后, 我們大家一致同意需要加大力度開發一套數據中心網絡系統,包括硬件,操作系統和網絡管理平臺。 而且要求充分利用開源、開放的生態環境來加速產品落地。這頁膠片里面我列出的我們需要在網絡系統研發中,需要研究、跟蹤的開源模塊,在后面還有一些照片會展示這些模塊每個功能的使用方式。或直接使用、或共同開發。第一個部分,這些都是網絡協議的開源(圖),SDN方面也有很多。我這里列了一個Co-development,這指的是不僅享受已有的成熟開源平臺,我們也在嘗試著和研究所、大學共同開發一些跟SDN相關的網絡協議和網絡功能。再來看第三塊,大家注意到,我把兩個模塊疊到一塊,因為它們是相關的:基于意圖的能力和自動化。
最后這個方塊是open device, 在這方面,騰訊在硬件方面也開始嘗試著和設備廠商直接設計開發,先是開始跟有能力的OEM盒子保證設備穩定性。對我們來說,我們需要的白盒子,生產白盒子的就是我們的ODM。和我們一起合作、一起設計的廠家都是ODM,大家看到我們將來的合作廠商不僅是傳統上的ODM,對我們來說就是業務關系,即我們共同開發。
現在,我們來到了有關SONiC的部分,這個基本模塊就是網絡操作系統,SONIC是在OCP社區力提供的一個開源網絡操作系統。左邊(圖)有四個紫色模塊,我不是從技術上說一個小模塊是單獨的模塊,只是想說明到今天為止我們借助于SONIC的開源平臺上做了一些再開發。比如 “Tencent NOC”并不是一個單獨的模塊,意思就是說為了在騰訊內部、網絡設備上線部署的時候和網絡過程自動化、網絡監控、網絡配置自動下發要做一些適配工作,這個工作我們已經完成了。其實,這個工作是在多個模塊里面,這里為了方便表示, 就用一個柱子來表示。因此, 大家一定又看到我們也在這個網絡中開了一些可視化能力,包括INT等。這是我們基于開源的SONIC平臺第一個上線的操作系統。騰訊之所以能在短時間里開發出一套灰度上線的DCN網絡操作系統,很大程度上得益于SONiC這個非常活躍的開源社區的工作。
?
我們的工作在2019年先部署在DCN TOR/SPINE的網絡位置上, 這頁膠片里有個Future SONiCenabled Fabric,這部分工作是我們規劃的后一段階段性工作部分。
?
剛才討論的是最基本的網元能力,而下面這頁膠片的題目是OpenDCN Network in making,是描述我們計劃開發的一套閉環的智能化自運營系統。
這是一個非常復雜的系統平臺, 從最右往左講。第一,這是一個網絡拓撲,一個網絡能力,我想特意說明在DCNNetwork里面, 基于騰訊云網絡架構,智能網卡能力,我們這里有很多可再開發優化與合作的空間、機會。比如說在SDM框架下,大架構一切從簡,從芯片到驅動, 到協議軟件都會因此而變得簡單,穩定。 大家常說網絡就是交換網 (network as a fabric),那我們在這個框架下,就可以再看看芯片是否需要特別復雜的特性?將來的網絡里面只需要一個基于信元格式轉發的概念,從這個概念角度出發,除去其他冗余部分,曾經和一位芯片架構師核實了一下,再fixed的流水線芯片架構基礎上,的確能去掉很大一部分的冗余部分。在當今高性能芯片設計里面大家在掙扎的尋找更多空間去裝各種特性邏輯的時候,我們特定需求其實可以釋放那些壓力。 但在芯片轉發演進同時, 其相應管理, 控制也可以優化。實際上標準組織IETF已經注意到網絡互聯協議在特定拓撲的情況下可以優化,這個新draft叫RIFT,大家有興趣的可以去看看。
騰訊也在跟大學合作,從設備拓撲固定的前提下, 嘗試優化協議拓撲計算,取得快速收斂的效果,這也是有很多一起開發、合作的東西。再往左,網絡本身在超大規模的情況下離不開自動化,只有自動化才能scale,但自動化是雙刃劍,自動化搞得好有效率,但破壞性也很大。我們引進自動化的同時發現還需要抓更多一些輔助能力,我們又要做一些合作開發。我們獲得了一些開源工具,包括網絡配置解析工具。 膠片前面有這一個模塊是在網絡驗證上的開源工具,當然還有需要產品化優化的空間,但它確實是一個很好的平臺。
這張膠片里面還有多個自動化相關模塊。 Workflow自動化,可以幫助網絡建設高效準確的更加需要創立網絡拓撲, 設備選型, 網絡配置。
網絡策略自動檢測,網絡互聯仿真可以及時發現新配置下的軟件bug,或配置邏輯問題。
這個系統從對網絡描述語言/模板里獲取網絡意圖, 做到網絡拓撲自動生成到自動配置、到所有變更的驗證、到最后網絡的模擬,再到網絡的策略部署,最后是網絡運行中的反饋。
這一套工具和自運營系統都需要很多工程開發。我們作為后來者,得天獨厚的享受開源和開放社區帶來的好處。
今天我更多是作為見證,因為我們這個項目還很年輕,但是不影響我們有一個比較完整的野心。能為云帶來價值的不是一套設備操作系統,而是一套能自我智能運行的一套系統,這是騰訊云網絡研發項目后面幾年想借助于開源開放社區給我們帶來的能力,想自己開發、自研合作一套完整的系統,這張圖片包括我們后面幾年的一些野心和想法(圖)。
現在的成果是,第一張照片有兩款設備(圖),這是TOR設備,48個25G、8個100G上行的,右邊是效果圖,因為我們的設備要在二月底才能來,這也是我們跟廠商合作設計研究的一款128個100G的設備,是4U的,將來放在Spine的位置。從我們的規格里面可以看見,我們的這款設備時間有明顯的OCP影響,在OEM一般看不到BMC的配置,這是我們的設計,完全參考于OCP設計和我們特定的需求。
這頁是將來的大致路標規劃(圖),2019年底希望能把軟件和設備測試穩定后有一定規模的部署。大家一定注意到,我們以Broadcom芯片為主。也會迭代最新Broadcom芯片。但同時我們也有意去引進新供應商芯片,灰色的是規劃中的,我們的執行風險是人力資源和新型芯片成熟度。
今天我分享到此為止,強調一下,作為一個后來者,騰訊網絡研發、系統研發、光模塊自采充分體現了現在的生態能力、環境、給我們提供開源開放的資源,非常感謝OCP提供這個平臺。謝謝大家。
后臺回復“DCN”,獲取本次演講的完整PDF。
?
總結
以上是生活随笔為你收集整理的OCP大会 | 腾讯云Open DCN Networking(附PDF)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OCP大会 | T-Flex 2.0服务
- 下一篇: 腾讯与 TTN 宣布战略合作,共同推进全