编程实现路由算法 实验报告_lt;中国通信专刊gt; EARS:用于软件定义网络中自动路由的智能驱动体验网络架构...
題目:EARS:用于軟件定義網絡中自動路由的智能驅動體驗網絡架構
摘要:軟件定義網絡(SDN)通過將控制平面與數據平面解耦來適應邏輯集中的控制,并提供對網絡資源的有效利用。但是,由于傳統路由策略依賴于手動配置的局限性,SDN可能會遭受鏈路擁塞和流之間帶寬分配效率低下的困擾,這可能會嚴重降低網絡性能。在本文中,作者提出了EARS,這是一種智能驅動的自動路由體驗網絡架構。在網絡架構下,作者設計具有吞吐量和延遲感知,根據流量的大小特征區分流量,并設計基于DDPG的自動路由算法作為DRL決策大腦,以找到小鼠和大象流量的最佳路徑。為了驗證網絡體系結構,我們在真實的網絡環境中實現它。大量的仿真結果表明,與基線方案(例如OSPF,ECMP)相比,EARS顯著提高了網絡吞吐量并減少了平均數據包延遲。
介紹:軟件定義網絡通過將控制平面和數據平面解耦,簡化了網絡管理,提供了靈活高效的網絡控制,因此被廣泛視為下一代網絡的發展方向之一。由于集中式全局網絡視圖的天然優勢,因此開放式可編程網絡接口和高速匹配轉發,SDN已成為實現流量工程的良好平臺。傳統的路由協議始終基于開放最短路徑優先(OSPF)或等價多路徑路由(ECMP)轉發流量。隨著網絡規模的逐步擴大和網絡應用的多樣化,網絡流量呈指數增長。 OSPF總是會導致鏈路擁塞,這很難適應當今網絡中巨大的流量需求。 ECMP利用基礎路徑的多樣性來平衡流量以實現負載平衡。但是,傳統的ECMP通常基于流。當少量的大象流繼續通過相同的鏈路并占據鏈路的大部分帶寬時,將嚴重影響數據流的傳輸效率。由于機器學習和深度學習在許多領域都取得了成功,例如機器人控制,自動駕駛汽車和AlphaGo,因此人工智能在大規模數據處理,分類和智能決策中顯示了巨大的優勢。為了解決傳統網絡協議的缺點,Parsaei等人。改進了啟發式算法,例如蟻群算法和遺傳算法,以優化數據流的路由。但是,由于啟發式算法的限制,網絡參數難以確定網絡何時發生變化。此外,許多機器學習方法已被應用于在SDN中實現智能網絡管理。應用監督學習解決特定的網絡問題有大量工作,例如資源管理,Web服務和視頻質量優化。但是,機器學習算法在動態網絡場景中會遇到決策緩慢的問題。同時,強化學習(RL)已成為解決網絡控制問題的替代解決方案。但是,傳統的RL(例如Q學習)需要維護Q表所有可能的狀態和動作空間。當網絡規模增加時,與內存和計算開銷相關的復雜性是使用傳統RL的主要挑戰。盡管深度Q網絡(DQN)引入了深度神經網絡來近似Q表,但它不適用于交通工程問題。由于交通工程是一個連續的控制問題,因此DQN僅能以有限的操作空間處理控制問題。提出了基于行為者批評框架的DDPG(深度確定性策略梯度)。 DDPG采用深度神經網絡來逼近Q表,并使用另一個神經網絡來生成策略功能,以實現大規模的連續控制問題。在本文中,我們提出了EARS,它是一種智能驅動的體驗式網絡體系結構,該體系結構利用軟件定義的網絡和用于自動路由的深度強化學習。 EARS使用DRL代理通過與網絡環境進行交互來從經驗中學習路由策略。此外,EARS應用了一些網絡監視技術(例如,網絡狀態收集,流量識別)來實現閉環網絡控制機制。 DRL代理可以根據自己的經驗學習很好地控制網絡以自動生成路由策略。
網絡架構:在本節中,我們介紹了智能驅動的體驗式網絡體系結構及其運行方式。圖1顯示了智能驅動的體驗網絡體系結構的模型。我們將DRL代理引入SDN以優化路由,通過定期收集端到端流量需求和網絡狀態信息來利用SDN控制器的全局控制,并使用DRL代理迭代學習流量特性和路由策略以改善網絡傳輸性能。
為了將DRL代理引入SDN,我們設計了閉環網絡控制機制來實現網絡狀態收集和流表規則安裝。 SDN控制器的功能是連接DRL代理和轉發平面。一方面,SDN控制器負責收集網絡狀態信息并為DRL代理提供全局網絡視圖。另一方面,SDN控制器根據DRL代理做出的決定生成到轉發平面的流表規則。由于整個交互過程形成了“狀態收集-控制決策-規則下載”的閉環,因此我們將其稱為網絡控制環。 SDN控制器有效地為網絡控制環路生成控制邏輯,并且DRL代理通過網絡控制環路與網絡環境持續交互。
DRL代理學習過程:
DRL代理的功能是生成控制策略。 SDN控制器定期收集網絡狀態信息以獲得全局視圖和對整個網絡的控制。 DRL代理通過三種信號與網絡環境交互:狀態空間,動作空間和獎勵功能。在培訓期間,DRL代理從沒有網絡先驗知識開始,并通過與網絡進行交互來學習根據經驗做出更好的控制決策。在每次交互中,由SDN控制器收集的網絡信息和性能將作為輸入發送到DRL代理。然后,DRL代理嘗試為每個流生成控制策略。 SDN控制器將流表規則發送到交換機,以根據DRL代理制定的控制策略來實現數據流的轉發。通過降低流量的轉發,網絡將反饋相應的獎勵值,以評估控制策略的質量,以便DRL代理能夠及時調整控制策略并執行策略更新以獲得更高的獎勵。經過培訓后,DRL代理可以通過與網絡環境交互形成的自身經驗來實現一步優化,并實現接近最佳的路由配置。
算法設計:
基于DDPG的自動路由算法的狀態空間,操作空間和獎勵功能:
狀態空間:狀態空間由兩部分組成:端到端吞吐量和延遲。控制器通過周期性地收集網絡狀態信息來形成狀態空間向量。
操作空間:操作是指控制器為提高網絡實用性而獲得的路由策略。對于大象流,作用空間為多徑的分流比;對于鼠標流動,動作空間是每個鏈接的權重。
獎勵功能:獎勵是路由算法的目標。在這里,考慮端到端吞吐量和延遲,獎勵是總網絡效用。在算法1中介紹了基于DDPG的自動路由算法。基于DDPG的自動路由算法將流量視圖信息用作輸入數據,并采用DDPG算法作為DRL Agent的主要算法來學習流量特性和路由策略。在數千次培訓中,DRL代理可以獨立探索針對不同流量情況的最佳路由策略。
仿真實驗:
為了驗證EARS的性能,作者對DRL Agent進行了300次訓練(每個訓練包含1000個步驟),并將其與OSPF和ECMP進行比較。圖2顯示了不同方案在不同流到達速率下的性能比較。我們在圖2中進行以下觀察:(1)隨著訓練次數的增加,EARS的平均數據包延遲不斷減小。在對DRL代理進行200次訓練之后,平均數據包延遲變化緩慢并且趨于穩定,這表明EARS取得了明顯的效果并且具有良好的收斂性。 (2)在前幾十個數劇集中,EARS具有最高的數據包延遲。經過300次訓練后,在所有流到達速率下,EARS的性能均優于其他兩種方案,且數據包延遲最小。這是因為EARS可以動態地為大象流和鼠標流選擇轉發路徑,并通過與環境交互以找到接近最佳的策略來不斷提高路由決策的水平。但是,OSPF通常會導致鏈路擁塞,并通過在最短路徑上路由流來大大增加數據包傳輸延遲。由于ECMP不考慮流量的大小特征,因此,當網絡的流量壽命分布不均時,效率低下。圖2顯示了三種方案在不同的流量到達速率下的吞吐量。
EARS范例引入了DRL方法,以在SDN中有效地生成路由策略。得益于DDPG的深度強化學習算法和SDN的集中控制,與傳統算法相比,EARS范例具有明顯的優勢。但是,它也遇到了一些需要進一步解決的挑戰。訓練開銷盡管DRL方法已顯示出比傳統算法在流量工程中的優勢,但DRL方法仍需要大量訓練開銷。在實際的網絡中,有許多因素會導致網絡狀態發生抖動,這對DDPG算法的收斂提出了巨大的挑戰。在網絡拓撲變化或大量流量激增的情況下,DRL需要大量的培訓開銷來適應變化,這限制了DDPG算法的靈活性。而且,這會導致SDN控制器和交換機之間路由更新的通信開銷過多,從而降低EARS的性能。因此,為了使DRL方法更好地適應實際網絡,有必要探索一些機制來減少訓練開銷以滿足網絡需求。
結論:文章提出了一種智能驅動的自動路由體驗網絡架構,稱為EARS,以解決鏈路擁塞和帶寬分配效率低下的問題。具體來說,EARS通過根據網絡需求和環境條件調整提供的服務和資源來適應深度強化學習,從而優化網絡,從而可以通過與網絡環境進行交互來學習根據自身經驗做出更好的控制決策。在網絡架構的基礎上,提出了具有吞吐量和時延感知能力的網絡實用功能,設計了基于DDPG的自動路由算法,以實現最大的網絡實用性。同時,EARS通過不同的動作策略自適應地選擇轉發路徑,以獲得接近最佳的路由決策。仿真結果表明,EARS具有良好的收斂性和有效性。與傳統的路由策略(例如OSPF,ECMP)相比,EARS通過同時提高網絡吞吐量,減少數據包延遲和平衡鏈路利用率來實現更好的網絡性能。
思考:EARS是運用深度強化學習(DRL)來模擬人類學習經驗知識的方法,采用閉環網絡控制機制并結合網絡監控技術來實現與網絡環境的交互。EARS可以通過與網絡環境交互來學習根據自身經驗做出更好的控制決策,并可以根據網絡需求和環境條件通過調整提供的服務和資源來智能地優化網絡。
總結
以上是生活随笔為你收集整理的编程实现路由算法 实验报告_lt;中国通信专刊gt; EARS:用于软件定义网络中自动路由的智能驱动体验网络架构...的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 求好看的电影?
 - 下一篇: vtk相机_C#开发PACS医学影像三维