网络安全模型_基于数据驱动的网络安全流量分析总结
導讀
網(wǎng)絡和社交流量分析是檢測和防御網(wǎng)絡攻擊的基礎(chǔ)。隨著數(shù)據(jù)集的日益劇增,手工定義規(guī)則的傳統(tǒng)方法逐漸被機器學習(ML)方法替代,這是因為ML有更好的工作性能。在數(shù)據(jù)驅(qū)動的研究背景下,通過研究社交流量和網(wǎng)絡流量的大量文獻,本文采用相似相關(guān)性以及可提取特征等常用概念和共享網(wǎng)絡安全目標的方法來分類網(wǎng)絡主機與應用程序的網(wǎng)絡流量和用戶與Tweet的社交流量。因為網(wǎng)絡和社交流量的研究不是孤立的,而是需要廣泛使用大量的、不同的網(wǎng)絡或社交流量數(shù)據(jù),而且這些流量還具有許多特征,比如特定的大小,源與目的間的多層信息。本文闡述了一種新的基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全研究方法(DDCS),并介紹其在社交和網(wǎng)絡流量分析中的應用。DDCS的框架包括三個組成部分,即:網(wǎng)絡安全數(shù)據(jù)處理、網(wǎng)絡安全特征工程和網(wǎng)絡安全建模。
概述
在互聯(lián)網(wǎng)時代,網(wǎng)絡安全問題尤為重要。而網(wǎng)絡流量分析又是網(wǎng)絡安全的重要組成部分,本文展示了一種基于數(shù)據(jù)驅(qū)動的流量分析模式。
大量文獻都基于數(shù)據(jù)驅(qū)動,以前的數(shù)據(jù)分析只是傳統(tǒng)的統(tǒng)計分析的工作。但在大數(shù)據(jù)和人工智能時代,即使數(shù)據(jù)復雜多樣,許多隱藏的信息、知識等仍然可以通過ML來獲得,可以用于解決當前和未來的網(wǎng)絡安全挑戰(zhàn)。網(wǎng)絡和社交流量、統(tǒng)計特征和有效載荷都可以作為數(shù)據(jù)。
最近有關(guān)流量的研究綜述,側(cè)重于分析ML技術(shù)的應用。但是網(wǎng)絡流量分析缺乏統(tǒng)一的數(shù)據(jù)驅(qū)動框架。這篇論文就填補了這一空白,提出了一種新的基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全研究方法(DDCS),它包括網(wǎng)絡安全數(shù)據(jù)處理、網(wǎng)絡安全特征工程和網(wǎng)絡安全建模三個方面。這三個方面是按順序排列的,該框架有助于解決網(wǎng)絡安全的核心問題。
基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全框架
本節(jié)提出了基于數(shù)據(jù)驅(qū)動網(wǎng)絡安全研究框架DDCS。DDCS是采用基于數(shù)據(jù)驅(qū)動的機器學習算法來解決網(wǎng)絡安全問題。DDCS由網(wǎng)絡安全數(shù)據(jù)處理、網(wǎng)絡安全特征工程和網(wǎng)絡安全建模三部分組成。具體來說,就是從不同角度考慮數(shù)據(jù)、ML、先驗知識、度量標準。對于每一步,首先考慮數(shù)據(jù),然后圍繞數(shù)據(jù)組織、優(yōu)化和ML模型,討論適合典型數(shù)據(jù)驅(qū)動流程的數(shù)據(jù)。進一步根據(jù)實際情況采用有監(jiān)督的、無監(jiān)督的、半監(jiān)督的或混合的機器學習方法,得出數(shù)據(jù)流量分析的結(jié)果。
A.????網(wǎng)絡安全數(shù)據(jù)處理
大多數(shù)情況下,網(wǎng)絡安全數(shù)據(jù)必須被標記,而標記的類型根據(jù)具體問題具體分析,同時為了保證ML性能,標簽的數(shù)量必須有限。目前廣泛使用的標記方法,有手動檢查,或者過濾黑名單,在流量分析領(lǐng)域比較常用的方法是識別有效載荷的深度包檢測(DPI),可以對加密流量進行分析。零日問題也是數(shù)據(jù)標記的常見問題,目前常見的做法是將零日數(shù)據(jù)單獨處理,一般是將標記與未標記的數(shù)據(jù)合并,然后進行聚類分析,其中不含預標記的數(shù)據(jù)類別為零日數(shù)據(jù)樣本。
B.????網(wǎng)絡安全特征工程
如何確定統(tǒng)計特征是解決網(wǎng)絡安全問題的關(guān)鍵,而特征的提取取決于選用的平臺或工具。網(wǎng)絡流量比應用程序數(shù)據(jù)(如Tweet)的流量大得多。為了有效地分析大量的數(shù)據(jù),尋找合適的特征至關(guān)重要。流量包由兩部分組成:報頭和有效載荷。由于數(shù)據(jù)加密和數(shù)據(jù)分割的原因,有效載荷數(shù)據(jù)并不總是可用的。因此,分析網(wǎng)絡報頭在效率上有很大優(yōu)勢。然而,網(wǎng)絡報頭非常小且大小固定,每個字段都有非常嚴格的定義,這些限制阻止了以應用程序級別來提取復雜信息。通過研究網(wǎng)絡流量中自然存在的相關(guān)信息,可以克服這一缺陷。也就是說,TCP/IP協(xié)議描述了流量的概念,可以用于測量和提高整個網(wǎng)絡的服務質(zhì)量。更重要的是,雖然實際的網(wǎng)絡設備會以不同的方式對待每個流量流,但是以更平等地方式對待每個應用程序的流量流,因此不同應用程序生成的流量能夠代表統(tǒng)計分布。
網(wǎng)絡流量是按網(wǎng)絡屬性分組的網(wǎng)絡數(shù)據(jù)包的集合。根據(jù)對流量定義的擴展,提出了“bag of flow”的概念。一個流量包由同一應用程序生成的一些相關(guān)網(wǎng)絡流量流組成。也就是說,一個流包由具有相同五元組的連續(xù)IP數(shù)據(jù)包組成,一旦建立了流,就可以提取一組統(tǒng)計特征來表示每個流。流量的統(tǒng)計特征列于表一。
表一?數(shù)據(jù)驅(qū)動網(wǎng)絡安全事件預測方法論
C.????網(wǎng)絡安全建模
適當?shù)男阅茉u估對于確定給定的模型或系統(tǒng)是否滿足其需求至關(guān)重要。在典型的ML模型訓練過程中都有一個訓練集,一個測試集。最常用的分類指標包括TP、FP, FN,和TN。最佳的ML模型是通過在一些獨立的度量標準中進行權(quán)衡比較而來的。交叉驗證技術(shù)可以有效的最小化偏差,然而,在實踐過程中,網(wǎng)絡安全數(shù)據(jù)的不平衡性,增加了訓練ML模型的訓練成本。一種比較常見的做法是從不常見的類中選擇更多的數(shù)據(jù),而常見的類中則選擇較少的數(shù)據(jù)集進行訓練;另一種做法是利用集成學習;還有一種復雜的方法是重新分配每個類的權(quán)重值,然后評估小類中樣本的缺失值。此外還可以使用可視化的圖來輔助決策過程。如當ROC曲線接近圖的左上角時,模型變得更加理想。
通過選擇合適的度量標準并與之進行比較,可以客觀地確定結(jié)果是否令人滿意。如沒有達到目標,可以迭代地改進ML模型;如目標失敗了,應該重新開始分析有關(guān)數(shù)據(jù),直到找到滿意的解決方案。
基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全流量分析
本章對社交和網(wǎng)絡流量分析的最新研究進行了歸納總結(jié)。
A.??????數(shù)據(jù)處理
網(wǎng)絡中存在著具有破壞性的數(shù)據(jù)流量,用戶隱私使數(shù)據(jù)更敏感;不同地點間的流量也不同;復雜的處理步驟使得實時分類變得困難。特征處理與優(yōu)化的工具可應用于該領(lǐng)域。而各種ML方法可改進過時流量分析模型的性能。進一步,結(jié)合深度學習,多類和集成的方法對將來的工作也有很大幫助。
利用先驗知識來輔助標記對基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全流量分析至關(guān)重要。現(xiàn)有人工標記方法十分耗時耗力,標記自動化是未來重點研究的領(lǐng)域之一;更清晰的用戶隱私的邊界分析也是未來的研究方向。理想情況是通過共享和獲取有關(guān)隱私的網(wǎng)絡跟蹤真實數(shù)據(jù)進行學術(shù)分析。這些方法許多是離線分析的,需要涉及許多步驟,無法做到實時響應,不具有實用性。特征仍是分類的主要依據(jù),內(nèi)容表示可以改變這種依賴關(guān)系并有助于檢測增強。同樣,深度學習也是有效的,此外,可以考慮更新的技術(shù)進行更好的可視化分析。
B.??????工程安全特征
大流量數(shù)據(jù)在數(shù)量、種類、速度方面復雜多樣,傳統(tǒng)數(shù)據(jù)分析難以處理。流量之間存在著相關(guān)性與相似性,通過對特征的測量和分析其對流量的影響,進而對流量進行分類,此外,實時流量的相關(guān)性檢測也是比較困難的。流量的相關(guān)性與相似性還可以檢測代碼漏洞和惡意軟件,檢測漏洞僅僅是為了過濾單個特征,而非對整個數(shù)據(jù)源進行分類。社交和網(wǎng)絡流量分析都存在一定的誤差率,因為數(shù)據(jù)集是提前收集好的,而不是實時持續(xù)的數(shù)據(jù)集,為了克服這一誤差,可以在訓練集中不斷添加新的特征。數(shù)據(jù)存在的偏差和記憶,會嚴重影響對其的正確標記。無論是人工標記,還是算法標記,或是使用特定工具都需要利用先驗知識。圖1總結(jié)了這種數(shù)據(jù)結(jié)構(gòu)的概念。無論是垃圾郵件還是流量,許多不同的樣本是相關(guān)的或是組合在一起的。
圖1 ?數(shù)據(jù)結(jié)構(gòu)的概念
C.??????網(wǎng)絡安全模型
DDCS表明了一種新的研究方式,并推動該領(lǐng)域的發(fā)展。如何獲取和應用該領(lǐng)域知識是一個挑戰(zhàn),同時對社交網(wǎng)絡和網(wǎng)絡流量分析的效率和有效性具有很大的影響。這種能力可以通過兩種形式體現(xiàn),一是中斷時間段內(nèi)仍能達到可接受性能的訓練和測試模型的能力,因為在一段較長的時間內(nèi)數(shù)據(jù)偏差是顯而易見的。二是網(wǎng)絡分析方法能夠?qū)﹂g隔數(shù)周到數(shù)月記錄的樣本進行測試和訓練。在流量分析的文獻中,一個共同的參考點是數(shù)據(jù)采集的敏感性,對新的可用的網(wǎng)絡跟蹤的有限訪問可能影響知識保留能力。
許多流程和方法在各個領(lǐng)域之間都是共享的,其中的不同是數(shù)據(jù)和分類結(jié)果。圖2顯示了涵蓋四個領(lǐng)域的通用流程模型以及典型的數(shù)據(jù)驅(qū)動方法。數(shù)據(jù)是關(guān)鍵的,隨后根據(jù)需要進行整理和調(diào)整,也可以在模型的訓練和測試步驟中進行調(diào)整。
圖2?通用流程模型以及典型的數(shù)據(jù)驅(qū)動方法
總結(jié)
本綜述提出了一種新的基于數(shù)據(jù)驅(qū)動的網(wǎng)絡安全流量分析方法DDCS,并回顧了它在社交和網(wǎng)絡流量分析中的應用。DDCS在回顧Twitter垃圾郵件檢測和IP流量分類等領(lǐng)域的最新研究成果時,顯示了數(shù)據(jù)、模型和方法之間的緊密聯(lián)系。強調(diào)了大流量數(shù)據(jù)、領(lǐng)域知識和研究方法方面的挑戰(zhàn)和未來的工作。希望這項調(diào)查能夠提供新的見解和想法,推動網(wǎng)絡安全的進一步研究,特別是在社交和網(wǎng)絡流量分析方面。
文章出處
Rory Coulter, Qing-Long Han, Lei Pan, Jun Zhang, and?Yang Xiang, “Data-driven Cyber Security In Perspective:?Intelligent Traffic Analysis”,?DOI:?10.1109/TCYB.2019.2940940,?IEEE?Trans Cybern,?2019
總結(jié)
以上是生活随笔為你收集整理的网络安全模型_基于数据驱动的网络安全流量分析总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阮一峰es6电子书_ES6理解进阶【大前
- 下一篇: python代码风格_Python编码风