安全大数据的7个V——大数据基础问题与信息安全的交叉探究
安全大數據的7個V——大數據基礎問題與信息安全的交叉探究
潘柱廷
如果我們把大數據這個詞作為一種新的計算理論、方法、技術和應用的綜合體來看,那么我們探討大數據與信息安全之間的關系,就有兩種方向:其一,就是 如何用大數據來解決安全問題;其二,就是如何保障大數據的安全。本文探討的是前者,并且是通過對于數據根本屬性的探究,通過大數據基礎科學問題的探究,結 合信息安全的根本原則和高端問題,探討大數據應用于安全的科學研究和產業開發重點課題。
?
【那些V】
?
談大數據似乎總要從所謂的“3個V”或者“4個V”談起。自己很想免俗,卻好像又沒有其他更好的切入點。也許這些個V還真的就是大數據的一些根本屬性,是繞不開的一些基礎問題。
?
在大數據的V中,有些是常說的,有些是不常說的,這里總結了7個V:
——Volume,海量的數據規模;
——Velocity,快速的數據流轉和動態的數據體系;
——Vast,數據來自廣大無邊的空間;
——Variety,多樣的數據類型;
——Veracity,數據的真實和準確更難判斷;
——Value,大數據的低價值密度;
——Visualize,大數據可視化的重要性。
?
【我們需要多大的安全大數據】
?
在上面的這7個V中,第1V的Volume表現的是大數據的所謂“大”的狀態。
?
現在信息安全領域的常規市場和應用中,所遇到的數據量還都到不了當前大數據所謂的PB級;TB級數據都是比較少的處理對象。而在城域網監控、網絡宏觀態勢感知等應用中,其實已經積累并且繼續不斷增加著大量的數據,將是大數據方法的重要用武之地。
?
【時間軸上的安全大數據】
?
Velocity所代表的時間范疇,是大數據的重要來源。
?
在當前常規的信息安全產品中,特別是具有代表性的檢測響應類產品技術中,大量采用實時檢測;所謂“實時”當然體現了“快速”的內涵。而在帶寬越來越 大、系統越來越復雜,采集數據越來越多的同時,安全檢測對于時間響應的即時性要求并沒有減弱。如果對于源源洶涌而來的數據不能及時處理,就將被數據淹沒 (DoS)。這就需要實時或準實時分析系統中采用更多的“流計算”方法。(流計算是區別對比于批量計算的方法)
課題:流計算在安全分析中的應用。
另外,“實時”常常還隱含著一個缺省的意思——主要根據當前數據(或者數據緩存)作出分析判斷,也就是說不大量保存長時間的原始數據(或者說時間窗口比較 窄)。而安全事件及其原因本身具有很長的時間跨越性(APT就是跨越長時間的緩慢***模式),這逼迫我們要存儲更長時間的日志和網絡流等原始數據;而當我 們開始存儲更長時間的數據時,也發現了這些動態數據流通過“存儲”而變成了靜態的數據塊,于是并行計算、異步計算以及一些智能算法等就可以被應用于其上 了。
我們分析一些IT架構模型:比如Zachman將一個IT系統分成數據、功能、人、網絡、時間和動機等六個方面;再比如DOSH視角將一個IT系統分成數 據、操作、系統和人四個方面。說一個很哲學化的結論:“所有的IT系統要素中,只有數據是能夠穿越時間的”。其他要素如功能、系統、人、網絡、操作等等都 只能存在于當下;只有數據天然就是可以從過去留存到現在,并且可以從當下延續到以后。所以,任何一個以數據為核心的方法和技術,都要在時間延展上下功夫。 所謂時間延展,說得直白一點就是要在(英文同是Memory的)存儲和記憶上下功夫。
課題:流數據的高速存儲和分析問題(存儲結構與分析方法具有深度關聯)
?
【空間上的安全大數據】
?
Vast所代表的空間范疇,是大數據的三個重要來源之一。也就是從更多的空間位置采集大數據。
?
任何一個***過程、任何一個安全事件蔓延過程都會涉及很多空間位置和空間范圍,沒有哪個安全問題是孤點問題。那么在對一個多空間點的安全事件對象, 要進行更加充分的分析和發現,當然是獲得更多空間位置的采集數據會更好。數據采集點的增加當然會線性地增加安全分析的數據量。而如果每個數據采集點所采集 的數據也比較大的話,那就更成為了一個分布式大數據問題。
在空間范圍內傳輸大數據是一個必須回避的操作,這樣的傳輸會給網絡帶來災難性的性能壓力。或者說根本不能考慮大數據的傳輸,而只能考慮將計算移動到數據旁 邊,也就是要進行分布式存儲和分布式計算。這里面一個根本的問題就是,“一個全局性安全問題是否可以分解為多空間位置的局部計算,而各個空間位置的局部計 算解經過合并后,所得到的綜合解是有效的全局解。”
課題:安全數據分析的分布式存儲、分布式計算和空間關聯
?
【多樣性的安全大數據】
?
Variety所代表的數據多樣性,也是大數據的三個重要來源之一。也就是從更多樣的數據形態中獲得大數據。
當前信息安全市場中的主流產品,基本上都是單一數據類型的檢測工具。
?
| 產品 | 被分析和處置數據的類型 | 
| 漏洞掃描 | 發向目標系統所返回的數據 | 
| 防火墻、IDS/IPS、UTM、病毒防火墻等 | 網絡鏈路上的通用網絡數據流 | 
| Web應用防火墻(WAF)、數據庫審計等 | 網絡鏈路上的專門網絡數據流:WAF對應的是Web訪問流;基于網絡的數據庫審計對應的是Web服務器和數據服務器之間的網絡流。 | 
| 防垃圾郵件系統 | 郵件包 | 
| 日志審計 | 服務器產生的日志 | 
| 終端安全產品 | 終端系統的日志、配置、操作痕跡等。 | 
| 安全管理平臺(SIEM安全信息與事件管理) | 各種設備和安全產品所產生的事件類數據(包括日志),經過范化(Normalization)后匯集到安全管理平臺中。 | 
?
從上面這個表格看到,大部分安全產品所處置的數據確實都比較單一。而現實中的任何一個安全事件都是有豐富數據痕跡的,如果能夠綜合多樣化的數據,應 當可以獲得更加準確和深入的分析結果。而且,當前信息安全檢測方面的兩個高端問題:APT檢測問題、網絡宏觀態勢感知與預測問題,也必須通過多樣化的數據 才可能有效地解決。
什么是所謂的“數據多樣性”?其實就是數據的“結構”多樣性。一個安全事件行為所留下的各種各樣的痕跡,是難于用少數幾種結構來概括的。如果要強行進行數 據格式的范化和歸一化,則必然會丟失多樣性數據所蘊含的豐富內容,從而丟失關鍵信息。所以,傳統的安全管理平臺的數據收集、范化和關聯分析方法,難于獲得 令人滿意的安全價值也就不奇怪了。
大數據方法所針對的一個重要問題就是所謂“非結構化”問題或者“半結構化”問題。其實,沒有哪個數據是沒有結構的,每個數據都是“結構化”的,只不過這個 所謂“非結構化”的“結構化”不是我們容易處理和分析的結構,不是我們常用的 “二維表結構”(以關系數據庫處理系統為核心)。比如,網絡數據流是天然的延時間軸展開的流結構,最適合播放操作;一個網絡區域中各個系統之間的連接關系 是一個圖論中的網結構;而不同系統所產生的多樣化日志是一些格式互不相同的二維表結構。
大數據方法的一個突出代表就是NoSQL類型的數據存儲與檢索分析。盡力保留大量數據的原始形態,以此為基礎進行后續的分析和處理。在信息安全市場中,市 場份額最大的就是部署在網絡鏈路上的網關和旁路檢測產品,這些產品都是對網絡流進行分析的,那么網絡流的原始數據留存和快速分析將是躲不過去的關鍵課題。
?
課題:網絡流安全數據的原始數據留存和快速數據分析視圖
?
【好不好的安全大數據】
?
再說一句很哲學的話:“所有的IT系統要素中,只有數據是可以偽造和臆想”。其他的要素功能、系統、人、網絡、操作等等,也許一個會像另一個,但是 每個都只能是自己。只有數據天然就是可以被修改、被偽造,并且可以無中生有。所以,數據有好壞問題,而這個好壞問題在大數據中會更加極端地被放大。
所以大數據的Veracity真實和準確問題,是在“量”的性能問題之外所面臨的最難的問題。更泛的表達這個話題就是數據的“質”——數據質量問題。在《數據質量工程實踐》一書中,談到了數據質量的12個維度很值得借鑒:
1.?數據規范(data specification)
2.?數據完整性準則(data integrity fundamentals)
3.?重復(duplication)
4.?準確性(accuracy)
5.?一致性和同步(consistency and synchronization)
6.?及時性和可用性(timeliness and availability)
7.?易用性和可維護性(ease of use and maintainability)
8.?數據覆蓋度(data coverage)
9.?表達質量(presentation quality)
10.?可理解性、相關性和可信度(perception, relevance and trust)
11.?數據衰變(data decay)
12.?效用性(transactability)
?
課題:安全大數據的質量保持和真實性確證
課題:高噪音的大數據中保持分析結果的精確度
?
【價值導向的安全大數據】
?
數據是物理世界的數化反映。一句哲學化的說法:“價值讓數據不同于數字”。數據背后是有對象的,而這些對象常常是有屬主的、有立場的、有價值歸屬的、主觀的。
大數據幾個V中的這個Value,最主要的意思就是“大數據的低價值密度”。由于大數據的體量很大,其所蘊含的價值總量是很大很可觀的,但是由于其體量大也就導致了其價值密度極低,而且是極端的低密度、極度地稀疏。
稀疏價值背后帶來了一個很前沿的學術方法——超高維問題。這些稀疏的價值,就像在一個高維空間的一些稀疏的點。高維到什么程度?稀疏到什么程度?最極端的 情況就是這些數據樣本的維度甚至比樣本個數還大。比如,人類基因測序問題就是這類型的問題,基因所蘊含的豐富維度是大大高于普通研究中所能涉及的幾十萬幾 百萬樣本規模的。
在傳統計算的處理習慣和限制下,我們會盡量獲取二維或者低維數據。而大數據方法提示我們可以主動獲取高維度數據來解決無特征安全分析問題。比如,為被分析對象抽取高維度指標(幾百甚至更多維度),然后再進行降維算法處理。這是安全分析中非常有前途的方向。
課題:高維安全數據降維算法和高性能計算。
所謂的價值稀疏,還有另一個視角。當具體到某一個精確定義和要求的價值,在大數據中是稀疏的。而大數據中的挖掘和利用中,不一定要獲取過于精確的價值。比 如,在進行“實體的個體標識”過程中,所獲得的稍微模糊一些的“實體的分類標識”就能夠產生不少的價值。常常說大數據是未來的石油。但是,在廣袤的地球 中,除了石油,還有煤、天然氣;還有金子、鉆石、翡翠;而像南紅瑪瑙、蜜蠟、青金石這樣的新珠寶還在被逐步的挖掘出來。所以對于大數據的價值挖掘要有種地 刨出田黃石雞血石的心理預期。
但是,信息安全問題的解(價值)還是有比較明確的指向性的——就是在對抗中獲勝。而對抗中獲勝的價值分解就非常豐富多彩了。要平衡信息安全價值指向的確定性與大數據的泛價值之間的矛盾。
課題:全局安全事件的局部發現和局部處置
?
【價值展現的安全大數據】
價值如果挖掘出來了,還要展現給應當了解這些價值的人(或者系統)。這種可視化展示有兩種努力方向:
第一種,就是將大數據中的價值“在較短的時間窗口內,用較低維度的形態”展現出來。比如一幅圖,就是單點時間的二維圖。比如病毒傳播過程展示,就是短時間的網絡拓撲(二維)過程錄像。
第二種,就是給需要進行處置和響應的人和系統,提供足夠的提示信息甚至是指令。自動和輔助駕駛的汽車和飛機,就需要這樣的可視化系統。
而廣域網網絡風暴快速處置就同時需要前面這兩種可視化能力。
課題:宏觀網絡安全事件可視化展示
課題:APT安全事件還原和展示
?
【總結】
?
分析幾個V背后的規律,讓我們反思和了解大數據的一些基礎問題。在7個V中,
——第1V,表達的是大數據所外在表現的 “大”量;
——第2V-4V說的是大數據的“大”是從時間、空間和多樣性這三個方向而來;
——第5V-7V闡述的是大數據的價值流轉。從數據本身的客觀質量,到有立場的價值認識和價值挖掘,最后到價值的展示和利用。
?
大數據方法為信息安全能力帶來了更大潛力,也有更多有趣的課題等待業界去研究和價值化。
【參考】
?基于大數據分析的安全管理平臺技術研究及應用【摘錄】
深入大數據安全分析(1):為什么需要大數據安全分析?
Gartner:CIO們最應該消除的八個大數據神話
《Information Security》談大數據安全分析
IEEE: 安全領域中的大數據分析
當網絡安全遇上大數據分析 
                            總結
以上是生活随笔為你收集整理的安全大数据的7个V——大数据基础问题与信息安全的交叉探究的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 微信小程序登录一键登录,出现异常,报错4
- 下一篇: GIS原理篇 地图投影
