基于安全压缩感知的大数据隐私保护
基于安全壓縮感知的大數據隱私保護
王平1,?張玉書2,?何興1,?仲盛3
1?西南大學電子信息工程學院,重慶 400715
2?南京航空航天大學計算機科學與技術學院,江蘇 南京 211106
3?南京大學計算機科學與技術系,江蘇 南京 210023
摘要:當前的數據“大爆炸”主要受萬物互聯的驅動,服務于人類衣食住行的各類物聯網感知設備時刻在捕獲個人隱私數據,然而,這些隱私數據已成為網絡攻擊的重點目標。分析了資源受限的物聯網應用中的數據安全問題,介紹了基于壓縮感知理論的隱私保護技術—— 安全壓縮感知,提出了相應的大數據采集方案,并且通過安全性理論和實驗分析給出了結論性的呼吁:將安全壓縮感知作為一種感知層內置的輕量級加密機制,以近乎零的成本為數據提供第一層安全防護。
關鍵詞:?安全壓縮感知?;?大數據?;?物聯網?;?隱私保護
論文引用格式:
王平, 張玉書, 何興, 仲盛.基于安全壓縮感知的大數據隱私保護. ?大數據[J], 2020, 6(1):3-11
WANG P, ZHANG Y S, HE X, ZHONG S.Big data privacy protection based on secure compressive sensing.?Big Data Research[J], 2020, 6(1):3-11
1 引言
隨著數字化和信息化程度的不斷提升,全球已進入大數據時代。根據國際數據公司(International Data Corporation,IDC)在2018年11月發布的調研報告顯示,全球大數據存儲量呈現爆炸式增長。如圖1所示,全球數據量預計將從2018年的33 ZB增至2025年的175 ZB。值得興奮的是,中國數據圈占比將從2018年的23.4%(即7.6 ZB)增至2025年的27.8%(即48.6 ZB),成為全球范圍內最大數據圈。大數據是人、機和物在網絡空間中交互、融合所產生并在互聯網上可獲得的數據集合,其具有容量大、類型多、集中化存儲的特點,通過現代化大數據分析和預測手段,可以充分挖掘其背后隱藏的新知識、新價值和新動力,進而在電信、互聯網、金融、交通、醫療等行業創造新的商業模式和應用價值。目前,大數據逐步成為國家基礎戰略資源和社會基礎的生產要素。
目前,數據的增長主要受到來自物聯網數據、元數據和與娛樂相關的數據增長的影響,其中物聯網數據增速迅猛。在萬物互聯的時代,成千上萬的傳感器、服務器和智能終端構成一個比傳統互聯網更加廣泛的物聯網,人們可以從外界感知信息,信息交互不再僅限于人與人之間。物聯網的發展必然伴隨著局域連接與廣域連接業務的急劇增長,隨著5G商業化落地,聯網終端會進一步增多,這將會產生海量的物聯網數據。預計到2025年,全球各地聯網的數十億臺物聯網設備將產生超過90 ZB的數據,這主要受到車聯網、無人機網絡、可穿戴設備網絡和各種監測網絡等的驅動。在大數據和物聯網時代,人始終是物聯網的中心,各種物聯網應用服務于人類的衣食住行。無所不在的數據收集技術和專業化、多樣化的數據處理技術,使得個人難以控制隱私數據的收集情境和應用途徑。因其蘊藏的巨大潛在價值和逐漸集中化的存儲管理模式,隱私數據成為網絡攻擊的重點目標。根據數字安全領域的金雅拓公司(Gemalto)統計,僅2018年上半年,全球范圍內公共數據泄露事件達945起,導致45億條信息泄露。如何保障大數據隱私安全成為一項迫在眉睫的全球性問題。此外,為了追求極致的用戶體驗,物聯網終端設備普遍呈現出輕量化、可植入化的特點,在資源受限的應用環境下數據安全更加難以保障。
壓縮感知(compressive sensing,CS)采用混沌密碼對采樣數據進行二次強加密。也有研究表明,當采用高斯隨機數發生器構造測量系統時,通過隱藏樣本的能量信息可實現完美加密。此外,一種基于SCS的多級加密框架被提出,針對不同權限級別的用戶,從密文中獲取的信息量是不同的。
圖1???每年全球數據量增長情況預測
本文首先通過介紹CS理論基礎引出SCS技術,即嵌入保密性的CS。然后,提出SCS技術普遍適用的物聯網場景模型,并且從密碼學的角度給出理論分析。最后,通過仿真實驗進一步闡述SCS技術的可行性和安全性,并給出結論性的呼吁,即將其作為一種低成本的、內置保密性的信息獲取技術,廣泛應用在資源受限的物聯網場景中。
2 壓縮感知理論
CS理論基于信號的稀疏性或可壓縮性,不同于傳統的先采樣后壓縮過程(如圖2所示),其能夠同步執行采樣和壓縮操作,并且通過解決欠定方程,系統能夠精確地重構出原始信號。假定一個長度為N的一維信號X,能夠在一個大小為N×N的變換矩陣的作用下稀疏化,那么稱之為K-稀疏信號,其中。稀疏過程表示為:
其中,S為一個長度為N的系數向量,包含至多K個非零元。如果S是由占絕大多數的小數值元素和少量的大數值元素組成的,那么X被稱為可壓縮信號,可以通過將所有小數值元素視為零元素進行近似稀疏表示。幸運的是,大部分自然信號在預知的一組基上可以進行稀疏化。
圖2???壓縮感知和傳統采樣對比
在CS理論中,通過構建一個與不相干的大小為M×N(K<M<<N)的矩陣來線性測量原始信號x,該過程可表示為:
其中,Y表示長度為M的測量值向量,和分別叫作測量矩陣和傳感矩陣。采樣時用的是測量矩陣,而重構時用的是傳感矩陣A。
由條件K<M<<N可以看出,CS理論主要解決的是欠采樣情況下的信號重構問題。本質上,這是一個病態的求逆問題,即通過式(2)求解X是一個欠定問題,不具備唯一解。但是,基于原始信號是K-稀疏的先驗信息,即信號X只有K+1個自由度,理論上僅需超過該自由度的測量數便可以通過最優化方法重構原始信號。具體的做法是求解以下的l0最優化問題:
其中,ε表示噪聲。求解式(3)是通過遍歷所有可能情況的集合來找到最稀疏的形式,顯然這是一個NP難問題。常用的重構算法包括匹配追蹤(matching pursuit, MP)和正交匹配追蹤(orthogonal matching pursuit,OMP)。經研究表明,求解式(3)可等價于求解以下的l1最優化問題:
求解式(4)是一個線性規劃問題,利用常用的基追蹤(basis pursuit,BP)算法便可準確地重構信號。
為了保證能夠精確地從測量值Y中重構出原始信號X,除了信號的稀疏性這一先驗信息,測量矩陣與變換矩陣應該盡可能不相干。對此,傳感矩陣A需要具備以下受限等距特性(restricted isometry property,RIP):
存在δK∈(0,1),對于所有的K-稀疏信號s,使得上述不等式成立。事實上,檢驗一個矩陣是否滿足RIP條件也是一個NP難問題。Candès和Tao指出,由獨立同分布的高斯或伯努利隨機變量構成的隨機測量矩陣與任何一個固定變換矩陣大概率不相干。總體來說,待采樣信號的稀疏化程度越高,測量矩陣與變換矩陣之間的不相干程度越高,信號重構效果便會越好。
3 基于壓縮感知的大數據隱私保護
該節首先在CS理論的基礎上介紹融合混沌理論的SCS技術;然后,針對大數據時代的個人隱私泄露問題,構建了SCS技術普遍適用的物聯網場景模型;最后,從信息理論上給出SCS技術的安全性分析。
3.1 安全壓縮感知
在CS理論中,原始信號X的成功重構依賴于測量矩陣的真實性。因此,當將視為一種特殊的密鑰時,基于CS的信息獲取系統可同時被視為一種特殊的對稱密碼系統,這便是所謂的SCS。眾所周知,一個密碼系統由5個基本元素組成,包括明文、密文、密鑰、加密和解密。圖3直觀地展示了CS和對稱密碼之間的對應關系,也就是原始信號對應明文,采樣得到的測量值對應密文,測量矩陣對應密鑰,采樣過程對應加密過程,重構過程對應解密過程。值得注意的是,由于CS是一種有損壓縮技術,解密所得的明文與原始明文注定是非一致的。此外,信息與通信系統中的白噪聲和重構算法只進行有限次迭代,而引入的重構噪聲也將使解密算法不能完美地得到原始明文。
本質上,CS是一個線性映射過程。當掌握充分多的明密文對時,攻擊者可以輕松計算出采用的某個固定測量矩陣。為了達到較高的安全級別,基于CS的對稱密碼系統需要頻繁地更新密鑰,甚至采用一次一密的設置。由前文可知,密鑰尺寸是遠大于明文X尺寸的。倘若采用一次性的,每次測量都需要傳輸遠多于采樣數據的密鑰數據,這反過來將導致嚴重的數據災難,明顯與CS的設計理念相違背。為了避免直接傳輸大尺寸的,并且保持CS低復雜度采樣的優勢,可以嘗試通過混沌系統生成混沌序列,進而用來構造測量矩陣。
圖3???壓縮感知與對稱密碼之間的對應關系
混沌是非線性動力學系統中特有的一種運動形式。混沌系統本質上是一種確定性系統,但其呈現出非周期性和偽隨機特性。一維混沌系統可表示為:
其中,f(?)表示某種確切的映射關系, c0為該混沌系統的初始輸入值,即種子值。由以上混沌系統產生的混沌序列經等尺度變換和等間距抽樣操作后,可得到一個長度為M×N的偽隨機序列。按照逐列填充的方式,便可構成以下的混沌測量矩陣:
其中,σ2表示混沌序列Z(c0)的方差。由混沌理論可知,混沌系統對種子值c0十分敏感,一旦c0發生輕微變化,生成的將大相徑庭。因此,將輸入混沌系統的種子值c0作為SCS的密鑰,便可避免頻繁更新測量矩陣帶來的沉重通信負擔。值得注意的是,因為傳感矩陣A必須滿足RIP條件,所以并非所有的混沌系統均適合用來構造測量矩陣。
在這里,介紹兩種常用的混沌系統,即Logistic映射和Tent映射,它們均已被證明大概率地使傳感矩陣滿足RIP條件。Logistic映射可表示為:
其中,({μ,c}0)是初始輸入值。當μ∈((3..556699945 6,,4]]時,Logistic映射進入混沌狀態。但當μ=4時,Logistic映射被稱為滿映射,生成的混沌序列具有最好的偽隨機特性。然而,由Logistic映射產生的混沌序列并不滿足均勻分布。為了得到更好的隨機特性來抵抗統計分析,需要對產生的混沌序列進行額外的非線性變換。對此,采用Tent映射可以產生近似均勻分布的混沌序列。Tent映射可表示為:
其中,初始輸入值μ,c0∈(0,1)。
SCS技術的核心是在無法獲知的情況下,恢復X是不可實現的。因此,如何保障的安全是最關鍵的任務。在安全威脅小的情況下,可以采取定期改變混沌系統的初始輸入值的方案,以節約采樣時間。在安全威脅大的情況下,便需要采取一次一密的加密模式。
3.2 隱私保護的大數據采集方案
大數據的發展主要受到物聯網和云計算技術的驅動。物聯網致力于將自然萬物相互關聯,構建一個廣泛、有序和智能的網絡環境,其依靠各種感知設備獲取聯網物體的信息,以數據的形式完成信息交互。面對物聯網的不斷擴張,時刻噴涌而出的海量數據逐步向云端遷移。據IDC預測,到2025年, 49%的全球已存儲數據將駐留在公共云中。在云中心,數據可以被實時地處理和分析,并且將得到的結果及時反饋給終端用戶。同時,通過集中化的數據管理機制,海量數據背后隱藏的巨大價值將被進一步挖掘,并服務于人類社會的生活、生產。
數據是一種特殊的資產,個人隱私數據尤其容易招致惡意攻擊。目前,物聯網感知設備日益輕量化,資源受限問題也越來越突出。在大量的物聯網應用中,無線傳感器網絡(wireless sensor network,WSN)是最底層的信息感知方式。對于單個傳感器節點來說,可利用的資源十分有限,高復雜度的非對稱密碼系統常常不適合嵌入其中。SCS技術能在近乎不增加硬件成本的情況下,將保密性嵌入壓縮采樣的過程中。同時,CS充分考慮了數據的冗余性,僅需遠低于傳統采樣理論要求的樣本數量便可準確地重構原始信號,這將顯著降低網絡中的數據量,進而有效地減輕信息與通信系統的負擔。但是本質上,CS是一個復雜度轉移過程,即發送端的低功耗采樣是以接收端的高復雜度重構算法為代價的。幸運的是,隨著智能終端算力的不斷提升和云計算技術的迅速發展,重構算法的高復雜度問題能夠在云端或者終端得到有效解決。
在這里,SCS技術的普遍適用場景模型被提出,如圖4所示。首先,置于感知設備物理層的偽隨機數發生器根據輸入的種子值(即SCS密鑰)生成混沌序列,進而構造出混沌測量矩陣;然后,隨機采樣得到的測量值經過量化、編碼后,數據流向相應的客戶機,在這里可通過非對稱加密算法進行二次強加密處理;接著,加密數據經過通信基站進入公共互聯網;最后,通過公共信道傳輸至云數據中心進行存儲和處理。當授權用戶需要訪問原始信息時, SCS密鑰被授權給可信任的云服務提供商進行重構(解密),然后將重構結果進行反饋。當然,云數據中心也可以僅發揮大數據存儲的作用,發回的測量值在算力充足的智能終端上進行重構。
值得注意的是,SCS密鑰在發送端和接收端之間的安全傳輸需要憑借安全信道或者公鑰密碼技術完成,它的權限掌握在合法用戶或者可信任的第三方手中,并且需要被頻繁地更新。在如此的應用場景下,通過基于混沌和CS的信息獲取技術可以安全高效地采集數據,這極大地降低了物聯網中感知設備和通信設備的負擔。
圖4???安全壓縮感知技術的應用場景模型
3.3 安全性分析
從密碼學的角度來看,基于SCS的信息獲取系統也是一種輕量級對稱密碼系統。根據香農對信息理論安全的定義,絕對安全的密碼系統能夠保障攻擊者無法從非法竊取的密文Y中獲取任何有關于明文X的信息,即滿足。換句話說,明文X和密文Y之間的互信息為零,即滿足。本質上,SCS是一個線性映射過程,缺乏非線性混淆機制,明文X和密文Y之間存在著線性相關,無法實現信息理論安全。但是,當采用高斯隨機測量矩陣時,密文Y僅暴露明文的能量信息,且僅密文的能量信息?能泄露與明文X有關的信息,這種情況被稱為漸進球面安全。這也意味著,可以通過隱藏密文的能量來實現信息理論安全。
面對融合混沌理論的SCS應用,攻擊者若想得到真實的測量矩陣,進而從竊聽的密文y中非法重構出明文,將必須面臨著破解混沌密碼系統或者隨機猜測的困難。SCS應用在計算上的安全強度主要取決于密鑰空間大小,即攻擊者能否在有效時間內調用所有可支配的計算資源成功遍歷完整個密鑰空間,這種暴力攻擊的方式對混沌密碼系統來說一般是徒勞無功的。盡管SCS缺乏非線性混淆機制,但若采用一次一密的加密模式,攻擊者依然無法通過已知信息或選擇明文的攻擊手段從可利用的明密文對中獲取任何有價值的消息。
4 實驗結果和分析
本節通過仿真實驗簡要地驗證了融合混沌理論的SCS技術的可行性和安全性。本文選擇512×512像素的標準Lena圖作為測試對象,選擇Tent映射和Logistic映射構建混沌測量矩陣,并且利用二維離散小波變換(2DWT)進行信號稀疏表示。此外,所有的實驗均采用OMP算法重構信號,通過峰值信噪比(peak signalto-noise ratio,PSNR)衡量重構信號質量。需要說明的是,所有的仿真實驗都在MATLAB R2015b軟件中執行,并且以上實驗條件的設定與SCS技術的可行性無關。
4.1 可行性
為了驗證混沌測量矩陣能夠發揮與傳統隨機測量矩陣相似的效果,本文利用Logistic映射和Tent映射構建混沌測量矩陣,并且將它們與Gaussian測量矩陣、Bernoulli測量矩陣進行實驗對比。在本實驗中,Logistic映射和Tent映射的初始輸入值(μ,c0)分別為(0.35,0.65)和(4,0.65),為了保證較好的偽隨機特性,輸出序列的前1 200位被摒棄,并且按照15位的等間距抽樣獲得最終的混沌序列。
由圖5可知,在不同的壓縮率下,由Logistic映射、Tent映射生成的混沌測量矩陣與Gaussian測量矩陣、Bernoulli測量矩陣達到幾乎相同的重構效果。這意味著,混沌測量矩陣也適用于CS技術,這樣不僅可以避免傳輸大尺寸的測量矩陣,而且可以通過混沌系統將一定水平的保密性嵌入壓縮采樣的過程中。
4.2 安全性
由前文的安全性理論分析可知,SCS技術無法提供絕對的安全保障,但是其能以一種近乎零成本的方式將額外的保護層嵌入感知設備中。在這里,本文將進一步通過仿真實驗展現面對暴力攻擊時融合混沌系統的SCS技術的安全性能。在本實驗中,壓縮率被固定為0.5,采用Tent映射構建混沌測量矩陣。同樣先摒棄輸出序列的前1 200位,然后按照15位的等間距抽樣獲得最終的混沌序列。假定采用的密鑰是(μ,c0) =(0.45,0.55),攻擊者猜想的虛假密鑰包括(μ+Δ,c0)、(μ,c0+Δ)和(μ+Δ/2,c0+Δ/2),其中Δ=10-16是真實密鑰和猜測密鑰之間的偏差。
圖5???不同測量矩陣的重構效果對比
圖6是原始圖像和重構圖像質量的對比。從圖6可知,利用SCS技術加密得到的密文(即測量值,如圖6(b)所示)在視覺上無法泄露任何有意義的信息。此外,盡管攻擊者猜測的密鑰與真實的密鑰如此接近,但是依然無法通過它從竊聽到的密文中解密出明文。
圖6???原始圖像和重構圖像質量對比
5 結束語
在萬物互聯的時代,物聯網中時刻生成著大量與個人隱私有關的數據,這些數據在互聯網上流動以及匯向云端的過程中容易受到惡意攻擊。特別在一些資源受限的物聯網場景下,底層信息感知設備不支持嵌入高能耗的傳統密碼系統,數據安全問題尤為突出。針對這種問題,本文融合混沌理論和CS理論提出了新興的SCS技術。盡管SCS技術無法實現信息理論安全,但其能在近乎不增加任何硬件成本的情況下同步完成采樣、壓縮和加密3種操作。緊接著,本文給出了SCS技術普遍使用的物聯網場景模型,并通過仿真實驗闡述了該技術的可行性和安全性。由于SCS技術具備低能耗采樣和輕量加密特性,筆者呼吁將其作為一種低成本的、內置保密性的信息獲取技術,在資源受限的物聯網場景下為采樣數據提供第一層安全防護。
作者簡介
王平(1993-),男,西南大學電子信息工程學院碩士生,主要研究方向為多媒體安全 。
張玉書(1987-),男,博士,南京航空航天大學計算機科學與技術學院教授,主要研究方向為多媒體安全、物聯網與云計算安全 。
何興(1986-),男,博士,西南大學電子信息工程學院教授,主要研究方向為計算智能 。
仲盛(1974-),男,博士,南京大學計算機科學與技術系教授,主要研究方向為密碼學、博弈論及其在計算機網絡、分布式系統中的應用 。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
基于APMSSGA-LSTM的容器云資源預測
Hadoop下水環境模擬集群運算模式
WEB:一種基于網絡嵌入的互聯網借貸欺詐預測方法
基于SARIMA-LSTM的門診量預測研究
一種基于隨機投影的本地差分隱私高維數值型數據收集算法
總結
以上是生活随笔為你收集整理的基于安全压缩感知的大数据隐私保护的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机网络复习-应用层
- 下一篇: 计算机网络各层代表设备