数据自治开放模式下的隐私保护
數據自治開放模式下的隱私保護
王智慧1,2, 周旭晨1,2, 朱云1,2
1. 復旦大學計算機科學技術學院,上海 201203
2. 上海市數據科學重點實驗室,上海 201203
摘要:數據開放對于提升數據資源的應用價值具有十分重要的意義。但是出于隱私保護的考慮,數據開放應該是有監管的開放,即采取數據自治開放模式。針對數據自治開放可能給隱私保護帶來的挑戰,提出了面向數據盒的隱私保護系統框架。該系統框架針對數據使用者的數據使用聲明進行隱私泄露風險評估,并在評估結果的基礎上決定是否授權許可相應的數據使用請求,以支持數據自治開放的實現。
關鍵詞:數據管理;數據自治開放;隱私保護
doi:10.11959/j.issn.2096-0271.2018017
論文引用格式:王智慧, 周旭晨, 朱云. 數據自治開放模式下的隱私保護[J]. 大數據, 2018, 4(2): 42-49.
WANG Z H, ZHOU X C, ZHU Y. Privacy preservation in self-governing openness of data[J]. Big Data Research, 2018, 4(2): 42-49.
1? 引言
隨著大數據時代的來臨,數據資源的戰略性和商業價值越來越被人們認同和重視,數據資源的開放共享需求也日益緊迫。然而在現實中,數據資源的開放共享卻變得越來越困難。造成這種狀況的主要原因之一是數據開放共享時的隱私保護問題[1]。
以醫療數據開放為例,醫療數據開放顯然能夠為醫療數據開發利用提供便利,為臨床診斷、藥物研發等提供數據支持,推動醫療數據價值的實現。但是,醫療數據常包含較多的隱私信息,例如,患者個人信息、既往病史、就診記錄等。因此,出于對患者的隱私保護的考慮,醫療數據的開放將不可避免地受到制約。
從數據開放模式下的隱私保護需求考慮,一方面要求實現對個體隱私的保護,即保護數據所描述的個體對象的隱私;另一方面也要求對數據自身的稀缺性加以保護,即保護數據開放者提供的原始數據的整體隱私不被非法攫取。因此,從隱私保護的角度來說,數據開放要求必然是有監管的開放,即數據自治開放。
本文考慮在數據自治開放模式下,以數據盒為基本數據單元向數據使用者開放。數據盒是數據自治開放的載體,它封裝了被開放的數據以及相應的數據管理系統。數據使用者先向數據開放者申請使用數據盒,在獲得數據開放者的授權之后,再通過數據盒提供的數據訪問接口使用數據,以此實現數據的開放。在數據使用的過程中,數據盒內的管理系統通過對數據使用者的數據訪問進行管控,實現數據開放過程的自治。一個數據盒內封裝的數據可能含有隱私信息。為了防止隱私泄露,數據使用者在申請使用數據盒時,需要提供相應的數據使用說明,即說明需要使用哪些數據、以何種方式使用這些數據以及數據使用的預期結果。因此,面向數據盒的隱私保護需要通過分析數據使用者的數據使用說明,判斷相應數據使用是否可能導致隱私泄露以及涉及隱私泄露的數據范圍和隱私泄露的嚴重程度。
針對數據盒的隱私保護需求,本文總結了在數據自治開放模式下面臨的隱私保護挑戰,基于隱私泄露風險評估,設計了面向數據盒的隱私保護系統框架。通過將風險評估與使用控制結合,允許數據開放者在其可接受的隱私泄露風險范圍內開放數據,進而為數據自治開放提供有力保障。
2 ?相關工作
隱私就是任何與特定個人或團體相關、但不愿被不加選擇地暴露的信息[2]。目前許多隱私保護研究基于這樣的前提假設:數據開放者持有的電子化數據一般是完整的、未經任何處理的數據,其中涉及隱私的敏感屬性事先已知。一種簡單的手段是隱藏姓名、身份證號等唯一標識個體身份的顯式標識符,但這種簡單匿名化的效果是相對脆弱的,難以抵御常見的背景知識攻擊和鏈接攻擊等行為[3-5]。背景知識攻擊就是利用背景知識直接推知隱私信息的攻擊手段。背景知識包括攻擊者可能擁有的任何信息,前提是這些信息有助于其進行推理,并獲知開放數據中某些記錄對應的敏感屬性值。而鏈接攻擊則是指攻擊者在其背景知識基礎上和外部數據集進行鏈接推理,進而導致隱私泄露的攻擊方式。圍繞這一問題,目前已經有k-anonymity[3,4]、l-diversity[5]、t-closeness[6]、m-invariance[7]、differential privacy[8,9]等多種隱私數據保護模型先后被提出。但是,目前的研究很多都是在數據開放前通過對數據進行添加噪聲等相應處理來實現隱私保護的,這樣一方面會降低數據在開放過程中的可用性,另一方面也沒有體現數據開放過程中對隱私保護的自主可控性。
在大數據環境下,攻擊者通過數據挖掘分析技術會擁有更強大的背景知識,而且可以結合多源數據以發動鏈接攻擊。針對這一情況,一些隱私保護研究立足于與數據挖掘相關的隱私保護研究。特別地,一些研究針對關聯規則挖掘[10-13]、數據分類 [14-18]以及數據聚類[19-21]分別提出了相應的隱私保護挖掘技術。但是,這些研究大都針對特定的數據挖掘任務,缺乏數據自治開放實際所需的普遍適用性。
從上述關于隱私保護的現有技術的分析可以看到,現行方法雖然在一定程度上起到了隱私保護的作用,但是仍存在不足,不能滿足數據自治開放模式下隱私保護的本質需求。
3 ?隱私保護挑戰
在數據自治開放模式下,如何實現有效的隱私保護是有待研究的重要問題之一,對數據開放及其流通等有著十分重要的影響。在實現數據自治開放的過程中,面臨的隱私保護挑戰主要來自以下幾個方面。
(1)隱私保護的自主可控性
隱私保護的自主可控性即數據開放者能夠根據數據自身的特性或者數據在開放過程中的使用需求,自主地決定并控制哪些數據在數據開放的過程中需要進行隱私保護,并且對這些數據的隱私保護需要達到何種程度。如果不能保障隱私保護的自主可控性,也就無法在數據開放過程中實現對數據的有效監管,從而無法滿足數據自治開放的基本要求。
(2)如何平衡數據的可用性與隱私保護之間的關系
數據的可用性反映了在數據自治開放的過程中,數據自身的實際意義得到表達的程度。數據的可用性與具體的應用場景有緊密的關聯,其在表現形式上既可以是數據在統計意義上的數據分布信息,也可以是特定數據記錄的準確屬性值。在數據開放的過程中,如果片面強調數據的可用性,那么隱私泄露的風險必然會增大;如果過分強調隱私保護,那么數據的可用性則會受到影響。
(3)如何兼顧對個體隱私和數據自身稀缺性的有效保護
對個體隱私的有效保護即保護數據所描述的個體對象的隱私不被泄露。這表現為數據使用者不能在未經數據開放者同意的前提下,通過對數據的訪問獲取特定個體對象的隱私信息。需要注意的是,數據使用者有時雖不能通過單次訪問獲取個體的隱私信息,但是通過對數據的多次訪問,然后利用訪問結果之間的相關性可能獲取個體的隱私信息。對數據自身的稀缺性進行有效保護是指保護數據開放者提供的原始數據的整體隱私不被非法攫取。這在數據開放的過程中,通常表現為需要防范數據使用者通過“數據拼圖”造成對數據整體隱私的侵犯。
數據拼圖是指數據使用者能夠通過整合數據訪問過程中多次獲取的數據片段,利用數據片段之間的關聯性,非法拼接還原出整個數據的全貌或者其中大量的涉及隱私的敏感數據。數據拼圖可以由單個使用者通過拼接在多次數據訪問中獲取的數據片段來完成,也可能由多個使用者共同合作,通過共謀來實現對數據片段的拼接。在數據自治開放模式下,一個或多個惡意的攻擊者可以通過數據拼圖這種攻擊手段,未經數據開放者授權就獲取被保護的數據對象,從而構成對數據整體隱私的侵犯。
數據拼圖會給數據開放帶來實質危害,因為攻擊者可以借助這種手段實現對原始數據的攫取,這樣就意味著數據資源的稀缺性喪失,從而喪失其原有的價值,導致數據擁有者不愿意將數據開放給別人使用。此外,數據拼圖的攻擊使得數據整體的所有權屬也難以得到保護。因為數據使用者可以將通過數據拼圖獲得的數據再次傳播給其他未被授權的數據使用者,造成對原數據權屬的二次侵犯。
針對上述數據自治開放模式下的隱私保護挑戰,在隱私泄露風險評估的基礎上,本文提出了一種面向數據盒的隱私保護系統框架來應對這些挑戰。
4 ?面向數據盒的隱私保護系統框架
數據盒作為實現數據自治開放的載體,將數據封裝在盒內,其本質是在獲得數據開放者許可的前提下,將數據使用權開放給使用者,而不是直接將數據移交給使用者。由于數據盒內封裝的數據可能涉及隱私信息,因此在數據使用者使用數據盒內的數據之前,評估其相應的數據使用請求,判斷是否會導致隱私泄露,對于數據自治開放中的隱私保護至關重要。本節在隱私泄露風險評估的基礎上,給出了一個具有層次化結構的面向數據盒的隱私保護系統框架。該系統框架如圖1所示。
圖1 面向數據盒的隱私保護系統框架
在系統框架中,最下層的數據層存儲數據開放者提供的原始數據、隱私保護規則以及當前所有數據訪問的歷史信息記錄集合,為評估隱私泄露的風險提供數據基礎。隱私保護規則包括個體隱私保護規則和數據拼圖防范規則,可以由數據開放者預定義,以便依據風險評估的結果確定是否違背數據開放者的隱私保護需求。
數據使用者可以采用系統預定義的數據使用聲明規范描述語言或接口,表達自己對數據開放者提供數據的使用請求,并將其提交給系統框架的接口層。接口層包括使用聲明分析模塊和使用控制模塊,其中使用聲明分析模塊首先分析數據使用者的數據使用聲明,在此基礎上抽取數據使用者可能的數據使用行為、數據使用范圍以及數據使用的預期結果,并傳遞給風險評估層做相應的風險評估。在獲取風險評估層的反饋結果后,如果當前數據使用請求帶來的風險超出了數據開放者所能承受的限度,使用控制模塊將拒絕數據使用者的使用請求。
系統框架中的風險評估層將根據接口層傳遞下來的數據使用者可能的數據使用行為及數據使用范圍,對數據使用者的數據使用請求進行風險評估。在進行風險評估時,將針對當前數據使用請求涉及的數據使用行為及數據使用范圍,結合數據層中存儲的數據訪問歷史信息,對當前數據使用請求可能導致的個體隱私泄露風險和數據拼圖風險分別進行評估,給出相應的個體隱私泄露風險系數或等級以及數據拼圖的風險系數或等級。同時,可以根據數據開放者預設的個體隱私保護規則和數據拼圖防范規則,自動檢查相應的風險系數或等級是否超出數據開放者的承受范圍,也可以將風險評估的結果直接展現給數據開放者,由數據開放者自行決定是否授權許可當前的數據使用請求,并可進一步通過接口層的使用控制將授權許可反饋給數據使用者。
在風險評估的過程中,具體的隱私信息認定、隱私泄露的風險系數或等級的設定等可以根據應用場景由數據開放者自主確定。表1記錄了某公司的員工收入情況,每條數據記錄均與某個特定員工相對應。假設表1中的收入屬性值為涉及隱私的敏感數據,其中單條數據記錄中的收入屬性值為個體隱私,數據集內所有記錄的收入屬性值集合構成了整體隱私。個體隱私泄露的風險系數設定為數據使用者依據數據盒反饋的數據訪問結果,可推測出單條數據記錄中的收入屬性值的可能性。數據拼圖風險系數設定為數據使用者根據數據盒反饋的數據訪問結果,能獲知的收入屬性值在數據集內所有記錄的收入屬性值集合中所占比例。
表1? 示例數據
考慮數據使用者曾提出數據使用請求Q1:“統計年齡21~25歲之間的員工數”。該請求獲得了授權,數據使用者已獲知相應的結果(即數據使用者已獲知年齡為21~25歲的員工只有1人);同時Q1作為數據訪問歷史信息被記錄下來。現在數據使用者進一步提出新的數據使用請求Q2:“計算年齡為21~25歲的員工平均年齡及平均收入”。如果Q2獲得授權,那么數據使用者將可以推測出“年齡22歲的員工收入為3 800元”。因此,依據前述風險系數的設定,對Q2進行評估將會得出其所對應的個體隱私泄露風險系數為100%,數據拼圖風險系數為10 %。按照風險評估的結果,如果數據開放者認為風險系數過高,則可以拒絕對Q2進行授權。
面向數據盒的隱私保護系統框架可以較好地適用于數據自治開放的應用場景,即在數據開放者自主可控的情況下,將數據甚至部分隱私數據作為開放的資源。在基于隱私泄露風險評估的系統框架中,數據開放者可以依據系統提供的風險評估結果給出授權與否的直接反饋,或者通過設定合適的個體隱私保護規則和數據拼圖防范規則,決定是否許可當前的數據使用請求,可以在數據使用過程中兼顧個體隱私保護與整體隱私保護,體現了對隱私保護的自主可控。同時在實際使用中,數據開放者針對不同的數據使用者,可以依據隱私泄露風險的評估結果,給予不同的授權反饋,從而也可以實現對數據可用性與隱私保護之間的動態平衡。此外,該系統框架允許數據使用者在數據開放者能夠接受的隱私泄露風險范圍內,直接使用部分原始數據,因此與傳統的通過引入噪聲數據來實現隱私保護的方式相比,該方式在一定程度上可以提高數據可用性。
該系統框架還存在著一些技術細節及局限性需要進一步研究。一是數據使用者在數據使用前提出的數據使用請求與其在數據使用時的真實行為之間的一致性問題,即所謂的言行一致問題。數據使用者可以先提出低風險的數據使用請求,通過風險評估獲得使用授權,但在實際使用數據的過程中卻不遵照事先的數據使用請求而非法獲取隱私信息。因此,還需要在數據的實際使用過程中對數據使用者的數據訪問行為進行必要的管控,以確保與其事先的數據使用聲明一致。二是由于數據使用者可能會通過多次精心設計的不同數據訪問,再利用數據之間內在的相關性,逐步推導出數據集的全貌或者其中的個體隱私信息,因此需要維護大量的數據訪問歷史信息,防止可能的隱私泄露。但是,這樣做的后果是,隨著數據訪問歷史信息的逐漸增加,風險評估系統的效率會逐步降低。因此,有必要研究通過索引技術等提高系統的實現效率。三是在某些場景下,數據可能會發生更新的情況或者以數據流的形式出現,鑒于數據的變化可能會產生隱私泄露以及可能會影響到先前的風險評估結果,因此,需要進一步研究由于數據更新或數據流的方式帶來的隱私泄露以及相應的風險評估問題。
5 ?結束語
數據自治開放可以為數據的開放共享提供便利,但是在實際過程中可能產生個體隱私信息泄露以及數據的整體隱私受到危害(即數據自身可能被非法攫取)等問題。這些問題已經嚴重阻礙了數據擁有者開放其自身數據。本文分析了數據自治開放模式下的隱私保護挑戰,并基于隱私泄露風險評估,針對這些挑戰提出了面向數據盒的隱私保護系統框架。通過將風險評估與使用控制結合,允許在數據開放者可接受的隱私泄露風險范圍內使用數據,給數據自治開放提供有力保障,推動數據資源的開放利用。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
王智慧(1975-),男,博士,復旦大學計算機科學技術學院講師,主要研究方向為數據管理、數據挖掘、數據安全與隱私保護。
?
周旭晨(1993-),男,復旦大學計算機科學技術學院碩士生,主要研究方向為隱私保護、差分隱私。
?
朱云(1986-),女,復旦大學計算機科學技術學院碩士生,主要研究方向為數據管理、隱私保護。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的数据自治开放模式下的隐私保护的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工业大数据的应用与实践
- 下一篇: STM32 的 BOOT 概述