隐私计算--差分隐私
目錄
差分隱私
差分隱私的提出
差分隱私的兩種實現機制
差分隱私模型
差分隱私的特點
差分隱私應用
參考推薦:
https://blog.csdn.net/Ano_onA/article/details/100550926?-淺析、相關概念、敏感度、機制、組合
https://blog.csdn.net/qiu1440528444/article/details/88382916?
https://blog.csdn.net/sinat_38885850/article/details/84200455?
https://blog.csdn.net/securiry/article/details/103681438?
https://blog.csdn.net/weixin_41568105/article/details/85268759?
https://blog.csdn.net/shangsongwww/article/details/105121386?
https://blog.csdn.net/sinat_36183354/article/details/101272617?-整理
https://blog.csdn.net/cao812755156/article/details/99190306?
https://blog.csdn.net/MathThinker/article/details/51464273?
https://blog.csdn.net/weixin_33724570/article/details/88945975?
https://blog.csdn.net/weixin_44118034/article/details/114276058?
差分隱私
設有隨機算法,為所有可能輸出構成的集合的概率,對于任意兩個鄰近數據集與以及的任意子集,若算法滿足:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ?則稱算法提供??-差分隱私保護。
- ?越小,隱私保密度越高;
- ?越大,數據可用性越高(保密度越低);
- ?為 0時,針對與的輸出概率完全相同。?
? ? ? ?通常情況下,?值取很小,接近于1,即對于只有一條記錄差別的兩個數據集,如果查詢它們的概率非常非常的接近,那么它們滿足差分隱私保護。
差分隱私顧名思義就是防止差分攻擊了,它想做的事情就是即使你小子知道我發布的100個人的信息,以及另外99個人的信息,你也絕對沒辦法把這兩個信息比對之后獲取第100個人的信息。怎么才能做到這一點呢?
差分隱私于是定義:如果你能找出一種方法讓攻擊者用某種方式查詢100個信息和查詢那99個信息得到的結果是一致的,那攻擊者就沒辦法找出那第100個人的信息了。但這個“一致” 怎么做到呢?隨機性。如果查詢100個記錄和查詢99個記錄,輸出同樣值的概率是一樣的,攻擊者就無法進行差分攻擊。這里我們就得到了差分隱私的核心思想:對于差別只有一條記錄的兩個數據集,查詢它們獲得相同值的概率非常非常的接近。Wait,不是說一致的么?為什么變成了非常接近了? 這是因為,如果概率一樣,就表示數據集需要完全隨機化,那數據的可用性就沒有了,隱私保護也沒有意義了。所以,我們盡可能的把概率做的接近,而不是一致,以期在隱私和可用性之間找一個平衡。
1、差分攻擊
差分攻擊是通過比較分析有特定區別的明文在通過加密后的變化傳播情況來攻擊密碼算法的。差分攻擊是針對對稱分組加密算法提出的攻擊方法,看起來是最有效的攻擊DES的方法(因為差分攻擊需要很大的空間復雜度,實際上可能不如野蠻攻擊具有可操作性)。2000年以前,差分攻擊就被證明對MD5的一次循環是有效的,但對全部4次循環似乎難以奏效。
2、拉普拉斯噪聲
差分隱私的提出
隱私保護整體分成9個部分,包括隱私信息產生、隱私感知、隱私保護、隱私發布、私信息存儲, 隱私交換, 隱私分析, 隱私銷毀, 隱私接收者。主要研究方向在在隱私保護, 隱私發布/存儲/交換, 隱私分析這 3 個部分。
隱私保護的方式分成以下三種包括,數據失真,加密以及訪問控制。目前的很多隱私保護技術往往結合了其中的多種技術,例如k-匿名算法、l-匿名算法、t-匿名算法等。
但是,匿名算法有兩個重要的缺陷:
- 這些模型并不能提供足夠的安全保障,它們總是因新型攻擊的出現而需要不斷完善。
- 這些早期的隱私保護模型無法提供一種有效且嚴格的方法來證明其隱私保護水平,因此當模型參數改變時,無法對隱私保護水平進行定量分析。
因此研究人員試圖找到一種能夠足夠好的隱私保護模型,并能夠衡量隱私標準的數據保護方法。進而提出了差分隱私。首先,差分隱私保護模型假設攻擊者能夠獲得除目標記錄外所有其它記錄的信息,這些信息的總和可以理解為攻擊者所能掌握的最大背景知識。在這一最大背景知識假設下,差分隱私保護無需考慮攻擊者所擁有的任何可能的背景知識,因為這些背景知識不可能提供比最大背景知識更豐富的信息。其次,它建立在堅實的數學基礎之上,對隱私保護進行了嚴格的定義并提供了量化評估方法,使得不同參數處理下的數據集所提供的隱私保護水平具有可比較性。
?
差分隱私的兩種實現機制
其實就是在查詢結果里加入隨機性。任何一種方法,只要用在數據集上能滿足差分隱私的核心思想,那這個方法就是滿足差分隱私的。所以最常用的方法是在結果上加滿足某種分布的噪音,使查詢結果隨機化。
目前常用的有兩種方法,一個是Laplace機制,在查詢結果里加入Laplace分布的噪音,適用于數值型輸出的保護。例如:zhihu里有多少人是985大學畢業的? 假如結果是2000人,那么每一次查詢得到的結果都會稍稍有些區別,比如有很高的概率輸出2001,也有較高概率輸出2010, 較低概率輸出1990,等等。
另外一個是指數機制,在查詢結果里用指數分布來調整概率,適用于非數值型輸出的保護。例如:中國top 3大學是哪一所。很高概率輸出浙江大學,較高概率輸出上海交大,較低概率輸出武漢大學,很低概率輸出藍翔技校等等。
差分隱私模型
微軟研究院的德沃柯(Dwork) 等人于2006年提出了差分隱私模型。差分隱私具有兩個最重要的優點:
- 差分隱私嚴格定義了攻擊者的背景知識:除了某一條記錄,攻擊者知曉原數據中的所有信息——這樣的攻擊者幾乎是最強大的,而差分隱私在這種情況下依然能有效保護隱私信息;
- 差分隱私擁有嚴謹的統計學模型,極大地方便了數學工具的使用以及定量分析和證明。
正是由于差分隱私的諸多優勢,使其一出現便迅速取代了之前的隱私模型,成為隱私研究的核心,并引起理論計算機科學、數據庫與數據挖掘、機器學習等多個領域的關注。
基本思想:
上圖給出了差分隱私的一般性方法。當用戶(也可能是潛藏的攻擊者)向數據提供者提交一個查詢請求時,如果數據提供者直接發布準確的查詢結果,則可能導致隱私泄漏,因為用戶可能會通過查詢結果來反推出隱私信息。為了避免這一問題,差分隱私系統要求從數據庫中提煉出一個中間件,用特別設計的隨機算法對中間件注入適量的噪音,得到一個帶噪中間件;再由帶噪中間件推導出一個帶噪的查詢結果,并返回給用戶。這樣,即使攻擊者能夠從帶噪的結果反推得到帶噪中間件,他也不可能準確推斷出無噪中間件,更不可能對原數據庫進行推理,從而達到了保護隱私的目的。
差分隱私的特點
- 順序合成:當有一個算法序列同時作用在一個數據集上時, 最終的當有多個算法序列分別作用在一個數據集上多個不同子集上時, 最終的差分隱私預算等價于算法序列中所有算法的預算的和。
- 平行合成:如果一個差分隱私保護算法序列中所有算法處理的數據集彼此不相交,那么該算法序列構成的組合算法提供的隱私保護水平取決于算法序列中的保護水平最差者,即預算最大者。
- 變換不變性:差分隱私對于后處理算法具有免疫性, 如果一個算法的結果滿足ε-差分隱私, 那么在這個結果上進行的任何處理都不會對隱私保護有所影響。
- 中凸性:如果有2 個不同的差分隱私算法, 都提供了足夠的不確定性來保護隱私, 那么可以通過選擇任意的算法來應用到數據上實現對數據的隱私保護, 只要選擇的算法和數據是獨立的。
優點:差分隱私最強大的一點在于只要你的算法每一個步驟都滿足差分隱私的要求,那么它可以保證這個算法的最終輸出結果滿足差分隱私,換句話說,即使攻擊者具有足夠多的背景知識,也無法在最終的輸出中找出單個人的某項屬性。
弱點:由于對于背景知識的假設過于強,需要在查詢結果中加入大量的隨機化,導致數據的可用性急劇下降。特別對于那些復雜的查詢,有時候隨機化結果幾乎掩蓋了真實結果。這也是導致目前應用不多的一個原因。
差分隱私應用
任何需要保護隱私的算法里都可以使用差分隱私。差分隱私作為一個非常漂亮的數學工具,為隱私研究指明了一個發展的方向。在早期,人們很難證明我的方法保護了隱私,更無法證明究竟保護了多少隱私?,F在差分隱私用嚴格的數學證明告訴人們,只要你按照我的做,我就保證你的隱私不會泄露。
目前在學術上,差分隱私可以被應用在推薦系統,社交網絡,基于位置的服務(網絡蹤跡分析、運輸信息保護)、搜索日志保護等領域,當然,也包括了蘋果的輸入系統。
注:僅作資料整理!
如有錯誤、侵權,請聯系筆者更改刪除!!!
總結
以上是生活随笔為你收集整理的隐私计算--差分隐私的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 隐私计算--联邦学习
- 下一篇: HASH函数