数据脱敏的 6 种方案
一、什么是數據脫敏
英文全稱:Data Masking 。
先來看看什么是數據脫敏?數據脫敏也叫數據的去隱私化,在我們給定脫敏規則和策略的情況下,對敏感數據比如 手機號、銀行卡號 等信息,進行轉換或者修改的一種技術手段,防止敏感數據直接在不可靠的環境下使用。
像政府、醫療行業、金融機構、移動運營商是比較早開始應用數據脫敏的,因為他們所掌握的都是用戶最核心的私密數據,如果泄露后果是不可估量的。
數據脫敏的應用在生活中是比較常見的,比如我們在淘寶買東西訂單詳情中,商家賬戶信息會被用 * 遮擋,保障了商戶隱私不泄露,這就是一種數據脫敏方式。
(淘寶詳情)
二、數據脫敏的分類
數據脫敏又分為靜態數據脫敏(SDM)和 動態數據脫敏(DDM):
1、靜態數據脫敏
適用于將數據抽取出生產環境脫敏后分發至測試、開發、培訓、數據分析等場景。
有時我們可能需要將生產環境的數據 copy 到測試、開發庫中,以此來排查問題或進行數據分析,但出于安全考慮又不能將敏感數據存儲于非生產環境,此時就要把敏感數據從生產環境脫敏完畢之后再在非生產環境使用。
這樣脫敏后的數據與生產環境隔離,滿足業務需要的同時又保障了生產數據的安全。
(數據脫敏過程)
如上圖所示,將用戶的真實 姓名、手機號、身份證、銀行卡號 通過 替換、無效化、亂序、對稱加密 等方案進行脫敏改造。
2、動態數據脫敏
一般用在生產環境,訪問敏感數據時實時進行脫敏,因為有時在不同情況下對于同一敏感數據的讀取,需要做不同級別的脫敏處理,例如:不同角色、不同權限所執行的脫敏方案會不同。
注意:在抹去數據中的敏感內容同時,也需要保持原有的數據特征、業務規則和數據關聯性,保證我們在開發、測試以及數據分析類業務不會受到脫敏的影響,使脫敏前后的數據一致性和有效性。總之一句話:你愛怎么脫就怎么脫,別影響我使用就行。
三、數據脫敏方案
數據脫敏系統可以按照不同業務場景自行定義和編寫脫敏規則,可以針對庫表的某個敏感字段,進行數據的不落地脫敏。
?(脫敏系統)
數據脫敏的方式有很多種,接下來以下圖數據為準一個一個的演示每種方案。
?(原始數據)
1、無效化
無效化方案在處理待脫敏的數據時,通過對字段數據值進行?截斷、加密、隱藏?等方式讓敏感數據脫敏,使其不再具有利用價值。一般采用特殊字符(*等)代替真值,這種隱藏敏感數據的方法簡單,但缺點是用戶無法得知原數據的格式,如果想要獲取完整信息,要讓用戶授權查詢。
(截斷方式)?
比如我們將身份證號用 * 替換真實數字就變成了 "220724 ****** 3523",非常簡單。
(隱藏方式)?
2、隨機值
隨機值替換,字母變為隨機字母,數字變為隨機數字,文字隨機替換文字的方式來改變敏感數據。這種方案的優點在于可以在一定程度上保留原有數據的格式,往往這種方法用戶不易察覺的。
我們看到 name 和 idnumber 字段進行了隨機化脫敏,而名字姓、氏隨機化稍有特殊,需要有對應姓氏字典數據支持。
?(隨機值)
3、數據替換
數據替換與前邊的無效化方式比較相似,不同的是這里不以特殊字符進行遮擋,而是用一個設定的虛擬值替換真值。比如說我們將手機號統一設置成 “13651300000”。
(數據替換)?
4、對稱加密
對稱加密是一種特殊的可逆脫敏方法,通過加密密鑰和算法對敏感數據進行加密,密文格式與原始數據在邏輯規則上一致,通過密鑰解密可以恢復原始數據,要注意的就是密鑰的安全性。
(對稱加密)?
5、平均值
平均值方案經常用在統計場景,針對數值型數據,我們先計算它們的均值,然后使脫敏后的值在均值附近隨機分布,從而保持數據的總和不變。
(原始數據)?
對價格字段?price?做平均值處理后,字段總金額不變,但脫敏后的字段值都在均值 60 附近。
(平均值)?
6、偏移和取整
這種方式通過隨機移位改變數字數據,偏移取整在保持了數據的安全性的同時保證了范圍的大致真實性,比之前幾種方案更接近真實數據,在大數據分析場景中意義比較大。
比如下邊的日期字段 create_time 中 2020-12-08 15:12:25 變為 2018-01-02 15:00:00。
(取整)?
四、總結
無論是靜態脫敏還是動態脫敏,其最終都是為了防止組織內部對隱私數據的濫用,防止隱私數據在未經脫敏的情況下從組織流出。所以作為一個程序員不泄露數據是最起碼的操守。
?
轉載:數據脫敏的6種方案_胖大海-CSDN博客_數據脫敏
(SAW:Game Over!)
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的数据脱敏的 6 种方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: strace 命令详解
- 下一篇: 什么是 DDos 攻击