AdaCliP: Adaptive Clipping for Private SGD
motivation:相比DPSGD,同樣的隱私保證下能夠添加更小的噪聲。
methods:非凸函數下,通過梯度轉換,限制方差,最終得到小噪聲。
重要知識點:提供隱私保護近似的一種常見技術是限制函數的靈敏度,并添加與靈敏度界成比例的高斯噪聲。為此,我們需要在每一輪SGD中限制梯度的靈敏度。這可以通過幾種方式實現。
如果損失函數是可微的(如果不可微則使用子梯度),并且有Lipschitz界,[16]用Lipschitz界對梯度范數設界,并利用它推導梯度的靈敏度。如果損失函數的導數作為輸入的函數有界(例如,在邏輯回歸的情況下,可以用可能的最大輸入范數來限制梯度范數),從而得出梯度的靈敏度。在深度學習應用中,如果損失函數沒有已知的Lipschitz界,則很難推導出梯度模的先驗界。在訓練的每次迭代中,[39]提出使用公共數據來獲得梯度范數的近似界,并在這個近似界上剪切梯度。然而,公共數據的可用性是一個強有力的假設,[13,14]剪輯了沒有公共數據可用性的梯度。我們還假設不能訪問公共數據。
gt是梯度下降向量,輔助向量at,bt
轉換向量wt=(gt-at)/bt;裁剪之后wt-hat;加噪聲之后變成wt~,最后還原成
?通過引理2可以得出,新梯度的方差bias很重要,通過triangle inequality and Jensen’s inequality,得出:
找最優at bt可以去bound?,然后把上述公式簡化為:
?上式中的第一項對應于變換后的梯度wt可能被裁剪的情況。第二項對應于注入到剪切梯度的高斯噪聲。通過公式直接找at bt有點難,所以限制裁剪:
去最小化添加的高斯噪聲。
?
因此最后總的噪聲范數的期望就是:
?原來的梯度漂白:
現在通過?
可以看出傳統的加噪聲方式添加了更多的噪聲。
?
?
每一個B之后,調整均值和方差,因為在迭代中沒有直接的隨機梯度,所以采用指數平均方法對之前的梯度和現在的梯度進行調整。?
實驗結果較好:?
?
?
總結
以上是生活随笔為你收集整理的AdaCliP: Adaptive Clipping for Private SGD的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图书销售管理系统的设计与实现
- 下一篇: 基于单片机的秒表计时器系统设计(#040