对抗训练硬核分析:对抗样本与模型参数的关系
?PaperWeekly 原創(chuàng) ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
引言
對抗訓練是防御對抗樣本一種有效的方法,但是對于它有效性的邊界,一直都是很模糊的。該論文是一篇很硬核關于對抗訓練的理論性文章,作者從對抗樣本跟模型參數的角度出發(fā)去分析對抗訓練。
該論文是一篇不可多得的好文章,為了能夠清晰的闡述論文中的貢獻,我將文章中沒有展開的證明進行了補充,并對文章中的一些推導中一些小錯誤進行了更正,最重要的是可以溫習一下大學中數學分析和高等代數中涉及到的數學知識點,例如 Lipschitz 連續(xù)性,Lipschitz 光滑性,拉格朗日函數,KKT 條件,矩陣的譜范數的求法,以及線性規(guī)劃等知識點都在該論文中有所體現。
論文標題:
Smoothness Analysis of Loss Functions of Adversarial Training
論文鏈接:
https://arxiv.org/abs/2103.01400
預備知識
樣本數據點 的對抗樣本可以歸結為如下公式:
其中 是樣本 的標簽, 表示的是 范數, 表示的是神經網絡的參數向量, 是表示的是對抗擾動大小, 是損失函數(交叉熵)。為了獲得一個魯棒的模型,對抗訓練試圖解決以下的極大極小值問題:
Inner Loop?是為了生成對抗樣本,而?Outer Loop?是用對抗樣本對模型進行對抗訓練。如下圖所示為了能夠更好的理解此公式,我畫了一張示意圖助于理解。
為了獲得對抗樣本,通常使用投影梯度下降(PGD)。比如, 約束的 PGD 迭代地更新生成對抗樣本:
其中 表示步長, 是對可行域的投影操作,并且它將 的范圍裁剪到 。在該論文中作者主要討論對抗損失的 Lipschitz 光滑,換句話說是對抗損失梯度的 Lipschitz 連續(xù)性。為了能夠更好的進行闡述,需要介紹以下幾個定義。
定義1:如果有一個常數 滿足:
則稱 為 的 。定義2:如果有一個常數 滿足:
則稱 為 的 。要知道目標函數的這種光滑性是基于梯度的優(yōu)化收斂的一個重要性質,如果 和 處處可微,則有以下不等式:
其中 是 的 Hessian 矩陣的算子范數。如果選擇合適的學習速率(步長),基于梯度方法在以下條件下會收斂到損失函數 的平穩(wěn)點:
其中 為初始參數,并且假定集合 有界。
假設1:對于損失函數 ,有以下不等式:
其中,,,。該假設說明了 是 - Lipschitz。另外, 對于 是 - smooth,對于 是 -smooth。在引理下,可以證明了以下關于對抗訓練的命題:
命題1:如果假設 1 成立的話,則有:
從這個命題可以得出的結論為:如果損失函數的梯度不是處處 Lipschitz 連續(xù)的,基于梯度的方法是無效的。在該論文中作者通過一個簡單的二元線性分類案例,詳細研究了對抗損失的光滑性。
對抗訓練光滑性分析
命題 1 的證明如下所示:設 和 分別為模型參數 和 的對抗樣本,則有:
由于 并且 ,則根據(16)公式則有:
(此處論文公式(17)的推導 有錯誤)。
對抗樣本對參數的依賴性可將 看作 的函數 ,即 。如果公式(17)的第二項 有類似于 ( 是常數,并且 )的上界,那么對抗損失的梯度就是 - Lipschitz,那么它也是 - smooth。
作者主要分析的是對抗樣本對神經網絡參數的依賴性。但是需要注意的一個問題就是,深層神經網絡的對抗樣本 不能得出一個完美的數學形式的顯示解,所以很難研究 和 之間的關系,作者通過使用簡單的二分類問題來解決這個問題:
二分類問題:假定有一個數據集 ,其中 是數據點, 是一個二分類標簽, 是模型參數向量。令 為二分類模型, 是對抗擾動且有 。通過最小化對抗損失,則對抗訓練 有:
作者先對以上的二元線性分類問題入手,研究 和 之間的關系,從而得出數學形式的上的最優(yōu)對抗樣本 ,以下分別是對對抗訓練用 范數和 范數的理論分析。
3.1 二分類模型用范數對抗訓練
引理1:當用 范數測量對抗擾動大小 的時候,假定模型參數 存在 且有 。 和 分別是樣本數據點 關于 和 的對抗樣本。則有以下不等式:
此時對抗樣本在參數 不包含原點 的閉集中是 Lipschitz。
證明:求解以下優(yōu)化問題獲得樣本數據點 的對抗樣本:
需要補充的是論文中公式(33)的 是線性二分類器的損失函數,根據公式 ,樣本 屬于類別 的損失要小于樣本 不屬于類別 ,這符合我們對損失函數定義的理解。
該證明主要考慮的是 的這種情況,對于 的這種情況可以根據相同的方法推理得到。則拉格朗日乘函數為:
根據 KTT 條件可以得到如下形式:
論文中求解(22)的過程沒有具體展開,需要注意的是論文中求解的是 ,所以在求解過程中需要將目標函數改成 ,則此時的拉格朗日函數為:
則此時的 KKT 條件為:
重新整理之后就得到了論文中的 KKT 條件的形式。
根據公式(23)可得到公式:
因為 和 是標量并且 ,所以可知 和 方向相反則有 且 。根據公式(25)則有 ,進而對抗樣本可以寫成 。
現在需要計算 的 Lipschitz 連續(xù)性。對抗樣本 的雅可比矩陣為:
該論文在公式(27)中直接給出了 的雅可比矩陣。補充的證明如下所示:
補充證明的結果與(27)的結果一致。根據公式(27)可知,如果 ,可知 ,則矩陣 的最大譜范數為 。又因為 ,所以可得到上確界 ,則有如下公式:
引理 1 說明帶有 約束的對抗樣本在模型參數 不含有原點的情況下是 Lipschitz 連續(xù)的。根據引理 1 可以推導出如下的定理。
定理1:當用 范數測量對抗擾動大小 的時候,假定模型參數 存在 且有 ,如下不等式成立:
在對抗訓練的過程中,損失函數 在模型參數 屬于閉集且不包含原點時是 。
證明:根據公式(16)可知:
根據引理1可知:
則有:
根據公式(30)可知:
定理 1 證明了在模型參數 時,具有 范數的二元線性分類模型的對抗損失是一個光滑的函數,因此當 ,基于梯度的方法在對抗訓練中是有效的。但當對抗擾動的強度過大 ,則模型參數 的最優(yōu)解為 ,則此時對抗訓練并不能抵御對抗樣本。
3.2 二分類模型用 范數對抗訓練
引理2:當對抗擾動的大小由 范數測量且 時,模型參數 與模型參數 中的元素至少有一個元素的符號不一致(),則對抗樣本不是 Lipschitz 連續(xù)的。如果模型參數 與模型參數 中的元素的符號都一致,則有以下等式:
此時,對抗樣本在模型參數 屬于閉集且不包含 ,元素符號一致時是 Lipschitz 連續(xù)的。
證明:求解以下優(yōu)化問題獲得樣本數據點 的對抗樣本:
該證明主要考慮的是 的這種情況,對于 的這種情況可以根據相同的方法推理得到。因為 是關于 的單調遞減函數,則可以根據 最小化 ,進而可知 ,則最優(yōu)的對抗樣本為 。
當 或者 時, 是常數,則 的導數在 處為 0。但當 時, 是不連續(xù)的,因此對 則有:
根據引理 1 和引理 2 可知,具有 范數約束的對抗樣本是 Lipschitz 連續(xù)的集合小于具有 范數約束的對抗樣本 Lipschitz 連續(xù)的集合。根據引理 2 可得如下定理:
定理2:當對抗擾動的大小由 范數測量且 時,模型參數 與模型參數 相對應元素符號一致時(),以下不等式成立:
此時,當模型參數 屬于閉集且不包含 ,元素符號不改變時,損失函數在對抗訓練中是 smooth。證明:根據公式(16)可知:
用因為從引理 2 中可知 ,則由如下不等式成立:
實驗印證
下圖是引理 1 和引理 2 的直觀展示,可以發(fā)現最優(yōu)對抗樣本處在約束的邊緣處。在 范數的約束情況下,對抗樣本在以依賴模型參數 圓上連續(xù)移動;在 范數的約束情況下,即使 和 相差很小, 和 之間的距離也有 (在圖中就是正方形的邊長)。
下幅圖分別展示單個樣本點的損失面 ,標注訓練的損失面 ,具有 范數對抗訓練的損失面,以及帶有 的對抗訓練的損失面。從圖中可以發(fā)現具有 范數對抗訓練的損失面在模型參數 時不光滑,具有 范數對抗訓練的損失面在多處不光滑。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的对抗训练硬核分析:对抗样本与模型参数的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新界面映泰主板怎么改ide &q
- 下一篇: 优盘内文件夹删不了怎么办 无法删除优盘内