论文盘点:GAN生成对抗样本的方法解析
?PaperWeekly 原創 ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
引言
對抗樣本的生成方式很多。一般情況下會分成三大類,第一種是基于梯度的生成方式如 FGSM 和 PGD,第二種是基于優化的生成方式如 CW 和 JSMA,第三種就是基于 GAN 的生成方式。本文會主要詳解近幾年來有關 GAN 生成對抗樣本的各種方法。
對抗樣本的介紹
對抗樣本攻擊模型主要從兩個角度進行考慮:分別為攻擊的目標和攻擊的背景知識。攻擊的目標可以分為四類:
減少置信度:減小輸入分類的置信度,從而引起歧義。
無目標分類:將輸出分類更改為與原始類不同的任何類。
有目標分類:強制將輸出分類為特定的目標類。
源到目的分類:強制將特定的輸入的輸出分類為特定的目標類。
攻擊的背景知識可以分為五類:
網絡結構與訓練數據:最強大的背景知識,包訓練數據以及模型的詳細參數信息。網絡結構:了解目標模型的網絡組成細節。
訓練數據:了解生成目標模型的訓練數據。
輸入到輸出映射:攻擊者可以訪問模型提供的 API 接口,輸入數據并獲得反饋,并且可以觀察到輸入和輸出的變化之間的關系。
完全黑箱:攻擊者無法獲得模型 API 的反饋,不能觀察到輸入和輸出的變化之間的關系。
將攻擊目標和攻擊的背景知識整合可以如上示意圖。GAN 生成對抗樣本的方式一般不需要獲取太多的背景知識,適用于攻擊難度較高的半白盒攻擊,半黑盒攻擊和黑盒攻擊。
AdvGAN
論文標題:Generating Adversarial Examples with Adversarial Networks
論文來源:IJCAI 2018
論文鏈接:https://arxiv.org/abs/1801.02610
代碼鏈接:https://github.com/mathcbc/advGAN_pytorch
3.1 模型介紹
AdvGAN 的核心思想是將干凈樣本通過 GAN 的生成器映射成對抗擾動,然后加在對應的干凈樣本中,判別器負責判別輸入的樣本是否為對抗樣本。
上圖為 AdvGAN 的總體架構,主要由三部分組成:生成器 G、判別器 D 和目標神經網絡 C。將干凈樣本 x 輸入到 G 中生成對抗擾動 G(x)。然后將 x+G(x) 發送給判別器 D,用于區分生成的樣本和原始干凈的樣本,判別器 D 的目的是鼓勵生成的實例與原始類中的數據不可區分。
為了實現愚弄學習模型的目標,再將生成的數據 x+G(x) 輸入到目標分類模型 C 中,其中輸出的損失為 ,表示預測與目標類別 t 目標攻擊之間的距離。優化目標損失函數,當模型達到最優時,G(x) 即為對抗擾動。
目標損失可以分解為三部分分別為:,,,表示為:
為對抗損失,即為 Goodfellow 在 2014 年提出來的原始形式。
判別器 的目的是將擾動數據 與原始數據 區分開來。其中數據 是從真實數據中取樣的,優化對抗損失的目的是鼓勵生成的數據分布接近原始類的數據的分布。
為誤判損失,目的是使得 往對抗擾動的方向去生成。
的有目標攻擊擾動圖像被誤分類為 類目標,無目標攻擊通過最大化預測值與真實值之間的距離來執行。
為 hinge 損失,hinge 損失在一些機器學習方法中用于正則化。
它是目的是用于穩定 GAN 的訓練,其中公式中的超參數 為優化間距。
3.2 實驗結果
下圖為半白盒環境下在 MNIST 和 CIFAR-10 上對抗樣本的攻擊成功率的表格,可知由 AdvGAN 生成的對抗樣本的方法要比 FGSM 和基于優化的方法要好。
下圖為在加有防御的 MNIST 和 CIFAR-10 下不同黑盒對抗生成的攻擊成功率,同樣可以顯現出 AdvGAN 的優越性。
AdvGAN++
論文標題:AdvGAN++: Harnessing latent layers for adversary generation
論文來源:ICCV 2019
論文鏈接:https://arxiv.org/abs/1908.00706
4.1 模型介紹
AdvGAN++ 的核心思想是引入分類器中的隱層向量作為 GAN 的輸入來生成對抗樣本。
上圖為 AdvGAN++ 框架,它包含目標模型 M,特征提取器 f,生成器 G 和判別器 D。首先將干凈圖像經過特征提取器 f 輸出特征向量,特征向量作為生成對抗樣本的先驗信息。然后將特征向量 f(x) 和噪聲向量 z 作為級聯向量,輸入到生成器 G 中生成對抗樣本。
判別器 D 將生成數據與真實數據區分開來,同時用生成數據欺騙分類器 M。
優化的目標函數分為三部分分別為:,,,公式如下所示:
其中:
這里 , 是控制目標權重的超參數。從目標模型 M 的一個中間卷積層中提取特征 f,通過求解最小-最大博弈問題,得到 G 和 D 的最優參數。
4.2 實驗結果
下表格展示的是在有防御的三個模型 Lenet C,Resnet-32 和 Wide-Resnet-34-10 中,AdvGAN 和 AdvGAN++ 生成對抗樣本攻擊模型成功率,可以發現不管是什么種類的防御措施,AdvGAN++ 的表現都要比 AdvGAN 要好。
Natural GAN
論文標題:Generating Natural Adversarial Examples
論文來源:ICLR 2018
論文鏈接:https://arxiv.org/abs/1710.11342
代碼鏈接:https://github.com/zhengliz/natural-adversary
5.1 模型介紹
Natural GAN 是基于 WGAN 的框架進行創新,其核心在低維流形的隱特征空間中尋找對抗樣本的隱向量,并且生成的對抗樣本的擾動更加具有針對性,人眼看起來更自然。
Natural GAN 生成對抗樣本的方法分為兩階段,如上圖所示為階段一,階段一目的是將樣本空間與隱特征空間建立對應關系。
首先用真實數據訓練好 WGAN 中的生成器 G 和判別器 D,生成器是將隱特征空間映射到樣本空間中去:,即 。然后再需要訓練一個逆轉器 I,它的目的是將樣本空間映射到隱特征空間中去:,即 。當 G,D,I 訓練完畢之后,會將隱特征空間與樣本空間建立起對應關系會有 ,。
優化的目標函數為:
表示的是樣本空間數據 x 通過逆轉器 I 映射到隱特征空間 z,然后再通過生成器 G 映射回來。 表示的是隱特征空間數據 z 通過生成器 G 映射到樣本空間,然后再通過生成器 I 映射回來。
上圖表示的是階段二,階段二為利用階段一訓練好的網絡在隱特征空間中搜索對抗樣本。對于一個特定的真實數據 x,利用 I 將其映射回隱空間,然后在隱空間上對 進行隨機擾動得到 ,最后由生成器 G 得到相應的對抗樣本。
具體地,有 iterative stochastic search 和 hybrid shrinking search 兩種方式,第一種每次迭代隨機采樣 N 個擾動并按一定的步長增大搜索范圍,直到相應的生成數據的標簽發生改變,然后在這些對抗樣本中選擇與原樣本相似度最高的一個。
第二種采用由粗到精的搜索方式,首先在較大范圍內搜索,然后逐步縮小范圍。由于這一過程是非啟發式的,因此需要進行多次迭代。
5.2 實驗結果
由下圖可知,基于 FGSM 生成的對抗擾動感覺很凌亂,毫無語義性可言,但是基于 Natural GAN 方法生成的對抗樣本則在外觀上更加自然,這也更加契合了對抗樣本的宗旨人眼不可查覺。
RobGAN
論文標題:Rob-GAN: Generator, Discriminator, and Adversarial Attacker?
論文來源:CVPR 2019?
論文鏈接:https://arxiv.org/abs/1807.10454?
代碼鏈接:https://github.com/xuanqing94/RobGAN?
6.1 模型介紹?
RobGAN 是基于 SNGAN 的框架上進行創新的,其核心思想是在訓練 GAN 的過程中引入對抗樣本,可以穩定 GAN 的訓練,而且有助于縮減對抗訓練性能上的差距。
上圖為階段一聯合訓練部分,將對抗攻擊學習和生成對抗網絡組成一個新的模型,將生成器、判別器和對抗攻擊者組合訓練,通過在 SNGAN 中引入對抗學習中的對抗樣本的元素,不僅可以加速 GAN 的訓練,提高生成圖像的質量,更重要的可以得到魯棒性更好的判別器。
上圖為階段二,階段二的目的是精細化訓練判別器 D。用假樣本和真實數據樣本繼續訓練階段一訓練好的判別器 D,使得它能夠有更好的魯棒性抵御對抗攻擊。
6.2 實驗結果
下圖表明經過階段二使用 fine-tuning 訓練之后,在 CIFAR10(左邊第一張圖)和 ImageNet-64(中間的圖)上可以發現模型的泛化能力明顯增強,并且可以一定程度上的抵御對抗攻擊。
作者對 RobGAN 進行了微調使判別器單獨執行多分類問題,以便更好的比較 RobGAN 的效果,下面是 RobGAN 在 CIFAR10 以及 ImageNet 上不同擾動情況下模型訓練的準確率。
AdvFaces
論文標題:AdvFaces: Adversarial Face Synthesis?
論文鏈接:https://arxiv.org/abs/1908.05008v1?
7.1 模型介紹
AdvFaces 繼承 AdvGAN 的框架,并引入人的身份匹配信息從而產生人臉對抗樣本。
上圖為 AdvFaces 生成人臉對抗樣本的框架。給定一個 C 羅面部圖像,AdvFaces 會自動生成一個對抗擾動 Mask,然后將其添加到原始圖片中,從而獲得對抗人臉圖像。目標函數可以分為三部分分別為:,,,表示為:
其中:
其中 和 分別是身份匹配損失 和對抗擾動損失 的超參數。 和 鼓勵生成的圖像在視覺上與原始人臉圖像相似,而 則優化以獲得較高的攻擊成功率。
7.2 實驗結果
下表為無目標攻擊中人臉圖像的攻擊成功率和結構相似性的評分。可以直觀的發現與其它方向相比,AdvFaces 可以保證與原圖像高相似度的同時實現高攻擊準確率。
下圖為各種方法生成人臉圖像的示意圖,可以發現 AdvFaces 生成的對抗樣本視覺上的變化是最小的。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的论文盘点:GAN生成对抗样本的方法解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么用u盘格式化c盘 格式化C盘使用U盘
- 下一篇: 苹果补全拼图:iOS / iPadOS