Ask, acquire, and attack: data-free UAP generation using class impressions
Ask, acquire, and attack: data-free UAP generation using class impressions
Problems
深度學習模型容易受到輸入的具體的噪音(input specific noise),定義為對抗擾動(adversarial perturbations)。
此外,這些對抗性擾動表現出跨模型的普遍性(可轉移性)。這意味著相同的對抗擾動樣本對不同結構模型都能起作用
存在著input specific noise 叫做通用對抗擾動(Universarial Adversarial Perturbations)-- 當添加時,大多數數據樣本可以欺騙目標分類器
兩種制造UAPs的方法:
Idea
對于data-free的場景,提出了一個方法 使用類印象(class impression)模擬數據樣本的效果,以便使用數據驅動的目標來構建UAP。
給定類別和模型下的class impression是屬于該類別和模型的樣本的泛型表示(在輸入空間中)。通過clas impression 用生成模型來制造UAPs。
Step 1 Ask and Acquire the Class Impressions(生成具有Class Impression的樣本)
在我們方法的第一部分中,我們通過簡單的優化獲得類印象,這些優化可以作為底層數據分布的代表性樣本。
學習的參數是訓練數據和程序的函數。它們可以被視為模型的記憶,其中訓練的本質已經被編碼和保存。我們的第一階段“詢問并獲取”的目標是挖掘模型的記憶,獲取具有代表性的訓練數據樣本。然后我們只能使用這些代表性的樣本來制作uap來欺騙目標分類
we create samples such that the target classifier strongly believes them to be actual samples that belong to categories in the underlying data distri-bution.
換句話說,這些是我們試圖從模型記憶中重建的實際訓練數據的印象。因此我們把它們命名為類印象。產生這些階級印象的動機是,為了優化愚弄的目標,擁有表現類似于自然數據樣本的樣本就足夠了。
Note that we can create impression (CIcCI_cCIc?) for any chosen class (ccc) by maximizing the predicted confidence to that class.
輸入的是隨機的噪聲圖片基于U[0,255]U[0,255]U[0,255],然后更新圖片直到有很高的置信度。
fff: target classifier (TCTCTC) under attack, which is a trained model with frozen parameters.
fkif_k^ifki?: kthk^{th}kth activation in ithi^{th}ith layer of the target classifie
fps/mf^{ps/m}fps/m:output of the pre-softmax layer
fs/mf^{s/m}fs/m:output of the softmax (probability) layer
vvv: additive universal adversarial perturbation (UAP)
xxx: clean input to the target classifier, typically either data sample or class impression
ξ\xiξ: max-norm (l1l_1l1?) constraint on the UAPs, i.e., maximum allowed strength of perturbation that can be added or subtracted at each pixel in the image
CIc=argmaxxfcps/m(x)CI_c = \mathop{argmax}\limits_{x}f_c^{ps/m}(x) CIc?=xargmax?fcps/m?(x)
Typical data augmentations:
Step2 生成UAP
在獲得每個類別的多個類印象之后,我們執行第二部分,即學習生成模型(前饋神經網絡)以有效地生成UAP。因此,與現有的解決復雜優化問題以生成UAP的工作不同,我們的方法通過學習的神經網絡進行簡單的前饋操作。
Fooling Loss
GGG takes a random vector zzz whose components are sampled from a simple distribution (e.g.$ U[?1, 1]$) and transforms it into a UAP via a series of deconvolution layers.
GGG : in order to be able to generate the UAPs that can fool the target classifier over the underlying data distribution
clean sample (x)(x)(x)
perturbed sample (x+v)(x+v)(x+v)
The objective is to make the ‘clean’ and ‘perturbed’ labels different.
由于softmax的非線性,對其他標簽預測的置信度增加,最終導致標簽翻轉,從而愚弄了目標分類器。
Lf=log?(1?fCs/m(x+v))L_f = \log(1-f_C^{s/m}(x+v)) Lf?=log(1?fCs/m?(x+v))
Diversity loss
Fooling loss 只讓GGG 學會讓UAP愚弄目標分類器。但是為了避免學習只能產生一個強UAP的退化G,我們在生成的UAP中引入了多樣性。(為了能過針對多個G)
maximizing the pairwise distance between their embeddings f(x+vi)f(x + v_i)f(x+vi?) and f(x+vj)f(x + v_j)f(x+vj?),where viv_ivi? and vjv_jvj? belong to generations within a mini-batch.(也很容易理解,不同的UAP疊加在同一個class impression輸出要盡可能不一樣)
Ld=∑i.j=1,i≠jKd(fl(x+vi),fl(x+vj))L_d = \sum_{i.j=1,i \neq j}^K d(f^l(x+v_i),f^l(x+v_j)) Ld?=i.j=1,i?=j∑K?d(fl(x+vi?),fl(x+vj?))
K 代表 mini-batch size
d 代表合適的距離度量尺度(Euclidean or cosine distance)
注意,兩個嵌入的f(x+vi)f(x+v_i)f(x+vi?)和f(x+vj)f(x+v_j)f(x+vj?)中兩個類印象的xxx是相同的。因此,通過最小化LdL_dLd?將它們分開將使UAPs的viv_ivi?和vjv_jvj?不同。
Therefore the loss we optimize for training our generative model for crafting UAPs is given by
Loss=Lf+λLdLoss = L_f +\lambda L_d Loss=Lf?+λLd?
實驗
ILSVRC 數據集
與現有的數據驅動方法([13])類似,每個類使用10個數據樣本,我們為每個類提取10個印象,從而生成10000個樣本的訓練數據
Since our objective is to generate diverse UAPs that can fool effectively, we give equal weight to both the components of the loss, i.e., we keep λ=1\lambda = 1λ=1。
- UAPs and the success rates
與無數據方法FFF相比,由我們的生成網絡建模的擾動的成功率更好
提出的方法處理數據缺失的有效性。我們將成功率與數據驅動方法UAP[13]、無數據方法FFF[17]和隨機噪聲基線進行了比較。
- Comparison with data dependent approaches.
進一步論證了:與最先進的數據驅動方法相比,本文提出的方法構建的擾動的成功率(SR)更高
Diversity
在損失中包含多樣性分量(Ld)的目的是避免學習單個UAP,并且學習能夠為給定目標CNN生成多樣性UAP集的生成模型。在添加生成的uap之后,我們檢查預測標簽的分布。這可以揭示是否有一組接收器標簽吸引了大多數預測。我們考慮了G學習愚弄VGG-F模型和50000個ILSVRC樣本驗證集。我們隨機選取由G生成的10個UAP,計算出預測標簽的平均直方圖。對直方圖進行排序后,所提出方法的大多數預測標簽(95%)分布在1000個目標標簽中的212個標簽上。而UAP的相同數字是173。觀察到的22.5%的高多樣性歸因于我們的多樣性成分(Ld)。
總結
在本文中,我們提出了一種新穎的方法來減輕缺乏制作通用對抗擾動(UAP)的數據。類印象是具有代表性的圖像,可以通過從目標模型進行簡單的優化輕松獲得。通過使用類印象,我們的方法可以極大地縮小數據驅動方法和無數據方法之間的性能差距,以構建UAP。成功率更接近于數據驅動的UAP,證明了在制作UAP的過程中班級印象的有效性。查看此觀察結果的另一種方式是,有可能以任務特定的方式從模型參數中提取有關訓練數據的有用信息。**在本文中,我們提取了類別印象作為代理數據樣本,以訓練可以為給定目標CNN分類器設計UAP的生成模型。**探索其他應用程序的可行性也是很有趣的。尤其是,我們想調查GAN的現有對抗設置是否可以受益于從鑒別器網絡中提取的任何其他信息,并生成更自然的合成數據。我們的方法中提供的生成模型是制作UAP的有效方法。與執行復雜優化的現有方法不同,我們的方法通過簡單的前饋操作構造UAP。即使在沒有數據的情況下,巨大的成功率,令人驚訝的跨模型通用性也揭示了當前深度學習模型的嚴重敏感性。
總結
以上是生活随笔為你收集整理的Ask, acquire, and attack: data-free UAP generation using class impressions的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [ 前端开发 ] label标签的使用
- 下一篇: 段学复