第二周周报(9.13-9.19)
目錄
- 一 .本周任務
- 二.已完成的任務
- 1.橫向課題
- 2.上線代碼與論文
- 2.1 代碼
- 2.2 論文
- 2.3 修改論文
- 2.4 論文與代碼理解
- 3.跟蹤張鈸團隊成果
- 4.大概了解人工智能安全方向
- 4.1 Attack
- 4.1.1 Attack approach
- 4.1.2 黑箱攻擊
- 4.2 Defense
- 4.2.1 passive defense
- 4.2.2 proactive defense
- 三.未完成的任務
- 四.下周計劃
一 .本周任務
- 從三個橫向課題中選擇一個,橫向課題可以變化,但縱向課題最好一直不變
- 運行上線的代碼,結合論文與代碼,了解上線的研究內容與思路,幫助上線修改其論文
- 根據張鈸教授的論文,了解跟蹤他的成果,并寫一個簡單的綜述,綜述的排版方式可根據國內外的人工智能安全團隊來排版
- 講述你所讀的大佬的文獻,并給出自己有哪些修改論文的想法
二.已完成的任務
1.橫向課題
選擇網安方面的那個課題
2.上線代碼與論文
2.1 代碼
代碼能正常運行,但是運行4、5個小時以后,出現了一些錯誤,初步推斷是運行結果的保存路徑有一些錯誤.
2.2 論文
論文的思路大概是:在聯邦學習中,在客戶端訓練帶有被攻擊的圖片,使得客戶端模型中毒,當服務器端模型集合客戶端模型時,使得服務端模型也中毒,再分散到各個客戶端,使得各個客戶端模型都中毒.
2.3 修改論文
只找到師兄文本中的table Ⅰ與表上的table 1符號不一致的錯誤
2.4 論文與代碼理解
論文只了解了大概的思路,對于具體的代碼實現和理論方面還需要進一步思考,對于tensorflow框架還需要學習才能看懂大部分代碼.
3.跟蹤張鈸團隊成果
找到一些團隊的相關成果,但未來得及閱讀
- understanding adversarial attacks on observations in deep reinforcement learning
- Boosting Adversarial Attacks with Momentum
- Triple Generative Adversarial Networks
4.大概了解人工智能安全方向
(以下是根據李宏毅機器學習的視頻所做的筆記)
4.1 Attack
原理:在原有的圖片xxx上加上特殊的噪音x′=x+Δxx^{\prime}=x+\Delta xx′=x+Δx,使得判別器識別出其他東西.
- 未加入噪音的圖片:benign image;加入噪音后的圖片:attack image.
- 有目標的攻擊:希望輸出為特定其他事物;無目標攻擊:希望識別錯誤.
- 不知道模型參數的攻擊為黑箱攻擊,反之為白箱攻擊.
- d(x0,x′)d(x^0,x^{\prime})d(x0,x′)可以計算其2范數和無窮范數,可以根據不同的范例運用不同的距離.對于圖片,一般使用無窮范數,因為同樣的2-范數距離下,每個像素點都有所改變與只有一個特定的像素點改變巨大是不一樣的效果,后者更容易被發現,所以采用無窮范數限制,避免被人眼感知.
4.1.1 Attack approach
- 一般做法
- FGSM(一擊必殺,只更新一次)
- 也可以更新多次,但d(x0,x)>εd(x^0,x)>\varepsilond(x0,x)>ε時 固定xxx的取值
4.1.2 黑箱攻擊
1.原理:用一個proxy network模擬需要攻擊的network,然后訓練出攻擊資料去攻擊.也可以采用ensemble attack,即將綜合多個攻擊成功的proxy network的attacked image去攻擊black network.
2.問題:為什么在圖像識別系統中,一個attacked image能成功攻擊一個模型,那么對于其他模型攻擊成功的概率也很高?
可能答案:如圖所示,假設在xxx軸方向是能被攻擊成功的方向,大多數攻擊成功的方向相似,在一個模型上能攻擊成功大概率能在另一個模型成功.有人認為這不是模型的原因,而是數據圖片自身的原因.
3.為什么會被攻擊
在某一個特定的方向是有很大的幾率被攻擊成功的
4.其他攻擊技術:
- one pixel attack:https://arxiv.org/pdf/1710.08864.pdf
- universal adversarial attack:做一個可以讓很多圖片都被攻擊的噪音https://arxiv.org/pdf/1610.08401.pdf
- 攻擊語音合成識別系統、NLP
- adversarial reprograming:制作一個類似于病毒一樣的東西寄生在別的分類器上,讓分類器做它不想做的事https://arxiv.org/abs/1806.11146
- “backdooor” in model:在訓練階段,對訓練資料增加一些被攻擊的照片,是訓練好的模型對于某種屬于會辨識成被攻擊照片。https://arxiv.org/abs/1804.00792
4.2 Defense
4.2.1 passive defense
-
添加一個 filter:
- smoothing:模糊化操作使被攻擊的像素點不一定被發現
- 剪枝
- image compression:壓縮再解壓縮使得被攻擊的像素點丟失https://arxiv.org/abs/1802.06816
- 基于generator ,用generator產生與輸入圖片非常相似的圖片,那么generator產生的圖片不具有被攻擊的像素點存在:https://arxiv.org/abs/1805.06605
-
randomization:圖片輸入以后給一個隨機的處理(一些filter操作),處理被攻擊圖片的同時防御對已經防御手段的攻擊:https://arxiv.org/abs/1711.01991
4.2.2 proactive defense
(訓練一個robust的模型)
- adversarial training:在訓練的時候,不僅訓練原始數據,將原始數據的attack 數據與相對應的正確的標簽進行訓練,再迭代的利用被攻擊的圖片接著被攻擊,這樣使得即使遇到被攻擊的圖片,同樣也能夠免疫攻擊 (缺點:只會針對自己設計的攻擊算法,無法防御新的攻擊算法)
- adversarial training for free:減少計算量 https://arxiv.org/abs/1904.12843
三.未完成的任務
- 閱讀張鈸團隊的論文及一個簡單的綜述寫作
- 師兄的成果還未理解透徹,代碼也大多無法理解
- 還未涉及閱讀大佬的文獻,然后去思考其有可能存在的問題
四.下周計劃
- 粗略學習一下tensorflow框架,爭取看懂師兄論文的實現方法細節,進一步理解師兄成果
- 閱讀并了解張鈸團隊和國內外團隊的研究成果,寫一個簡單的綜述
- 閱讀一些大佬的文獻,思考可能存在的改進方向
總結
以上是生活随笔為你收集整理的第二周周报(9.13-9.19)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据加工:Sql截取之间的字符串的方法
- 下一篇: 支付功能测试用例(参考微信平台)