机器学习笔记 invariance data augmentation
1?Invariance vs. Sensitivity
無論是對于圖像、文本還是視頻,我們都希望找到好的向量表示
好的向量表示需要對我們任務所關心的特征敏感:
- 動物識別問題中,動物的品種就是一個值得關心的特征
- 語音識別中,音素(區分詞的最小單位)就是一個值得關心的特征
好的特征也需要對任務所不關心的特征保持不變性:
- 動物識別問題中,動物的位置、背景顏色、動物的動作等,應該不關心,需要保持不變性
- 語音識別問題中,口音方言應該不關心,需要保持不變性
2?Inductive Bia 歸納偏差
Induction ≈ learning from data
歸納偏差是指模型和學習算法傾向于學習某些類型的函數。
比如CNN傾向于平移不變性、SGD傾向于flat minimum
機器學習筆記:CNN卷積神經網絡_UQI-LIUWJ的博客-CSDN博客_cnn卷積神經網絡
?3 數據增強 data augmentation
使得input處于同一分布,同時保證label不變
3.1 數據增強的好處
- 幫助網絡學習更魯棒和不變的特征
- 它創造了更多的數據。更多的數據是好的,如果它們和我們期望在未來看到的數據分布一致。
4 數據增強舉例
4.1 水平翻轉
?
4.1.1 為什么鮮有垂直翻折??
我們先看一般性的情況,垂直翻折只是其中的特例
一開始,數據很少,因此我們可能會有很多可能的分界線
如果我們使用數據增強,獲得了很多同分布或者相似分布的數據,那么我們可以減少我們分界線的選擇?
?但是如果我們數據增強獲得的數據和原來已有的訓練數據分布不同,那么我們可能會得到不正確的分界線
?而我們的圖片一般都是正著拍的,所以如果我們垂直翻轉圖片,會影響整體圖片的分布,可能會導致不正確的分界線。
4.2? Cropping?裁剪
通過隨機裁剪和調整比例,可以幫助網絡識別大小略有不同的目標。
平移和遮擋的不變性
4.3 旋轉 rotation
旋轉和朝向的不變性
4.4?顏色抖動
?模擬光照變化和白平衡問題
4.5? ?cutout
隨機去除一部分的像素(一般是一個長方形形狀的像素)
為了更好地保持整體圖像的平均值,我們可以將去除的像素點設置為各channel上的均值
cutout的作用是來模擬遮擋,同時可以讓模型只關注于某一部分之外其它部分的特征
比如這張圖,我們就可以說,模型考慮的是狗的眼睛之外的其他特征
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的机器学习笔记 invariance data augmentation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据集整理(ing)
- 下一篇: ntu课程笔记7454 期中复习