什么是数据增强(Data Augmentation)
數據增強讓有限的數據產生更多的數據,增加訓練樣本的數量以及多樣性(噪聲數據),提升模型魯棒性,一般用于訓練集。神經網絡需要大量的參數,許許多多的神經網路的參數都是數以百萬計,而使得這些參數可以正確工作則需要大量的數據進行訓練,但在很多實際的項目中,我們難以找到充足的數據來完成任務。隨機改變訓練樣本可以降低模型對某些屬性的依賴,從而提高模型的泛化能力。
數據增強方法:
例如,我們可以對圖像進行不同方式的裁剪,讓物體以不同的實例出現在圖像的不同位置,這同樣能夠降低模型對目標位置的敏感性。此外,調整亮度、對比度、飽和度和色調 等因素來降低模型對色彩的敏感度。再有,隨機裁剪、隨機反轉、隨機對比度增強、顏色變化等等。一般來講隨機反轉和一個小比例的random resize,再接隨機裁剪比較常用。NLP中將字和詞連接起來就形成了一個新樣本,也屬于數據增強。
數據增強的分類:
數據增強可以分為兩類,一類是離線增強,一類是在線增強。
· 離線增強 : 直接對數據集進行處理,數據的數目會變成增強因子乘以原數據集的數目,這種方法常常用于數據集很小的時候。
· 在線增強 : 這種增強的方法用于,獲得批量(batch)數據之后,然后對這個批量(batch)的數據進行增強,如旋轉、平移、翻折等相應的變化,由于有些數據集不能接受線性級別的增長,這種方法長用于大的數據集,很多機器學習框架已經支持了這種數據增強方式,并且可以使用 GPU 優化計算。
總結
以上是生活随笔為你收集整理的什么是数据增强(Data Augmentation)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是动态代理呢?
- 下一篇: Google地图 Google Plac