特征缩放 feature scaling
樣本不同特征的取值范圍如果不一樣,可能導致迭代很慢,為了減少特征取值的影響,可以對特征數據進行縮放,加速算法的收斂。常見的映射范圍有 [0,1][0, 1][0,1] 和 [?1,1][-1, 1][?1,1]。
常見的特征縮放方法有以下 4 種:
-
Scaling to unit length
xnew=x∣∣x∣∣x_{new}=\frac{x}{||x||}xnew?=∣∣x∣∣x?
-
Rescaling (min-max normalization)
xnew=x?min(x)max(x)?min(x)x_{new} = \frac{x-min(x)}{max(x)- min(x)}xnew?=max(x)?min(x)x?min(x)?
-
Mean normalization
xnew=x?average(x)max(x)?min(x)x_{new} = \frac{x-average(x)}{max(x)- min(x)}xnew?=max(x)?min(x)x?average(x)?
-
Standardization
特征標準化,使每個特征的值有 零均值 (zero-mean) 和 單位方差 (unit-variance)。這個方法在機器學習算法中被廣泛地使用,例如:SVM,邏輯回歸和神經網絡。公式如下:
xnew=x?μσx_{new}=\frac{x-\mu }{\sigma }xnew?=σx?μ?
其中 μ\muμ 是樣本數據的均值(average), σ\sigmaσ 是樣本數據的標準差(std)。
標準差 stdstdstd 的定義為:
std(x)=∑(x?average(x))2Nstd(x) = \sqrt{\frac{\sum(x-average(x))^2}{N}}std(x)=N∑(x?average(x))2??
其中,NNN 為樣本總數。
原圖 -> 減去均值 -> 除以標準差:
標準化 和 歸一化 這兩個中文詞,主要指代以上四種 特征縮放 (Feature scaling) 方法。
總結
以上是生活随笔為你收集整理的特征缩放 feature scaling的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习速率 learning rate
- 下一篇: 线性回归 linear regressi