数据分类:特征处理
特征處理
問題1:連續(xù)特征和離散特征同時(shí)存在時(shí)如何處理?
quora上有人問到了這方面的問題:What are good ways to deal with problems where you have both discrete and continous features?主要的思路是對離散的特征進(jìn)行二值化處理,比如答案中舉的例子:
由于上面產(chǎn)品的類別有3種可能的取值,所以我們可以用3個(gè)虛擬的變量來特?fù)Q掉種類類別這個(gè)特征,這種特征處理方式跟自然語言處理的one-hot處理方式一樣,所以我們可以將上面的特征進(jìn)行處理后每個(gè)樣本可以用一個(gè)4維的向量來表示:
[35.99 1 0 0] [42.95 0 1 0] [10.50 1 0 0] [74.99 0 0 1]特征經(jīng)過上面的預(yù)處理后,便可以使用這些特征做回歸啊等機(jī)器學(xué)習(xí)任務(wù),如果使用線性回歸的話,我們需要學(xué)習(xí)5個(gè)權(quán)重(每一個(gè)特征對應(yīng)一個(gè)權(quán)重,偏執(zhí)項(xiàng)也可以視為一個(gè)權(quán)重,(w1x1+w2x2+w3x3+w4x4+w0)(w1x1+w2x2+w3x3+w4x4+w0)。此外,我們還需要對每一列的特征進(jìn)行均值歸一化,即(xcoli?μ)/σ(xcoli?μ)/σ。 。其實(shí)對樣本種類類別,我們可以只用兩個(gè)維度的進(jìn)行表示也可以可行的,即以如下方式進(jìn)行表示:
[35.99 0 0] [42.95 0 1] [10.50 0 0] [74.99 1 0]一般對于特征中既包含有連續(xù)特征又包含有離散特征,對于離散特征差不多都采用這種方式進(jìn)行處理,但是這種方式有一個(gè)比較大的問題,就是當(dāng)離散特征可能的取值比較多時(shí),會(huì)導(dǎo)致通過這種方式處理后的特征維度非常高(one-hot表示方法都有這樣一種特點(diǎn)),向量非常的稀疏,在存儲(chǔ)以及運(yùn)算的時(shí)候,可以通過使用一些支持稀疏表示的矩陣庫進(jìn)行處理(比如Armadillo有稀疏矩陣的表示)。
一些不同的回歸模型比較:
1.?7 Types of Regression Techniques you should know
2.?10 types of regressions. Which one to use?
3.?Regression analysis using Python
4.?scikit learn logistic regression
from:?http://yongyuan.name/blog/feature-engineering-note.html
總結(jié)
- 上一篇: 用Hadoop1.0.3实现KMeans
- 下一篇: 日本常用姓氏表