数据数值转换factorize和dummy
數(shù)據(jù)的數(shù)值轉(zhuǎn)換有兩種方式:
1. factorize
API:
?pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None)?
將對(duì)象編碼為枚舉類型或分類變量。
輸入?yún)?shù):
values: 一維數(shù)據(jù)序列
sort: 為數(shù)據(jù)加標(biāo)簽的時(shí)候需不需要保持原有數(shù)據(jù)的大小關(guān)系,默認(rèn)False
na_sentinel: 對(duì)于沒有找到數(shù)據(jù)的賦予的標(biāo)簽,默認(rèn)-1
返回:
labels和uniques,一般使用的是labels,因此在factorize得到的數(shù)據(jù)要寫上第幾維數(shù)據(jù)。
pd.factorize()[0]
2. dummy
API:
?pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False,drop_first=False, dtype=None)
?Convert categorical variable into dummy/indicator variables?
輸入?yún)?shù):
prefix: 轉(zhuǎn)換成dummy類型后新增加特征的名字前綴
具體這兩種轉(zhuǎn)換方法對(duì)于最后的結(jié)果有什么影響還沒有試過,等豆桑把titanic程序看完了實(shí)驗(yàn)一下。
其實(shí)就豆桑自己分析的話,由于factorize后的數(shù)據(jù)不是歸一化的,而get_dummies后的數(shù)據(jù)都是0和1,不需要再進(jìn)行歸一化,因此豆桑覺得可能更多地應(yīng)用會(huì)是get_dummies。
總結(jié)
以上是生活随笔為你收集整理的数据数值转换factorize和dummy的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CSDN日报191021:我与CSDN的
- 下一篇: GCD的简介及应用