【Python】特征工程:数值特征的缩放与编码
數值特征是結構化競賽中重要的特征,也是需要處理的特征。一般而言數值特征的操作,包括如下幾個方面:
離群點處理
缺失值填充
縮放處理
編碼處理
缺失值填充
如果使用非樹模型,則需要考慮對數值特征進行填充。缺失值填充的基礎方法包括:
使用統計值填充(均值/中位數/常數)
最近鄰樣本填充(行維度)
基于模型的填充
縮放處理
數值特征在歸一化后直接加到深度模型中,直接對原始特征做歸一化,或者通過BN層來做歸一化。
RankGuass
將數值進行排序,然后將轉換到[-1, 1]范圍內,然后使用逆誤差函數進行轉換。
詳細案例見:https://zhuanlan.zhihu.com/p/330333894
標準化
最大最小縮放
最大絕對值縮放
魯邦縮放
計算數值具體的分位點Q1和Q3,
對數轉換
分位點轉換
計算數值分布的分位點,將分布轉為均勻分布或正態分布。
冪變換
將數值轉換為更加偏向正態分布的形態
Box-Cox 變換
Yeo-Johnson 變換
編碼處理
原始特征
用原始的數值作為特征,或者在數值上面做一些計算。
二值化/分箱處理
對數值按照大小進行劃分,可以直接使用pd.cut實現。
Rank值
統計數值具體大小次序。
離散嵌入
利用分點可以將數值進行離散化,然后作為ID類特征加到模型中,正常參與模型訓練。離散化有兩個好處:一是引入非線性,二是可以過濾一些異常值。
域嵌入
將一個域內的數值型特征共享一個field embedding,可以理解為使用一個向量來轉換。
樹編碼
通過樹模型節點的劃分對不同特征值劃分到不同的節點,從而對其進行離散化。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件本站qq群851320808,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【Python】特征工程:数值特征的缩放与编码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】何恺明经典之作—2009 C
- 下一篇: div滚动字幕