當前位置：首頁 > 编程语言 > python >内容正文

python

【Python】特征工程：数值特征的缩放与编码

發布時間：2025/3/12 python 20 豆豆

生活随笔收集整理的這篇文章主要介紹了【Python】特征工程：数值特征的缩放与编码小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數值特征是結構化競賽中重要的特征，也是需要處理的特征。一般而言數值特征的操作，包括如下幾個方面：

離群點處理
缺失值填充
縮放處理
編碼處理

缺失值填充

如果使用非樹模型，則需要考慮對數值特征進行填充。缺失值填充的基礎方法包括：

使用統計值填充（均值/中位數/常數）

最近鄰樣本填充（行維度）

基于模型的填充

縮放處理

數值特征在歸一化后直接加到深度模型中，直接對原始特征做歸一化，或者通過BN層來做歸一化。

RankGuass

將數值進行排序，然后將轉換到[-1, 1]范圍內，然后使用逆誤差函數進行轉換。

詳細案例見：https://zhuanlan.zhihu.com/p/330333894

標準化

最大最小縮放

最大絕對值縮放

魯邦縮放

計算數值具體的分位點Q1和Q3，

對數轉換

分位點轉換

計算數值分布的分位點，將分布轉為均勻分布或正態分布。

冪變換

將數值轉換為更加偏向正態分布的形態

Box-Cox 變換
Yeo-Johnson 變換

編碼處理

原始特征

用原始的數值作為特征，或者在數值上面做一些計算。

二值化/分箱處理

對數值按照大小進行劃分，可以直接使用pd.cut實現。

Rank值

統計數值具體大小次序。

離散嵌入

利用分點可以將數值進行離散化，然后作為ID類特征加到模型中，正常參與模型訓練。離散化有兩個好處：一是引入非線性，二是可以過濾一些異常值。

域嵌入

將一個域內的數值型特征共享一個field embedding，可以理解為使用一個向量來轉換。

樹編碼

通過樹模型節點的劃分對不同特征值劃分到不同的節點，從而對其進行離散化。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

本站qq群851320808，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【Python】特征工程：数值特征的缩放与编码的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【深度学习】何恺明经典之作—2009 C
下一篇： div滚动字幕