當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

工程代码_特征工程学习，19 项实践 Tips！代码已开源！

發布時間：2024/9/30 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了工程代码_特征工程学习，19 项实践 Tips！代码已开源！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊上方“AI有道”，選擇“星標”公眾號

重磅干貨，第一時間送達

隨著我們在機器學習、數據建模、數據挖掘分析這條發展路上越走越遠，其實越會感覺到特征工程的重要性，平時我們在很多地方都會看到一些很好的特征工程技巧，但是都會是一個完整項目去閱讀，雖然說這樣子也可以學習挖掘思路，但有的時候濃縮的技巧總結也是十分重要！

GitHub上有一個專門針對特征工程技巧的“錦囊”，叫做《Tips-of-Feature-engineering》，作者把網路上、書本上的一些特征工程的項目，抽取其中的挖掘技巧，并把這些小技巧打包成一個又一個的小錦囊，供大家去檢索并且學習，還蠻不錯的！

項目地址為：

https://github.com/Pysamlam/Tips-of-Feature-engineering

大家可以先看看目前更新到的內容明細：

項目目前更新到19節，一般來說是每天一更新，每一節都會有配套的數據集以及代碼，下面我們拿幾個“錦囊”來看一下！

Tip8：怎么把幾個圖表一起在同一張圖上顯示？

這里是使用泰坦尼克號的數據集，前期我們做EDA的時候需要探查數據的分布，從而發現其中的規律，這一節的技巧就是教我們如何畫一些常見的圖形，同時顯示在同一張圖上。

關鍵代碼

import matplotlib.pyplot as plt

# 設置figure_size尺寸
plt.rcParams['figure.figsize'] = (8.0, 6.0)

fig = plt.figure()

# 設定圖表顏色
fig.set(alpha=0.2)

# 第一張小圖
plt.subplot2grid((2,3),(0,0))
data_train['Survived'].value_counts().plot(kind='bar')
plt.ylabel(u"人數")
plt.title(u"船員獲救情況 (1為獲救)")

# 第二張小圖
plt.subplot2grid((2,3),(0,1))
data_train['Pclass'].value_counts().plot(kind="bar")
plt.ylabel(u"人數")
plt.title(u"乘客等級分布")

# 第三張小圖
plt.subplot2grid((2,3),(0,2))
plt.scatter(data_train['Survived'], data_train['Age'])
plt.ylabel(u"年齡")
plt.grid(b=True, which='major', axis='y')
plt.title(u"按年齡看獲救分布 (1為獲救)")

# 第四張小圖，分布圖
plt.subplot2grid((2,3),(1,0), colspan=2)
data_train.Age[data_train.Pclass == 1].plot(kind='kde')
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel(u"年齡")
plt.ylabel(u"密度")
plt.title(u"各等級的乘客年齡分布")
plt.legend((u'頭等艙', u'2等艙',u'3等艙'),loc='best')

# 第五張小圖
plt.subplot2grid((2,3),(1,2))
data_train.Embarked.value_counts().plot(kind='bar')
plt.title(u"各登船口岸上船人數")
plt.ylabel(u"人數")
plt.show()

我們從上面的可視化操作結果可以看出，其實可以看出一些規律，比如說生還的幾率比死亡的要大，然后獲救的人在年齡上區別不大，然后就是有錢人(坐頭等艙的)的年齡會偏大等。

Tip15：如何使用sklearn的多項式來衍生更多的變量？

關于這種衍生變量的方式，理論其實大家應該很早也都聽說過了，但是如何在Python里實現，也就是今天在這里分享給大家，其實也很簡單，就是調用sklearn的PolynomialFeatures方法，具體大家可以看看下面的demo。

這里使用一個人體加速度數據集，也就是記錄一個人在做不同動作時候，在不同方向上的加速度，分別有3個方向，命名為x、y、z。

關鍵代碼

# 擴展數值特征
from sklearn.preprocessing import PolynomialFeatures

x = df[['x','y','z']]
y = df['activity']

poly = PolynomialFeatures(degree=2, include_bias=False, interaction_only=False)

x_poly = poly.fit_transform(x)
pd.DataFrame(x_poly, columns=poly.get_feature_names()).head()

就這樣子簡單的去調用，就可以生成了很多的新變量了。

Tip17：如何把分布修正為類正態分布？

今天我們用的是一個新的數據集，也是在kaggle上的一個比賽，大家可以先去下載一下：

下載地址：

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

import pandas as pd
import numpy as np
# Plots
import seaborn as sns
import matplotlib.pyplot as plt

# 讀取數據集
train = pd.read_csv('./data/house-prices-advanced-regression-techniques/train.csv')
train.head()

首先這個是一個價格預測的題目，在開始前我們需要看看分布情況，可以調用以下的方法來進行繪制：

sns.set_style("white")
sns.set_color_codes(palette='deep')
f, ax = plt.subplots(figsize=(8, 7))
#Check the new distribution
sns.distplot(train['SalePrice'], color="b");
ax.xaxis.grid(False)
ax.set(ylabel="Frequency")
ax.set(xlabel="SalePrice")
ax.set(title="SalePrice distribution")
sns.despine(trim=True, left=True)
plt.show()

我們從結果可以看出，銷售價格是右偏，而大多數機器學習模型都不能很好地處理非正態分布數據，所以我們可以應用log(1+x)轉換來進行修正。那么具體我們可以怎么用Python代碼實現呢？

# log(1+x) 轉換
train["SalePrice_log"] = np.log1p(train["SalePrice"])

sns.set_style("white")
sns.set_color_codes(palette='deep')
f, ax = plt.subplots(figsize=(8, 7))

sns.distplot(train['SalePrice_log'] , fit=norm, color="b");

# 得到正態分布的參數
(mu, sigma) = norm.fit(train['SalePrice_log'])

plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
loc='best')
ax.xaxis.grid(False)
ax.set(ylabel="Frequency")
ax.set(xlabel="SalePrice")
ax.set(title="SalePrice distribution")
sns.despine(trim=True, left=True)

plt.show()

目前這個項目更新到了19節，但是會持續不斷更新“錦囊”，歡迎大家來進行star哦！

項目地址為：

https://github.com/Pysamlam/Tips-of-Feature-engineering

推薦閱讀

(點擊標題可跳轉閱讀)

干貨 | 公眾號歷史文章精選

我的深度學習入門路線

我的機器學習入門路線圖

麻煩給個在看?

總結

以上是生活随笔為你收集整理的工程代码_特征工程学习，19 项实践 Tips！代码已开源！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： springboot接收文件上传_Spr
下一篇：文本怎么整体向左缩进_如何设置Word文

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

工程代码_特征工程学习，19 项实践 Tips！代码已开源！

Tip8：怎么把幾個圖表一起在同一張圖上顯示？

關鍵代碼

Tip15：如何使用sklearn的多項式來衍生更多的變量？

關鍵代碼

Tip17：如何把分布修正為類正態分布？

總結