當前位置：首頁 > 编程语言 > python >内容正文

python

python 数据离散化和面元划分

發布時間：2024/1/23 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 数据离散化和面元划分小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘中有些算法，特別是分類算法，只能在離散型數據上進行分析，然而大部分數據集常常是連續值和離散值并存的。因此，為了使這類算法發揮作用，需要對數據集中連續型屬性進行離散化操作。

那么，如何對連續型屬性離散化呢?常見的有等寬分箱法，等頻分箱法：

等寬分箱法的思想是，將數據均勻劃分成n等份，每份的間距相等。

等頻分箱法的思想是，將觀察點均勻分成n等份，每份的觀察點數相同。

在對數據離散化前，需要先處理異常點敏感問題，即我們需要首先設定一個閾值將異常數據移除。有兩種思路：

1.設定閾值為90%，將數據從小到大排序，移除全部數據最小的5%和最大的5%數據

2. ?設定閾值為90%，將數據從小到大排序，然后對所有數據求和，并計算每個數據占總和的比例，移除占比10%的數據

在這里，我們實現的方法是等寬分箱法，針對連續型數據集，代碼比較簡單基礎，在此拋磚引玉，大家可以在代碼的基礎上增添自己需要的功能。

先介紹2個方法：

等步長和等頻

1. cut() cut()函數可以將一個數組中的數據切分成幾個部分。將數據分為幾個部分，就稱為幾個面元。 cut(數據數組,面元數組)>>> array = [3, 60, 43, 100, 52, 36, 37, 0, 80, 1000] # 數組 >>> bins = [0, 25, 50, 75, 100] # 切割成什么 >>> cat = pd.cut(array, bins) >>> cat # cat是一個Categorical(類別型)類型 [(0, 25], (50, 75], (25, 50], (75, 100], (50, 75], (25, 50], (25, 50], NaN, (75, 100], NaN] Categories (4, interval[int64]): [(0, 25] < (25, 50] < (50, 75] < (75, 100]] >>> cat.codes # 數組原來的元素數據第幾個面元 array([ 0, 2, 1, 3, 2, 1, 1, -1, 3, -1], dtype=int8) >>> pd.value_counts(cat) # 每個面元有多少個元素 (25, 50] 3 (75, 100] 2 (50, 75] 2 (0, 25] 1 dtype: int64還可以不指定面元的界限，直接傳入一個整數參數，cut()會按照指定的數字，將元素劃分為相應的幾部分。>>> pd.cut(array, 5) [(-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (800.0, 1000.0]] Categories (5, interval[float64]): [(-1.0, 200.0] < (200.0, 400.0] < (400.0, 600.0] < (600.0, 800.0] < (800.0, 1000.0]] 2. qcut()cut()函數劃分得到的面元，每個面元的數量不同。而qcut()可以保證每個面元的數量相同，且每個面元的區間大小不等。 >>> pd.qcut(array, 5) [(-0.001, 29.4], (55.2, 84.0], (40.6, 55.2], (84.0, 1000.0], (40.6, 55.2], (29.4, 40.6], (29.4, 40.6], (-0.001, 29.4], (55.2, 84.0], (84.0, 1000.0]] Categories (5, interval[float64]): [(-0.001, 29.4] < (29.4, 40.6] < (40.6, 55.2] < (55.2, 84.0] < (84.0, 1000.0]] >>> cat = pd.qcut(array, 5) >>> pd.value_counts(cat) (84.0, 1000.0] 2 (55.2, 84.0] 2 (40.6, 55.2] 2 (29.4, 40.6] 2 (-0.001, 29.4] 2 dtype: int64

下面這個例子：

離散化：數值屬性（例如:年齡）的原始值用區間標簽(0-10,11-20等）代替。

x=[1,1,5,5,5,5,8,8,10,10,10,10,14,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,18,20,2,20,20,20,20,20,20,21,21,21,25,25,25,25,25,28,28,30,30,30]??

x=pd.Series(x)??

s=pd.cut(x,bins=[0,10,20,30])??

d=pd.get_dummies(s)??

這里采用了啞編碼，用OneHotEncoder也可以實現啞編碼

sklearn的preprocessing預處理方法參考http://blog.csdn.net/nkwangjie/article/details/17471889

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python 数据离散化和面元划分的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习中的数据预处理（sklearn
下一篇： pySpark环境搭建

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python 数据离散化和面元划分

總結