【商务智能】数据预处理
商務智能系列文章目錄
【商務智能】數據預處理
文章目錄
- 商務智能系列文章目錄
- 前言
- 一、數據預處理主要任務
- 二、數據規范方法
- 1、z-score 規范化
- 2、最小-最大規范化
- 三、數據離散方法
- 1、分箱離散化
- 2、基于熵的離散化
- 總結
前言
在進行數據分析之前 , 先要對數據進行預處理操作 , 本篇博客簡要介紹常用的數據預處理方法 ;
一、數據預處理主要任務
數據預處理主要任務 :
① 數據離散化 : 分箱離散化 , 基于熵的離散化 , ChiMerge 離散化 ;
② 數據規范化 : 又稱數據標準化 , 統一 樣本數據的 取值范圍 , 避免在數據分析過程中 , 因為屬性取值范圍不同 , 在數據分析過程中導致分析結果出現誤差 ; 如 : 時間屬性的數值 , 有用秒作為單位的 , 有用小時作為單位的 , 必須統一成同一個時間單位 ;
③ 數據清洗 : 識別 和 處理 數據缺失 , 噪音數據 , 數據不一致 等情況 ; 如 : 某樣本某屬性數據缺失 , 將 同類樣本的該屬性的平均值 賦值給該缺失屬性的樣本 ;
④ 特征提取與特征選擇 : 面向分類的特征選擇方法 , 有效的特征選擇 , 既可以 降低數據量 , 又能 提高分類模型的構建效率 , 還能 提高分類準確率 ;
二、數據規范方法
1、z-score 規范化
z-score : 也稱為 標準分 ; z-score 值為 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;
其中 xxx 是本次要規范的屬性值 , μ\muμ 是均值 , σ\sigmaσ 是標準差 , 該公式的含義是 計算當前屬性值 xxx 偏離均值 μ\muμ 的距離是多少個標準差 σ\sigmaσ ;
z-score 規范化 又稱為 零均值規范化 ( Zero-Mean Normalization ) , 給定屬性 AAA , 均值為 μ\muμ , 標準差為 σ\sigmaσ , 屬性 AAA 的取值 xxx 規范后的值 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;
年收入平均值 828282 萬 , 標準差 393939 , 年收入 606060 萬使用 z-score 規范化后的值為 :
z=60?8239=0.564z = \cfrac{60 - 82}{39} =0.564z=3960?82?=0.564
2、最小-最大規范化
樣本屬性原來取值范圍 [l,r][l , r][l,r] , 現在需要將樣本屬性映射到 [L,R][L, R][L,R] 區間內 , 根據等比例映射原理 , 屬性值 xxx 映射到新區間后的值計算方法如下 :
v=x?lr?l(R?L)+Lv = \cfrac{x - l}{r-l}(R-L) + Lv=r?lx?l?(R?L)+L
某樣本屬性為年收入 , 取值范圍 [10,100][10, 100][10,100] , 將其映射到 [0,1][0, 1][0,1] 區間內 , 則 202020 映射到新區間后的值為 :
v=20?10100?10(1?0)+0=0.1111v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111v=100?1020?10?(1?0)+0=0.1111
三、數據離散方法
1、分箱離散化
分箱離散化 分為 等距離分箱 , 等頻率分箱 ;
等距離分箱 : 又稱為 等寬度分箱 , 將屬性的每個取值映射到等大小區間的方法 ;
如 : 學生考試分數 , 000 ~ 100100100 分 , 以 101010 分為一檔 , 分為 101010 檔 ,
151515 分處于 111111 ~ 202020 檔 ,
525252 分處于 515151 ~ 606060 檔 ;
等距離分箱 , 可能導致某些取值多 , 某些取值少 , 如 717171 ~ 808080 這一檔很多 , 010101 ~ 101010 這一檔幾乎沒有 ;
等頻率分箱 : 又稱為 等深度分箱 , 將每個取值映射到一個區間 , 每個區間包含的取值個數相同 ;
2、基于熵的離散化
分箱離散化 是 無監督 離散化方法 , 基于熵的離散化 是 有監督 離散化方法 ;
給定數據集 DDD 及其分類屬性 , 類別集合為 C={c1,c2,?,ck}C = \{ c_1 , c_2 , \cdots , c_k \}C={c1?,c2?,?,ck?} , 數據集 DDD 的信息熵 entropy(D)\rm entropy(D)entropy(D) 計算公式如下 :
entropy(D)=?∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)entropy(D)=?i=1∑k?p(ci?)log2?p(ci?)
p(ci)p(c_i)p(ci?) 的值是 count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}∣D∣count(ci?)? , count(ci)\rm count(c_i)count(ci?) 是指 cic_ici? 在數據集 DDD 中出現的次數 , ∣D∣|D|∣D∣ 表示數據樣本個數 ;
信息熵 entropy(D)\rm entropy(D)entropy(D) 取值越小 , 類別分步越純 ;
屬性 信息熵 計算參考 【數據挖掘】決策樹中根據 信息增益 確定劃分屬性 ( 信息與熵 | 總熵計算公式 | 每個屬性的熵計算公式 | 信息增益計算公式 | 劃分屬性確定 ) 博客 ;
總結
本博客主要講解數據預處理需要進行的操作 , 數據規范化 , 數據離散化 , 數據清洗 , 特征提取與特征選擇 ;
數據規范化涉及 最小-最大規范化 和 z-score 規范化 ;
數據離散化涉及 分箱離散化 和 基于熵的離散化 , 分箱離散化分為 等距離分箱 和 等頻率分箱 ;
總結
以上是生活随笔為你收集整理的【商务智能】数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android 插件化】“ 插桩式 “
- 下一篇: 【商务智能】数据仓库 ( 多维数据模型