當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【商务智能】数据预处理

發布時間：2025/6/17 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了【商务智能】数据预处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

商務智能系列文章目錄

【商務智能】數據預處理

文章目錄

商務智能系列文章目錄
前言
一、數據預處理主要任務
二、數據規范方法
- 1、z-score 規范化
- 2、最小-最大規范化
三、數據離散方法
- 1、分箱離散化
- 2、基于熵的離散化
總結

前言

在進行數據分析之前 , 先要對數據進行預處理操作 , 本篇博客簡要介紹常用的數據預處理方法 ;

一、數據預處理主要任務

數據預處理主要任務 :

① 數據離散化 : 分箱離散化 , 基于熵的離散化 , ChiMerge 離散化 ;

② 數據規范化 : 又稱數據標準化 , 統一樣本數據的取值范圍 , 避免在數據分析過程中 , 因為屬性取值范圍不同 , 在數據分析過程中導致分析結果出現誤差 ; 如 : 時間屬性的數值 , 有用秒作為單位的 , 有用小時作為單位的 , 必須統一成同一個時間單位 ;

③ 數據清洗 : 識別和處理數據缺失 , 噪音數據 , 數據不一致等情況 ; 如 : 某樣本某屬性數據缺失 , 將同類樣本的該屬性的平均值賦值給該缺失屬性的樣本 ;

④ 特征提取與特征選擇 : 面向分類的特征選擇方法 , 有效的特征選擇 , 既可以降低數據量 , 又能提高分類模型的構建效率 , 還能提高分類準確率 ;

二、數據規范方法

1、z-score 規范化

z-score : 也稱為標準分 ; z-score 值為 $\cfrac{x - \mu}{\sigma}$ ;

其中 $x$ 是本次要規范的屬性值 , $μ\mu$ 是均值 , $σ\sigma$ 是標準差 , 該公式的含義是計算當前屬性值 $x$ 偏離均值 $μ\mu$ 的距離是多少個標準差 $σ\sigma$ ;

z-score 規范化 又稱為零均值規范化 ( Zero-Mean Normalization ) , 給定屬性 $A$ , 均值為 $μ\mu$ , 標準差為 $σ\sigma$ , 屬性 $A$ 的取值 $x$ 規范后的值 $\cfrac{x - \mu}{\sigma}$ ;

年收入平均值 $82$ 萬 , 標準差 $39$ , 年收入 $60$ 萬使用 z-score 規范化后的值為 :

$\cfrac{60 - 82}{39} =0.564$

2、最小-最大規范化

樣本屬性原來取值范圍 $[l, r]$ , 現在需要將樣本屬性映射到 $[L, R]$ 區間內 , 根據等比例映射原理 , 屬性值 $x$ 映射到新區間后的值計算方法如下 :

$\cfrac{x - l}{r-l}(R-L) + L$

某樣本屬性為年收入 , 取值范圍 $[10, 100]$ , 將其映射到 $[0, 1]$ 區間內 , 則 $20$ 映射到新區間后的值為 :

$\cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111$

三、數據離散方法

1、分箱離散化

分箱離散化 分為等距離分箱 , 等頻率分箱 ;

等距離分箱 : 又稱為等寬度分箱 , 將屬性的每個取值映射到等大小區間的方法 ;

如 : 學生考試分數 , $0$ ~ $100$ 分 , 以 $10$ 分為一檔 , 分為 $10$ 檔 ,

$15$ 分處于 $11$ ~ $20$ 檔 ,
$52$ 分處于 $51$ ~ $60$ 檔 ;

等距離分箱 , 可能導致某些取值多 , 某些取值少 , 如 $71$ ~ $80$ 這一檔很多 , $01$ ~ $10$ 這一檔幾乎沒有 ;

等頻率分箱 : 又稱為等深度分箱 , 將每個取值映射到一個區間 , 每個區間包含的取值個數相同 ;

2、基于熵的離散化

分箱離散化是無監督離散化方法 , 基于熵的離散化是有監督離散化方法 ;

給定數據集 $D$ 及其分類屬性 , 類別集合為 $\{ c_1 , c_2 , \cdots , c_k \}$ , 數據集 $D$ 的信息熵 $entropy(D)\rm entropy(D)$ 計算公式如下 :

$entropy(D)=?∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)$

$p(c_i)$ 的值是 $count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}$ , $count(ci)\rm count(c_i)$ 是指 $c_i$ 在數據集 $D$ 中出現的次數 , $∣ D ∣$ 表示數據樣本個數 ;

信息熵 $entropy(D)\rm entropy(D)$ 取值越小 , 類別分步越純 ;

屬性信息熵計算參考【數據挖掘】決策樹中根據信息增益確定劃分屬性 ( 信息與熵 | 總熵計算公式 | 每個屬性的熵計算公式 | 信息增益計算公式 | 劃分屬性確定 ) 博客 ;

總結

本博客主要講解數據預處理需要進行的操作 , 數據規范化 , 數據離散化 , 數據清洗 , 特征提取與特征選擇 ;

數據規范化涉及最小-最大規范化和 z-score 規范化 ;

數據離散化涉及分箱離散化和基于熵的離散化 , 分箱離散化分為等距離分箱和等頻率分箱 ;

總結

以上是生活随笔為你收集整理的【商务智能】数据预处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Android 插件化】“ 插桩式 “
下一篇：【商务智能】数据仓库 ( 多维数据模型