数据挖掘实验——认识数据与进行数据预处理
本實驗的實驗報告以及相關數據集和處理數據所用代碼都放在下面這個資源鏈接之中
認識數據與進行數據預處理的實驗
免費下載 以供學習~
實驗內容和目的:
根據老師給出的代碼進行復現和運行,實現——對一個數據集進行分析,包括歸一化操作、缺失值處理、特征篩選,從而達到認識數據并進行數據預處理的目的。
實驗數據及結果分析:
1.歸一化處理
在拿到一個數據集之后,我們通常會對數據集進行歸一化處理
【1】首先我們引入需要的包
【2】之后我們在主函數中進行設置——
對數據的歸一化操作:
讀取數據:
對數據進行歸一化操作的函數
【3】主函數 讀取iris.data數據
得到進行歸一化處理之后的數據集 iris_w.data
【4】利用weka獲取的GUI結果:
【5】自己編程調用歸一化函數的結果
2.缺失值處理
經過第一步的操作 我們已經對數據進行了初步的預處理,接下來創建一個新類實現對labor數據缺失值的處理。
在這一部分,應對不同的數據類型我們采用不同的策略~
對于數值型數據采用策略一,對于標簽型數據采用策略二
接下來進行實現:
【1】依舊是先引入所需要的的庫
【2】對數值型數據和標簽型數據進行一個劃分
【3】進行缺失數據的處理時所用的函數
分為
策略1——針對數值型數據:
策略2——針對標簽型數據:
其中laborMissing.txt為內容有缺失的文件 內容如下:
進行缺失值處理之后 獲得laborMissing_handle.txt文件
可以看到,缺失的數據都進行了補全。
3.特征篩選
【1】引入所需的包~
【2】熟悉的讀取文件操作~
返回所有特征的值spf.values 及 數據類別 strs 的label
【3】對每個特征計算信息增益
其中,在離散化的過程中,此處將特征的區間分為10份,不同離散化得到的結果是有差別的。
【4】進行特征篩選~
這里對熵進行計算
【5】在主函數中 讀入數據
并且打印出結果
實驗結論、心得體會和改進建議:
實驗結論:
在進行數據集的分析之前進行數據預處理是非常有必要且高效的,了解數據的第一步,從了解處理數據 了解數據預處理開始~
另外,高效利用python中的各種包可以對數據進行各種有效的操作,例如 缺失值補全、特征篩選等。
心得體會:
我們可以通過技術的手段來將復雜的數據變簡單,這是多么有趣的一件事情~之后還要繼續努力地學習數據科學的知識與各類處理數據的方法。
改進建議:
感覺可以在本次實驗中加入更多可視化的元素,讓數據可以被我們直觀地看到;或者是有一個應用場景,比如銀行一年的流水,這類的“實際操作”可以讓我們更有代入感和成就感~
總結
以上是生活随笔為你收集整理的数据挖掘实验——认识数据与进行数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黑马程序员-北漂
- 下一篇: 谷歌抽屉_Google(最终)会杀死导航