python如何读dat数据_如何用Python进行数据质量分析
概述
數據挖掘的第一步工作是數據準備,而數據準備的第一步就是數據質量分析了。本篇文章著重介紹如何使用Python進行數據質量分析的初步工作,屬于比較基礎的入門教程。
為什么要進行數據質量分析
根據百度百科的定義,數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程。
我們在生活、工作中無時無刻不在產生數據。整個自然界、人類社會更是每天都會產生大量的數據。數據是客觀存在的,不會以某一個人的意志為轉移。而相對于某一個人或某一個個體,他可能只關心數據中的某些有價值的信息,這就需要在浩瀚的數據海洋中撈取那幾條他喜歡吃的魚。
由于數據來源、數據傳輸環節、數據儲存過程等都有可能使數據被污染,所以我們在使用數據之前非常有必要對數據的質量進行評估。質量評估的工作可能包括:將缺失的數據補齊、對一些異常值進行處理、使數據保持一致性等。
數據質量分析這個事,和我們把碗盤擺進洗碗機之前做的事比較像。
數據質量分析的一般流程
凡事皆有章法,數據質量分析也不例外。數據質量分析的一般流程如下:
下面我們通過要一個簡單的例子來看看利用Python進行數據質量分析的一般流程。
凡事皆有章法一個簡單的例子
這個例子很簡單。我們假設有一組數據,然后我們使用箱型圖法把這組數據中的異常值給剔出來。
箱型圖的概念很容易理解,如下圖所示。只要把上四位數Qu、下四位數Ql找出來就可以了,在Python中要完成這個工作非常容易。
箱型圖示例我們需要用到pandas庫,所以先把pandas庫引入進來
import pandas as pd接下來,我們把數據從硬盤讀入內存,假設我們的數據名稱是"atering_sale.xls"。數據源是后面標注的參考書中第一個案例數據。使用下面這兩行命令來讀取:
catering_sale = '../data/catering_sale.xls' data = pd.read_excel(catering_sale, index_col=u'日期')上面代碼中,我是把實驗室據放在data目錄下、python文件放在code目錄下,也就是說運行這個python文件的時候把運行環境的當前路徑改在了code這個目錄下。然后使用"../"找到code的上一級目錄,然后再找上級目錄的data子目錄下的catering_sale.xls文件。
第二行,調用pandas的read_excel函數讀取excel文件。其中的index_col參數是指將excel文件中的“日期”這一列指定為行的索引。
Python文件在code目錄下
read_excel方法返回的是一個DataFrame,查看返回值data的前5行如下圖所示:
data前5行
接下來,導入matplotlib,代碼如下:
import matplotlib.pyplot as plt #導入圖形庫 plt.rcParams['font.sans-serif']=['Simhei'] #用來正常顯示中文標簽 plt.rcParams['axes.unicode_minus']=False #用來正常顯示負號然后,建立一個圖例,使用DataFrame的boxplot方法畫箱型圖。
最關鍵的一行就是"p = data.boxplot(return_type='dict') #畫箱線圖",這一行返回的是一個字典項的量。它的fliers里面記錄了異常值。
然后使用下面的命令,把異常值標記到plt的figure上。
for i in range(len(x)): if i>0:plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))else:plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))然后調用show命令把畫好的圖顯示出來就行了。
plt.show() #展示箱線圖結果如下:
箱型圖參考:
《Python數據分析與挖掘實戰》,張良均 著,機械工業出版社。
總結
以上是生活随笔為你收集整理的python如何读dat数据_如何用Python进行数据质量分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: react 动态添加组件属性_这么高质量
- 下一篇: 慕课堂签到迟到怎么办_线上教学第一周:长