磨刀不误砍柴工——数据准备的过程与实践
生活随笔
收集整理的這篇文章主要介紹了
磨刀不误砍柴工——数据准备的过程与实践
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
眾所周知,我們常用“磨刀不誤砍柴工”來比喻要辦成一件事,不一定要立即著手干活,而是先要進行一些籌劃和安排,充分做好準備工作,創造出有利條件,這樣不但不會浪費時間,反而會大大提高整體的辦事效率。這個道理在我們做數據分析時也是適用的。在當今信息技術高度發達的社會很多企業往往不愁沒有數據,但是唾手可得的數據卻不一定可以直接拿來分析,生搬硬套的分析往往失之毫厘謬以千里。西方人所說的“Rubbish in, rubbish out.”反映的也是同樣的現象。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 總之,沒有高質量的數據,就不能保證有高質量的數據分析結果。對于統計質量管理而言,如果被分析的數據本身不可靠,很可能就會得到錯誤的分析結果和無效的質量改進方案,不僅會使質量改進工作無功而返,而且還極有可能傷害原有的質量管理水平。如果把數據分析看作砍柴的話,那么磨刀指的就是數據準備了。越來越多的專業人士已經開始意識到數據準備的重要性,現在的問題已經不是數據準備要不要做,而是數據準備應當如何做。 那么,數據準備究竟應當如何做呢?總的來說,可以遵循如圖一所示的五步循環法來進行。接下來,我們將逐一解釋每個步驟的含義,具體的實例將借助高端統計質量管理及六西格瑪軟件JMP來實現。 圖一? 數據準備的五步循環法 第一步,獲取數據。 數據是進行分析工作的原材料,獲取數據是數據準備工作的第一步。一般來說,企業常用的數據來源可以有四類。以JMP為例,一是通過手工輸入和創建原創數據文件,這往往在新建數據文件時采用。二是從外部讀取,比如讀取Excel、MS Access、dBase、Text、SAS以及其他一些格式的現有數據源,這也是一種常見的方式。三是從大型數據庫獲取,如JMP可以通過ODBC訪問現有的大型數據庫文件,如Oracle、DB2、Sybase、SQL Server等等,必要時還能調用SQL命令構建查詢條件,這在信息化建設比較成熟的企業中應用較多(參見圖二)。四則是直接訪問含有數據表格的互聯網主頁來獲取數據。 圖二? JMP軟件中的數據庫訪問界面 第二步,整合數據。 有時候,需要分析的數據保存在不同的數據文件中。例如:我們在需要分析今年第三季度的生產數據時,很有可能會發現七月、八月和九月的生產數據分別保存在三個不同的文件中;或者需要對產品的兩個質量特性進行關聯性分析時,卻發現這兩個質量特性分別保存在兩個不同的文件中。這時候,我們就有需要做數據整合了。數據整合的方法很多,如連接、合并、堆疊等等。從操作對象上看有行與行的連接(JMP軟件中稱為合并Concatenate),列與列的連接(JMP軟件中稱為連接(Join))等。剛才說的第一種情況就適合用“合并(Concatenate)”整合數據(參見圖三),第二種情況則適合用“連接(Join)”來整合數據。 圖三? JMP軟件中不同數據文件的“行與行的連接” 第三步,清洗數據。 如同燒菜之前常常要洗菜一樣,分析數據之前常常也要對數據進行必要的清洗。根據數據類型的不同,常用的數據清洗方式可以有兩種。第一種適用于字符型數據(在JMP中稱為列表檢查(List Check))。例如當列變量是“性別”時,列表中的選項可以設定為“男”、“女”,讓軟件自動檢查“性別”列中的所有行記錄,任何不符合這些設定的內容均會被剔除。第二種叫范圍檢查(Range Check),適用于數值型數據。例如當列變量是“身高”時,范圍可設定為“100<=身高<=200”(參見圖四),讓軟件自動檢查“身高”列中的所有行記錄,任何超出這些設定的內容也均會被剔除。 圖四? JMP軟件中數值型數據的“范圍檢查” 第四步,定義數據。 定義數據是指為了以后的分析工作方便準確,同時預防一些不必要的操作錯誤而在分析數據之前對數據進行的一系列設置,這是一個內容非常豐富的工作,包括定義建模類型(如連續型(Continuous)、保序型(Ordinal)、記名型(Nominal)),數據格式(如固定小數位型、百分位型、貨幣型、日期型、時間型等),初始數據值(如隨機數、序列數據、缺失值等)以及更多的列性質(如編寫公式、增加注釋、更改值排序、自定義值顏色等)等等(參見圖五)。 圖五? JMP軟件中的數據定義界面 第五步,探索數據。 探索數據實際上是分析數據中最基本但很有效的一種形式,它不強調分析過程的精確性,但強調簡單快捷、通俗易懂、數據發現效率高,快速形成對數據的直觀認識,主要可以通過匯總制表和可視化方式來實現。匯總制表是指根據分層變量分層后計算各子集數據的均值、標準差、總和、合計百分比和變異系數等統計量,并以直觀的方式顯示(參見圖六)。可視化是指從簡單的柱狀圖、餅圖、折線圖等到專業的動態多維圖形(如JMP的動態泡泡圖)、三維散點圖、交互式數據探索工具(如JMP的圖形生成器)等多種有效方法。JMP軟件是進行探索性數據分析(EDA)的理想載體,它的交互性和可視化特征可以讓探索數據的過程變得非常生動,幫助更直觀地從數據中獲取有價值的發現。 例圖六? JMP軟件中的交互式匯總制表界面 當然,以上的五個步驟并不是每一次數據準備都必須做的,但卻是代表性很強一個過程。我們可以靈活掌握它的核心思想,在實際工作中根據已有數據的現狀,選擇合適的步驟和實現手法,以起到“事半功倍”的效果,為隨后的數據分析以及基于分析結果的決策打下成功的基礎。
轉載于:https://blog.51cto.com/2182004/399614
總結
以上是生活随笔為你收集整理的磨刀不误砍柴工——数据准备的过程与实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Word 2007中隐藏段落和格式标记
- 下一篇: CCNA找工作指南