读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换
《數據挖掘:概念與技術(原書第2版)》
2.4 數據集成和變換
數據挖掘經常需要數據集成—合并來自多個數據存儲的數據。數據還可能需要轉換成適于挖掘的形式。本節介紹數據集成和數據變換。
2.4.1 數據集成
??數據分析任務多半涉及數據集成。數據集成合并多個數據源中的數據,存放在一個一致的數據存儲(如數據倉庫)中。這些數據源可能包括多個數據庫、數據立方體或一般文件。
??在數據集成時,有許多問題需要考慮。模式集成和對象匹配可能需要技巧。來自多個信息源的現實世界的等價實體如何才能匹配?這涉及實體識別問題。例如,數據分析者或計算機如何才能確信一個數據庫中的customer_id和另一個數據庫中的cust_number指的是相同的屬性?每個屬性的元數據包括名字、含義、數據類型和屬性的允許取值范圍,以及處理空白、零或null值的空值規則(見2.3節)。這樣的元數據可以用來幫助避免模式集成的錯誤。元數據還可以用來幫助變換數據(例如,pay_type的數據編碼在一個數據庫中可以是“H”和“S”,而在另一個數據庫中是1和2)。因此,這一步也與前面介紹的數據清理有關。
??冗余是另一個重要問題。一個屬性(如年收入)可能是冗余的,如果它能由另一個或另一組屬性“導出”。屬性或維命名的不一致也可能導致結果數據集中的冗余。
??有些冗余可以被相關分析檢測到。給定兩個屬性,這種分析可以根據可用的數據度量一個屬性能在多大程度上蘊涵另一個。對于數值屬性,通過計算屬性A和B之間的相關系數(又稱皮爾遜積矩系數(Pearson?product coefficient),用發明者Karl Pearson的名字命名),我們可以估計這兩個屬性的相關度rA,B。即
??注意,相關并不意味因果關系。也就是說,如果A和B是相關的,這并不意味A導致B或B導致A。例如,在分析人口統計數據庫時,我們可能發現一個地區的醫院數與汽車盜竊數是相關的。這并不意味一個導致另一個。實際上,二者必然地關聯到第三個屬性—人口。
?
?
??統計檢驗假設A和B是獨立的。檢驗基于顯著水平,具有(r-1)×(c-1)自由度。如果可以拒絕該假設,則我們說A和B是統計相關的或關聯的。
??數據語義的異構和結構對數據集成提出了巨大挑戰。由多個數據源小心地集成數據能夠幫助降低和避免結果數據集中的冗余和不一致。這有助于提高其后挖掘過程的準確率和速度。
2.4.2數據變換
??數據變換將數據轉換或統一成適合于挖掘的形式。數據變換可能涉及如下內容:
n?光滑:去掉數據中的噪聲。這種技術包括分箱、回歸和聚類。
n?聚集:對數據進行匯總或聚集。例如,可以聚集日銷售數據,計算月和年銷售量。通常,這一步用來為多粒度數據分析構造數據立方體。
n?數據泛化:使用概念分層,用高層概念替換低層或“原始”數據。例如,分類的屬性,如街道,可以泛化為較高層的概念,如城市或國家。類似地,數值屬性如年齡,可以映射到較高層概念如青年、中年和老年。
n?規范化:將屬性數據按比例縮放,使之落入一個小的特定區間,如-1.0~1.0或0.0~1.0。
n?屬性構造(或特征構造):可以構造新的屬性并添加到屬性集中,以幫助挖掘過程。
?
??通過將屬性值按比例縮放,使之落入一個小的特定區間,如0.0~1.0,對屬性規范化。對于涉及神經網絡或距離度量的分類算法(如最近鄰分類)和聚類,規范化特別有用。如果使用神經網絡后向傳播算法進行分類挖掘(見第6章),對于訓練元組中量度每個屬性的輸入值規范化將有助于加快學習階段的速度。對于基于距離的方法,規范化可以幫助防止具有較大初始值域的屬性(如income)與具有較小初始值域的屬性(如二元屬性)相比權重過大。
?
轉載于:https://www.cnblogs.com/itolssy/archive/2008/08/04/1260392.html
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 下一代 Debian - \'Lenny
- 下一篇: SAAS发展之我鉴