数据预处理与降维
1 為什么要進行數據預處理
1.1 數據清洗
1.1.1 數據清洗常見問題
a. 缺失值處理
b. 噪聲數據處理
c. 異常值處理
d. 臟數據處理
e. 去重處理
f. ETL - extract、transform、load
g. 離群點與噪聲
????????????????噪聲: 被測量的變量的隨機誤差或者方差(一般指錯誤的數據)?
????????????????離群點: 數據集中包含一些數據對象,他們與數據的一般行為或模型不一致。(正常值, 但偏離大多數數據)?
h. 數據清洗常見問題簡介
1.2 數據變換的一般方法
1.3 離群點檢測
1.4 數據簡化
1.4.1 數據簡化定義
????????????????也稱為數據“規約”,指在盡可能保持數據原貌的前提下,最大限度地精簡數據量,它小得多, 但是保持原始數據的完整性。也就是說,在歸約后的數據集上挖掘更有效果,仍然產生相同( 或幾乎形同)的分析結果。注意:用于數據歸約的時間不應當超過或“抵消”在歸約后的數據挖掘上挖掘節省的時間。
1.4.2 數據簡化常見方法
a. 維規約 - 即“降維”
????????????????也稱“降維”,減少要考慮的變量及屬性的個數。方法包括小波變換和主成分分析,他們把原始數據變換或投影到較小的空間。另外屬性子集選擇也是一種維歸約方法,其中不相關、弱相關或冗余的屬性或維被檢測和刪除。
b. 數量規約
????????????????用替代的、較小的數據表示形式替換原始數據。
c. 數據壓縮
????????????????使用變換,以便得到原始數據的歸約或“壓縮”表示。如果原始數據可以從壓縮后的數據重構,而不損失信息,則該數據歸約稱為無損的。反之,稱之為有損的。維歸約和數量歸約也可以視為某種形式的數據壓縮。
2 數據降維
2.1 選擇合適的角度投影,你將看到更多的信息
????????????????????????????????????????????????????????????????
2.1 什么是數據降維
2.1.1 概念:將數據從高維特征空間向低緯特征空間映射的過程
2.1.2 目的: 直觀地好處是維度降低了,便于計算和可視化,其更深層次的意義在于有效信息的提取綜合及無用信息的擯棄。
????????????????????????????????????????????????????????????????
2.2 為什么要進行數據降維
2.2.1 共線性
????????????????數據的多重共線性:特征屬性之間存在著相互關聯關系。多重共線性會導致解的空間不穩定,從而導致模型的泛化能力弱;
2.2.2 稀疏性
????????????????高緯空間樣本具有稀疏性,導致模型比較難找到數據特征;
2.2.3 找規律
????????????????過多的變量會妨礙模型查找規律;
2.2.4 潛在關系
????????????????僅僅考慮單個變量對于目標屬性的影響可能忽略變量之間的潛在關系;
2.2.5 減少特征屬性
????????????????減少特征屬性的個數;
2.2.6 相互獨立
????????????????確保特征屬性之間是相互獨立的;
2.3 數據降維的好處
????????????????有時候也存在特征矩陣過大,導致計算量比較大,訓練時間長的問題。?
????????????????降維可以方便數據可視化+數據分析+數據壓縮+數據提取等。
2.4 數據降維的常見方法
????????????????????????????????????????????????????????????????
2.4.1 LDA(線性判別式分析)法
????????????????LDA的思想可以用一句話概括,就是“投影后類內方差最小,類間方差最大”。我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。
a. 優點
在降維過程中可以使用類別的先驗知識經驗,而像PCA這樣的無監督學習則無法使用類別先驗知識;
LDA在樣本分類信息依賴均值而不是方差的時候,比PCA之類的算法較優;
b. 缺點
LDA不適合對非高斯分布樣本進行降維,PCA也有這個問題。
LDA降維最多降到類別數k-1的維數,如果我們降維的維度大于k-1,則不能使用LDA。當然目前有一些LDA的進化版算法可以繞過這個問題;
LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好;
LDA可能過度擬合數據
2.4.2 PCA(主成分分析)法:
????????????????主成分分析(Principal components analysis,以下簡稱PCA)是重要的降維方法之一。PCA顧名思義,就是找出數據里最主要的方面,用數據里最主要的方面來代替原始數據。中心思想:“使得降維后數據整體的方差最大!”
2.5 PCA與LDA降維方法對比分析
?????????????????
?????????????????????? A:PCA降維????????????????????????????????????????????????????????????????????????????????????????????????????????????B:LDA降維
PCA與LDA的區別
3 流形學習方法
3.1 流形學習思想
????????????????基本思想就是在高維空間中發現低維結構。?
?????????????????????????????????????????????????????????????????????????????????????????
????????????????這些點都處于一個三維空間里,但我們人一看就知道它像一塊卷起來的布,圖中圈出來的兩個點更合理的距離是A中藍色實線標注的距離,而不是兩個點之間的歐式距離(A中藍色虛線)。?
????????????????此時如果你要用PCA降維的話,它根本無法發現這樣卷曲的結構(因為PCA是典型的線性降維,而圖示的結構顯然是非線性的),最后的降維結果就會一團亂麻,沒法很好的反映點之間的關系。而流形學習在這樣的場景就會有很好的效果 。?
????????????????????????????????????????????????????????????????????
3.2 流形學習的步驟
通過kNN(k-Nearest Neighbor)找到點的k個最近鄰(小范圍),將它們連接起來構造一張圖。
通過計算圖中各點之間的最短路徑,作為點之間的距離dij放入距離矩陣D
將D傳給流形學習算法(MDS),得到降維后的結果。
?????????????????????????????????????????
3.3 PCA與流形學習對比
PCA:提供點的坐標降維,找出最能體現數據特點的特征?
流形學習:提供點之間距離的降維,更注重原始數據之間的相對關系并展現出來(多維結構)
4 各種降維方法展示
????????????????????????????????????????
---------------------?
作者:撇味大白菜?
來源:CSDN?
原文:https://blog.csdn.net/weixin_42219368/article/details/81009387?
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!
總結
- 上一篇: 初探百度大数据分析挖掘平台Jarvis
- 下一篇: categorical data and