机器学习与数据挖掘——第二章 数据与数据预处理
生活随笔
收集整理的這篇文章主要介紹了
机器学习与数据挖掘——第二章 数据与数据预处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、關于數據
什么是數據?
數據是數據對象的集合及其屬性
屬性的類型
- 標稱標度 nominal scale
標稱屬性的值是一些符號或實物的名稱,每個值代表某種類別、編碼或狀態,所以標稱屬性又被看做是分類型的屬性(categorical)。這些值不存在順序關系,并且不是定量的。
如:血型、身份號碼、郵政編碼 - 類型標度 typological scale
- 序列標度 ordinal scale
在標稱標度的基礎上,加入了類別的順序關系,當不能進行算術運算
如:成績(優、良、及格)、印度種姓制度 - 間隔標度 interval scale
含有對各個類進行分隔的間隔規模信息,數字不僅表示順序,還能進行加減算術運算,但不能進行乘除運算。
間隔標度可以看成一個一次函數。
如:日期、攝氏溫度 - 比例標度 ratio scale
含有對各個類別進行分隔的比例規模信息
這種測量不僅保持了順序、實體間的間隔規模,還能描述實體之間的比率,可以進行加減乘除等任何算術運算。
可以看成是一個比例函數。
如:開爾文溫度、長度、時間 - 離散屬性和連續屬性
- 離散屬性
只有一個有限集和可數無限集,如郵政編碼、計數。通常為整數變量。 - 連續屬性
實數作為屬性值,如溫度、高度。通常用浮點變量表示。
- 離散屬性
二、為什么要預處理數據
現實中的數據是臟的:
- 不完全:缺少屬性值,或僅包含聚類數據
- 噪音:包含錯誤和孤立點
- 不一致:編碼或名字存在差異
- 數據類型
- 非平衡數據
三、數據清理
填充缺失值、識別/去除離散點、光滑噪音、糾正數據中的不一致
如何處理缺失數據?
如何處理噪音數據
局部離群因子LOF:LOF越接近于1,說明A的其領域點密度差不多,A可能和領域屬于同一簇;如果這個比值約小于1,說明A的密度高于其領域點的密度,A為密集點;如果這個比值約大于1,說明A的密度小于其領域點,A越可能是異常點。
四、數據集成
合并多個數據源中的數據
五、數據規約
獲得數據的一個規約表示,規模比原來小、但接近原數據的完整性,使得得到幾乎相同的分析結果。
- 數據立方體聚集
- 維度規約——去除不重要的屬性
主成分分析PCA:將一組N維向量降為K維,其目標是選擇K給單位正交基,使原始數據變換到這組基后,各字段兩兩協方差為0,而字段的方程則盡可能大。
步驟: - 設有m條n維數據,按列組成n行m列矩陣X
- 將X的每一行進行零均值化,即減去這一行的均值
- 求出協方差矩陣C=X(X^T)/m
- 求出協方差矩陣的特征值及對應特征向量
- 將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P
- Y=PX即為降維后的向量
- 數據壓縮
- 數值規約
- 離散化和產生概念分層
總結
以上是生活随笔為你收集整理的机器学习与数据挖掘——第二章 数据与数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用python获取焦点窗口的进程名称
- 下一篇: 软件体系结构知识点整理