【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘
生活随笔
收集整理的這篇文章主要介紹了
【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 數據預處理任務
- 數據集成
- 數據變換
- 數據清洗
- 數據規約
- 主要處理函數
數據預處理任務
數據集成
數據挖掘需要的數據往往分布在不同的數據源中,數據集成就是將多個數據源合并存放在一個一致的數據存儲(如數據倉庫)中的過程。在數據集成時,來自多個數據源的現實世界實體的表達形式是不一樣的,不一定是匹配的,要考慮實體識別問題和屬性是不一的,不一定是匹配的,要考慮實體識別問題和屬性冗余問題,從而把源數據在最低層上加以轉換、提煉和集成。
- 實體識別:解決單位問題
- 屬性冗余問題:對于冗余屬性要先分析檢測到后再將其刪除。 有些冗余屬性可以用相關分析檢測到。給定兩個數值型的屬性A和B,有些冗余屬性可以用相關分析檢測到。給定兩個數值型的屬性A和B,根據其屬性值,可以用相關系數度量一個屬性在多大程度上蘊含另一個屬性。
數據變換
-
簡單函數變換
使得數據保持正態分布所以對數據進行簡單的函數變換。
x2x^2x2可將左偏數據將其變為正太分布
logxlogxlogx可將右偏數據將其變為正太分布 -
歸一化映射
求梯度時數據差異較大時,導致不收斂狀況,所以對其進行歸一化。分為最小-最大規范化、零-均值規范化、小數定標規范化。
數據清洗
刪除無關數據及異常值,缺失值處理。
缺失值處理
處理缺失值的方法可分為三類:刪除記錄、數據差插補和不處理。其中常用數據插補方法見下表。
| 均值/中位數/眾數插補 | 根據屬性值的類型,用該屬性取值的平均數/中位數/眾數進行插值 |
| 使用固定值 | 將缺失的屬性用一個常量進行替換 |
| 最近臨插補 | 在記錄中找到與缺失樣本最接近的樣本的該屬性進行插補(計算歐幾里得距離) |
| 回歸方法 | 對帶有缺失值的變量,根據已有數據和與其有關的其他變量的數據建立擬合模型來預測缺失的屬性值 |
| 插值法 | 利用已知點建立合適的插值函數,未知值由對應點xix_ixi?求出函數值近似代替 |
- 回歸方法使用繁瑣對于國賽試題不建議使用。
- 拉格朗日插值法。缺點:插值函數與需插值點個數有關,當插值點個數改變的時候,插值函數也需改變,所以較繁瑣。
- 牛頓插值法。
異常值處理方法
| 刪除含有異常值的記錄 | 直接將含有異常值的記錄刪除 |
| 視為缺失值 | 將異常值視為缺失值,利用缺失值處理的方法進行處理 |
| 平均值修正 | 可用前后兩個觀測值的平均值修正該異常值 |
| 不處理 | 直接在具有異常值的數據集上進行挖掘建模 |
異常值發現方法:箱型圖法
畫箱形圖的代碼
數據規約
即產生更小但保持原數據完整性的新數據集,因為在大數據集上進行復雜的數據分析和挖掘往往需要很長的時間。數據規約包括屬性規約、數值規約。
- 屬性規約:主要是通過屬性合并創建新屬性維數,或者直接通過刪除不相關的屬性維數來減少數據維數,從而提高數據挖掘的效率、降低計算成本。屬性規約的目標是尋找出最小的屬性子集并確保新數據子集的概率分布、并盡可能地接近原數據集的概率分布,常用方法有合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析等。
- 數值規約: 通過選擇替代的、較小的數據來減少數據量,包括有參數方和無參數方法,前者指使用一個模型來評估數據,只需存放參數而不需要存放實際數據,無參數方法則需要存放實際數據,如直方圖、聚類、抽樣、參數回歸。
主要處理函數
| interp1() | 一維插值 |
| unique() | 去除重復元素 |
| find() | 找到相應標識的位置 |
| isnan() | 判斷是否為數值 |
| mapminmax() | 最大值最小化的規范化 |
| zscore() | 標準差規范化 |
總結
以上是生活随笔為你收集整理的【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第七章 对话框1 windows程序设计
- 下一篇: 【数据结构实训】校园导游系统