(六)数据精简之(数据记录精简)
數據精簡之數據記錄精簡方法
1.數據記錄精簡的需求
? 隨著數據表中的數據記錄愈來愈多,有兩個問題會浮現出來
? 整個數據挖掘所需的時間將跟著拉長
? 所有統計的方法通通失效
2.數據記錄精簡對所獲得的知識影響
? 求得之知識可能多少有些誤差
? 然而當數據集合中存在無關、偏差的數據記錄時,將數據記錄作適當的精簡,將能獲得更準確有效的知識
3.數據記錄精簡常用方法
(1)統計方法中抽樣(Sampling)的作法
? 數據集合中抽取部分的數據記錄樣本來代表整個數據集合母體
? 隨機抽樣(Random Sampling):有放回,無放回。
? 分層抽樣(Stratified Sampling):針對數據集合中同構型高且互不重迭的分層,各自進行隨機抽樣。將各分層的抽樣結果結合成一個樣本。
? 聚類抽樣(Cluster Sampling):利用聚類技術,將整個數據集合分成數個群集,使得每個群集中的記錄相似度很高,不同群集間的記錄相似度很低隨機由這些群集中選取數個群集形成樣本。
? 系統抽樣(Systematic Sampling):假設數據集合中的數據記錄筆數為N,而所需之樣本數據記錄筆數為n,則系統抽樣的方式首先隨機由1~N/n之間選取一個數字;假設所選取的數字為k,以k開始,每N/n個間隔 (interval),將相對應的數據記錄選取進樣本之中。
? 兩階段式抽樣(Two-Phase Sampling)
進行兩個階段的抽樣選取以決定樣本
? 第一階段首先由數據集合中隨機抽樣出一個較大的樣本,接著將第一階段中所得到的樣本當成數據集合,進行第二階段的抽樣
? 兩階段式抽樣可以延伸成多階段式抽樣(Multi-Phase Sampling)
總結
以上是生活随笔為你收集整理的(六)数据精简之(数据记录精简)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于交友的名言警句大全242个
- 下一篇: 生日倒计时