数据挖掘方法和步骤
針對數據挖掘過程中直接與數據相關的部分,SAS公司提出了SEMMA方法論,將數據挖掘的核心過程分為抽樣(Sample)、探索(Explore)、修整(Modify)、建模(Model)、評估(Assess)幾個階段。
1.數據抽樣
數據抽樣就是從數據集中抽取具有代表性的樣本,樣本應該大到不丟失重要的信息,小到能夠便于操作。
2.探索
使用可視化方法或主成分分析、因子分析、聚類等統計方法對數據進行探索性分析,發現未曾預料的趨勢和異常情況,對數據形成初步理解,尋求進一步分析的思路。
3.修整
包括生成和轉換變量、發現異常值、變量選擇等。
4.建模
搜尋能夠可靠地預測因變量的數據組合,具體而言是指采用哪些觀測、使用哪些自變量能夠可靠地預測因變量。
5.評估
評估模型的實用性、可靠性和效果。
6.數據理解和數據準備
在實際數據挖掘項目中,占用時間最多的不是建模階段,而是數據理解和數據準備階段,它們常常要占用整個項目80%以上的時間。經過數據理解和數據準備之后,我們希望得到建模數據集。
大量的時間用于從異構和雜亂無章的各種數據中構造建模數據集;在最極端情況下,大部分的時間都用于從各個數據源收集必要的數據。
總結
 
                            
                        - 上一篇: 互联网日报 | 宝马iX3正式中国首发亮
- 下一篇: 一维黎曼激波管精确解python
