数据挖掘知识清单
數據挖掘的基本流程
數據挖掘的六個步驟分析:
1.商業理解:數據挖掘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我們要從商業的角度理解項目需求,在這個基礎上,再對數據挖掘的目標進行定義。2.數據理解:嘗試收集部分數據,然后對數據進行探索,包括數據描述、數據質量驗證等。這有助于你對收集的數據有個初步的認知。3.數據準備:開始收集數據,并對數據進行清洗、數據集成等操作,完成數據挖掘前的準備工作。4.模型建立:選擇和應用各種數據挖掘模型,并進行優化,以便得到更好的分類結果。5.模型評估:對模型進行評價,并檢查構建模型的每個步驟,確認模型是否實現了預定的商業目標。6.上線發布:模型的作用是從數據中找到金礦,也就是我們所說的“知識”,獲得的知識需要轉化成用戶可以使用的方式,呈現的形式可以是一份報告,也可以是實現一個比較復雜的、可重復的數據挖掘過程。數據挖掘結果如果是日常運營的一部分,那么后續的監控和維護就會變得重要。數據挖掘的十大算法
歸類為4類算法
分類算法:c4.5、樸素貝葉斯算法、SVM、KNN、Adaboost、CART聚類算法:K-Means、EM關系分析:Apriori連接分析:PageRank1. C4.5C4.5 算法是得票最高的算法,可以說是十大算法之首。C4.5 是決策樹的算法,它創造性地在決策樹構造過程中就進行了剪枝,并且可以處理連續的屬性,也能對不完整的數據進行處理。它可以說是決策樹分類中,具有里程碑式意總結
- 上一篇: 十六、去年写的pandas使用方法梳理,
- 下一篇: 狗舔蚊子叮的位置要打疫苗吗?索赔点么划定