数据挖掘学习路线【转知乎某人的观点】
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘学习路线【转知乎某人的观点】
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
---------------------------濃縮精華版--------------------------------
第一步:數據準備:(70%時間)
獲取數據(爬蟲,數據倉庫)
驗證數據
數據清理(缺失值、孤立點、垃圾信息、規范化、重復記錄、特殊值、合并數據集)
使用python進行文件讀取csv或者txt便于操作數據文件(I/O和文件串的處理,逗號分隔)
抽樣(大數據時。關鍵是隨機)
存儲和歸檔
第二步:數據觀察(發現規律和隱藏的關聯)
單一變量:點圖、抖動圖;直方圖、核密度估計;累計分布函數
兩個變量:散點圖、LOESS平滑、殘差分析、對數圖、傾斜
多個變量:假色圖、馬賽克圖、平行左邊圖
第三步:數據建模
推算和估算(均衡可行性和成本消耗)
縮放參數模型(縮放維度優化問題)
建立概率模型(二項、高斯、冪律、幾何、泊松分布與已知模型對比)
第四步:數據挖掘
選擇合適的機器學習算法(蒙特卡洛模擬,相似度計算,主成分分析)
大數據考慮用Map/Reduce
得出結論,繪制最后圖表
循環到第二步到第四步,進行數據分析,根據圖表得出結論完成文章。
第一步:數據準備:(70%時間)
獲取數據(爬蟲,數據倉庫)
驗證數據
數據清理(缺失值、孤立點、垃圾信息、規范化、重復記錄、特殊值、合并數據集)
使用python進行文件讀取csv或者txt便于操作數據文件(I/O和文件串的處理,逗號分隔)
抽樣(大數據時。關鍵是隨機)
存儲和歸檔
第二步:數據觀察(發現規律和隱藏的關聯)
單一變量:點圖、抖動圖;直方圖、核密度估計;累計分布函數
兩個變量:散點圖、LOESS平滑、殘差分析、對數圖、傾斜
多個變量:假色圖、馬賽克圖、平行左邊圖
第三步:數據建模
推算和估算(均衡可行性和成本消耗)
縮放參數模型(縮放維度優化問題)
建立概率模型(二項、高斯、冪律、幾何、泊松分布與已知模型對比)
第四步:數據挖掘
選擇合適的機器學習算法(蒙特卡洛模擬,相似度計算,主成分分析)
大數據考慮用Map/Reduce
得出結論,繪制最后圖表
循環到第二步到第四步,進行數據分析,根據圖表得出結論完成文章。
總結
以上是生活随笔為你收集整理的数据挖掘学习路线【转知乎某人的观点】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android 获取设备的mac地址,A
- 下一篇: 热烈欢迎中国照明网总经理丁云高一行莅临新