数据挖掘方法论与工程化思考
數據挖掘方法論與工程化思考
百家號?08-11?23:41數據挖掘標準流程
CRISP-DM (cross-industry standard process for data mining), 即為"跨行業數據挖掘標準流程"。此KDD過程模型于1999年歐盟機構聯合起草。通過近幾年的發展,CRISP-DM 模型在各種KDD過程模型中占據領先位置,2014年統計表明,采用量達到43%。
通常來說,在各類相關方法論調研中,排在CRISP-DM后面的是SAS SEMMA。SEMMA代表建模的五個步驟,分別是samle,explore,modify,model和assess。SEMMA更偏重于數據挖掘建模過程,與SAS的EM工具進行整合實現,其模型管理部署部分體現在另外的工具套件中。
相比之下,CRISP-DM通用性更強,在大數據背景下的適應性也比較好;基于此我們制定了企業級的數據挖掘管理辦法,源于CRISP-DM方法論并進行針對性細化,對數據挖掘建模的流程機制進行了規范化。其實CRISP-DM和SEMMA并沒有太多的分歧,具體選擇哪項方法跟人員和工具有關。CRISP-DM反映了數據挖掘中的自然迭代規律,在實際工作中可以從其中某一點切入,整體呈現螺旋優化的過程,其對應的六個階段分別如下:
1. 商業理解(business understanding),從商業的角度上面了解項目的要求和最終目的是什么. 并將這些目的與數據挖掘的定義以及結果結合起來.
2. 數據理解(data understanding),開始于數據的收集工作。接下來就是熟悉數據的工作;收集原始數據,對數據進行裝載,描繪數據,并且探索數據特征,進行簡單的特征統計,檢驗數據的質量。
3. 數據準備(data preparation),涵蓋了從原始粗糙數據中構建最終數據集(將作為建模工具的分析對象)的全部工作。
4. 建模(modeling),各種各樣的建模方法將被加以選擇和使用,通過建造,評估模型將其參數將被校準為最為理想的值。
5. 評估(evaluation),在這一階段中已經建立了一個或多個高質量的模型。但在進行最終的模型部署之前,更加徹底的評估模型。回顧在構建模型過程中所執行的每一個步驟,是非常重要的,這樣可以確保這些模型是否達到了企業的目標。是否仍然有一些重要的企業問題還沒有被充分地加以注意和考慮。在這一階段結束之時,有關數據挖掘結果的使用應達成一致的決定。
6. 部署(deployment),即將其發現的結果以及過程組織成為可讀文本形式.模型的創建并不是項目的最終目的。
數據挖掘的工程化
現階段大數據、人工智能技術日新月異,對于我們來說首先要積極探索銀行應用場景。在人工智能領域,現階段業界對于技術和數據的討論比較多,但在傳統行業的應用場景方面其實還差多很多。這其實依賴于整體數據應用水平的提升,伴隨數據挖掘從點到面的工程化鋪開,人工智能的應用場景自然就會孵化出來。
對傳統企業來說,通常數據挖掘領域在若干點上都會有所進展,但在企業層面整體鋪開還有很大的發展空間。企業數字化轉型的過程,其實就是業務從電子化到數字化的過程,智能化模型的應用深度和廣度是一個重要的衡量標準。
數據挖掘在流程機制建立中要實現模型工廠化管理,同時過程中加強知識技能的共享、傳導。模型開發對應的是實驗室機制,數據科學家發揮應有的作用。模型部署則是工廠化概念,需要嚴格的驗證測試過程。模型管理在整體上發揮監督指導作用,負責數據挖掘全生命周期的管理。
驗證測試十步法
模型管理包括的內容很多,模型從開發到部署過程中需要一套嚴格的驗證測試辦法,具體分為十個步驟。這些步驟基本覆蓋從模型開發到模型部署的全過程,適合于數據挖掘工作的監督管理或者第三方評測。分別描述每個步驟的檢查要求,以及具體的步驟方法。
一、原始數據采集
檢查原始數據提取過程(數據倉庫、數據集市、外部數據等),注意查看是否按要求進行數據脫敏,以及是否進行數據質量檢查。
1) 使用提供的數據提取方法,重新進行數據提取;
2) 抽樣檢查字段正確性和完整性;
3) 抽樣查看字段中是否有敏感信息;
4) 統計數據總量及缺失量。
二、數據整合邏輯
檢查數據處理及整合的基本思路,數據處理方法和流程(數據關聯、鏈接)的正確性和完整性,及處理結果的正確性。
1)檢查數據預處理思路和處理方法是否正確;2)檢查數據處理流程(數據關聯、鏈接)和整合過程是否正確且完整;3)抽樣檢查數據處理結果,并與原數據進行對比,或設置檢查點進行中間步驟的檢查;4)結合模型訓練及預測結果,對數據處理邏輯進行完善。
三、特征工程檢查
檢查數據特征加工處理結果的正確性和穩定性。
1)檢查特征提取方法是否正確且可以表達業務含義;2)結合模型訓練及測試結果,完善特征提取邏輯。
四、模型算法及參數選擇
根據業務需求分析算法合理性,對比不同參數模型結果,確定算法及參數選擇的合理性;
1)根據業務需求及數據特點選擇合適算法,使用多種算法進行對比,得到適合業務需求的算法;2)參數選擇同理,對比多種參數選擇結果,選最佳結果參數結果。
五、數據集分配策略
檢查采用交叉驗證方式建立模型過程中數據集拆分策略及模型結果,對比不同分配策略下模型的泛化性。
1)檢查數據集是否滿足生產環境數據應用需求(如時序要求,數據量級限制等);2)檢查交叉驗證過程中,數據集訓練和測試分配策略;3)對比多種分配策略,根據訓練和預測結果,選擇恰當分配比,使得模型有良好的準確性、穩定性和泛化性。
六、模型訓練效率
1)檢查模型建立所使用的工具,及模型建立過程的耗時;
2)檢查模型開發平臺或工具包在訓練過程中的可靠性,以及模型訓練和測試耗時;
3)檢查模型訓練和測試的流程化支持能力。
七、模型評價方案
檢查模型評價方案及評價指標的合理性
1) 使用多種評價指標分析模型訓練效果,針對不同類型模型選擇適當評價指標;
2) 分類模型選擇AUC、Precision、Recall和F1-score;
3) 回歸模型選擇Rmse、r2等;
4) 聚類模型選擇聚合度等。
八、模型結果檢查
檢查模型評價結果的正確性,結果可再現及穩定性;
1)選擇適當的評價指標,由評價指標結果判斷模型結果優劣;2)多次重復建模過程,檢查結果可再現性及穩定性。
九、流程化部署能力
檢查模型部署后,生產環境下數據預測過程的流程化性能,及調度腳本的正確和可維護性;
1) 模型部署后,使用調度腳本控制數據預測的流程化過程;
2) 查看控制腳本的正確性和完整性,以及靈活控制整個流程變化的能力。
十、運行數據加載效率
模型在日常運行過程中,檢查批處理的預測輸入數據采集、加工及預測過程的處理效率;
1)確定數據處理用到的軟硬件運行環境,了解其運算效率;2)進行完整的數據批處理過程(數據采集、加工及預測)并記錄耗時,檢查是否有耗時較長的步驟,并尋求可改進的方法(編碼改進,軟件選擇,設備更改)。
Be the Change
與傳統IT技能有所區別,在數據挖掘領域工作能夠沉淀下來的并不完全是技術,更多的是對數據資產的理解與認知。如何最大化數據資產價值,如何通過數據產品完成價值傳導,這些關鍵問題決定了創新是數據挖掘領域的核心能力。技術日新月異,昨天的知識到了今天可能就是錯誤的,所以需要持續更新知識;先把自己武裝起來,才有機會做些實事。
另外,數據挖掘的工作涉及人員、角色眾多,需要建立良好的協會關系。單打獨斗能做一兩個模型,但是落地應用就需要多方參與,以共贏為基調才有可能推進模型在業務流程中的實際應用。至于數據挖掘建模從點到面的推廣,就需要建立完善的模型試驗室和模型工廠工作機制,也就是要真正實現數據挖掘的工程化。這是目前傳統企業進行數字化轉型過程中需要重點考慮的問題,過程中涉及人員、工具、文化等影響因素。
總結
以上是生活随笔為你收集整理的数据挖掘方法论与工程化思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何通过牛顿方法解决Logistic回归
- 下一篇: AI影响将远超互联网 不在乎与AT市值差