ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)
ML之二分類預測:以巖石水雷數(shù)據(jù)集(RockMine)為例從0到1深入理解科學預測之分類問題的思路框架(特征工程詳細步驟+分類模型設計)
?
?
?
目錄
一、總體思路框架
二、特征工程詳細步驟(特征分析與特征處理)
1、獲取數(shù)據(jù)集,并確定新數(shù)據(jù)集的規(guī)模
2、確定數(shù)據(jù)集每個屬性的類型
3、對數(shù)據(jù)集統(tǒng)計特征
4、利用python工具包輸出
5、對整個數(shù)據(jù)集各個特征(屬性)PCP(平行坐標圖)可視化分析
6、屬性之間關系的關系SP可視化
7、特殊屬性和標簽的關系SP可視化
8、利用皮爾遜相關系數(shù)計算任意兩個特征(屬性)之間相關程度
9、Heat Map熱圖:利用皮爾森相關系數(shù)矩陣,且使用HM可視化變量之間的相關性
三、測試該數(shù)據(jù)集上度量分類器性能
T1、OLS構建分類器
T2、RiR構建分類器+AUC度量分離器性能
?
?
一、總體思路框架
二、特征工程詳細步驟(特征分析與特征處理)
1、獲取數(shù)據(jù)集,并確定新數(shù)據(jù)集的規(guī)模
2、確定數(shù)據(jù)集每個屬性的類型
?
3、對數(shù)據(jù)集統(tǒng)計特征
Mean = 0.053892307692307684 Standard Deviation = 0.04641598322260027Boundaries for 4 Equal Percentiles [0.0058, 0.024375, 0.04405, 0.0645, 0.4264]Boundaries for 10 Equal Percentiles [0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]Unique Label Values {'M', 'R'}Counts for Each Value of Categorical Label ['M', 'R'] [111, 97]4、利用python工具包輸出
(1)、分位圖查找異常點
(2)、輸出頭數(shù)據(jù)和尾數(shù)據(jù)
(3)、輸出統(tǒng)計信息
5、對整個數(shù)據(jù)集各個特征(屬性)PCP(平行坐標圖)可視化分析
6、屬性之間關系的關系SP可視化
7、特殊屬性和標簽的關系SP可視化
8、利用皮爾遜相關系數(shù)計算任意兩個特征(屬性)之間相關程度
(1)、如圖分別計算的是2&3、2&21兩個相關度數(shù)值
分別計算第2&3、2&21個屬性參數(shù)相關度,發(fā)現(xiàn)2&3之間相關度比2&21高!
9、Heat Map熱圖:利用皮爾森相關系數(shù)矩陣,且使用HM可視化變量之間的相關性
三、測試該數(shù)據(jù)集上度量分類器性能
T1、OLS構建分類器
1、輸出結(jié)果
2、ROC、AUC可視化分析
T2、RiR構建分類器+AUC度量分離器性能
?
?
?
總結(jié)
以上是生活随笔為你收集整理的ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Paper:关于人工智能的所有国际顶级学
- 下一篇: CV之IS:计算机视觉中图像分割(语义分