构造matlab决策树分类器,Matlab建立逻辑回归,决策树,SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线...
?
盡管對于較高的閾值,SVM可以產生更好的ROC值,但邏輯回歸通常更擅長區分不良雷達收益與良好雷達。樸素貝葉斯的ROC曲線通常低于其他兩個ROC曲線,這表明樣本內性能比其他兩個分類器方法差。
比較所有三個分類器的曲線下面積。
R
1
2
3
4
5
6
AUClog
AUClog=0.9659
AUCsvm
AUCsvm=0.9489
AUCnb
AUCnb=0.9393
Logistic回歸的AUC度量最高,而樸素的貝葉斯則最低。該結果表明,邏輯回歸對此樣本數據具有更好的樣本內平均性能。
確定自定義內核功能的參數值
本示例說明如何使用ROC曲線為分類器中的自定義內核函數確定更好的參數值。
在單位圓內生成隨機的一組點。
定義預測變量。將第一象限和第三象限中的點標記為屬于正類別,而將第二象限和第二象限中的點標記為負類。
R
1
2
3
pred=[X1;X2];
resp=ones(4*n,1);
resp(2*n+1:end)=-1;%Labels
創建函數mysigmoid.m?,該函數 接受要素空間中的兩個矩陣作為輸入,并使用S形內核將其轉換為Gram矩陣。
使用Sigmoid內核函數訓練SVM分類器。使用標準化數據。
設置? gamma = 0.5?,使用調整后的S形核訓練SVM分類器。
R
1
2
3
4
SVMModel2=fitPosterior(SVMModel2);
[~,scores2]=resubPredict(SVMModel2);
計算兩個模型的ROC曲線和曲線下面積(AUC)。
繪制ROC曲線。
R
1
2
3
4
5
6
plot(x1,y1)
holdon
plot(x2,y2)
holdoff
title('ROC for classification by SVM');
?
將gamma參數設置為0.5的內核函數可提供更好的樣本內結果。
比較AUC度量。
R
1
2
3
4
5
6
7
8
9
10
auc1
auc2
auc1=
0.9518
auc2=
0.9985
伽瑪設置為0.5時曲線下的面積大于伽瑪設置為1時曲線下的面積。這也證實了伽瑪參數值為0.5會產生更好的結果。為了直觀比較這兩個伽瑪參數值的分類性能。
繪制分類樹的ROC曲線
加載樣本數據。
R
1
loadfisheriris
列向量? species由三種不同物種的鳶尾花組成。雙矩陣? meas?包含對花朵的四種測量類型:萼片長度,萼片寬度,花瓣長度和花瓣寬度。所有度量單位均為厘米。
使用萼片的長度和寬度作為預測變量訓練分類樹。
根據樹預測物種的分類標簽和分數?。
R
1
[~,score]=resubPredict(Model);
分數是觀察值(數據矩陣中的一行)所屬類別的后驗概率。列? score?對應于所指定的類? 'ClassNames'。
由于這是一個多類問題,因此不能僅將其? score(:,2)?作為輸入。這樣做將無法提供? perfcurve?有關兩個陰性類別(setosa和virginica)分數的足夠信息。此問題與二元分類問題不同,在二元分類問題中,知道一個類別的分數就足以確定另一個類別的分數。因此,必須提供? perfcurve?將兩個否定類的得分納入考慮范圍的函數。一種函數是score(:,2)-max(score(:,1),score(:,3))。
X,默認為假陽性率,??Y,默認為真陽性率(召回率或敏感性)。正類標簽為? versicolor。由于未定義否定類別,因此? perfcurve?假設不屬于肯定類別的觀測值屬于一個類別。該函數將其接受為否定類。
R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
suby=12×2
00
0.18000.1800
0.48000.4800
0.58000.5800
0.62000.6200
0.80000.8000
0.88000.8800
0.92000.9200
0.96000.9600
0.98000.9800
?
subnames=1x2cell
{'setosa'}{'virginica'}
在ROC曲線上繪制ROC曲線和最佳工作點。
?
找到與最佳工作點相對應的閾值。
R
1
2
T((X==OPTROCPT(1))&(Y==OPTROCPT(2)))
ans=0.2857
指定? virginica?為否定類,并計算和繪制ROC曲線? versicolor。
同樣,必須提供? perfcurve?將否定類分數納入考量的函數。要使用的函數的一個示例是score(:,2)-score(:,3)。
?
計算ROC曲線的逐點置信區間
加載樣本數據。
R
1
loadfisheriris
僅將前兩個變量用作預測變量,來定義二元問題。
R
1
pred=meas(51:end,1:2);
定義二進制因變量。
R
1
resp=(1:100)'>50;%Versicolor=0,virginica=1
擬合邏輯回歸模型。
通過垂直平均(VA)和使用bootstrap進行采樣,計算真實正率(TPR)上的逐點置信區間。
'NBoot',1000?將引導樣本的數量設置為1000。? 'XVals','All'?提示? perfcurve?返回? X,? Y和? T?所有分數的Y?值,并X?使用垂直平均將所有值的值(真陽性率)? 平均? (假陽性率)。?默認情況下將使用閾值平均來計算置信范圍。
繪制逐點置信區間。
R
1
2
errorbar(X,Y(:,1),Y(:,1)-Y(:,2),Y(:,3)-Y(:,1));
?
不一定總是可以控制誤報率(FPR,X?此示例中的? 值)。因此,可能希望通過閾值平均來計算真實正利率(TPR)的逐點置信區間。
繪制置信區間。
R
1
2
3
figure()
errorbar(X1(:,1),Y1(:,1),Y1(:,1)-Y1(:,2),Y1(:,3)-Y1(:,1));
?
指定閾值計算ROC曲線。然后繪制曲線。
R
1
2
3
4
figure()
errorbar(X1(:,1),Y1(:,1),Y1(:,1)-Y1(:,2),Y1(:,3)-Y1(:,1));
?
總結
以上是生活随笔為你收集整理的构造matlab决策树分类器,Matlab建立逻辑回归,决策树,SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SU-100反坦克歼击车
- 下一篇: oracle解除表锁死1,解除Oracl