数学建模-分类模型
分類模型
1. 二分類模型-SPSS實現
1.1數據預處理
定性變量生成定量的虛擬變量
- 步驟:SPSS->轉換->創建虛變量
1.2 使用邏輯回歸進行處理
- 根據原理:兩點分布(伯努利分布)
在給定xxx的情況下,考慮yyy的兩點分布概率:
{P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)\begin{cases} P(y=1|x)=F(x,β)\\ P(y=0|x)=1-F(x,β)\end{cases} {P(y=1∣x)=F(x,β)P(y=0∣x)=1?F(x,β)?
F(x,β)F(x,β)F(x,β)稱為連接函數(link function),它將解釋變量xxx和被解釋變量yyy連接起來
-
步驟:SPSS->分析->回歸->二元Logistic(保存:概率、組成員)
-
預測結果較差怎么辦?(準確率較低)
- 可在logistic回歸模型中加入平方項、交互項
- 選擇變量->轉換->計算變量
- 重新進行二元Logistic,協變量里要把原來的和處理后的變量都加入
- 但容易出現過擬合現象,變量的顯著性變得很高
- 可在logistic回歸模型中加入平方項、交互項
-
如何確定合適的模型?
- 交叉驗證方法:
- 把已知數據分為訓練組和測試組
- 一般設置為8:2
- 利用訓練組的數據來估計出模型,再用測試組的數據來進行測試
- 交叉驗證方法:
1.3 Fisher線性判別分析
LDA(Linear Discriminant Analysis)是一種經典的線性判別方法,又稱Fisher判別分析
給定訓練集樣例,設法將樣例投影到一維的直線上,使得同類樣例的投影點盡可能接近和密集,異類投影點盡可能遠離。
1.3.1SPSS實現方法
-
步驟:分析->分類->判別式->添加分組變量(y)->定義范圍(種類)->添加自變量->統計(費希爾、未標準化)->分類(摘要表)->保存(預判組成員、組成員概率)
-
關注點:未標準化系數(線性系數ω)、分類結果
2.多分類模型
- Fisher判別同樣適用,在SPSS中修改定義范圍即可
- 邏輯回歸方法:多元Logistic回歸
總結
- 上一篇: 惊了!最通俗易懂的Djongo入门竟然在
- 下一篇: Markdown简单上手