决定系数R2真的可靠吗?
目錄
1. R2
2. 是否可以通過比較R方大小,來證明“加入某個變量有利于提高模型的擬合程度”?
3. 調整后的R2
4. R方不能支持模型的哪些假設?
5. R2和調整后的R2調用方法
???????
1. R2
1) 含義:
反應回歸模型擬合數據的優良程度
2)分析
- 實際信息:點的實際值 減去 均值 認為是 這個點的實際信息(藍色條),可以拆分成下面兩部分
- 誤差信息:實際值減線上的點的值,這是未擬合出來的信息(黃色條)
- 擬合出的信息:擬合出來的線上的點 減 均值 (紅色條)
對于一個模型來說:誤差信息越短,擬合出的信息越長,擬合效果越好。
?擬合優度涉及的三個指標: SST, SSE, SSR
1.?SST:總體平方和,它的大小描述了數據集中的數的分散程度
2.?SSE:殘差平方和?
3.?SSR:回歸平方和,擬合數據的分散情況
R方的范圍是。
2. 是否可以通過比較R方大小,來證明“加入某個變量有利于提高模型的擬合程度”?
在大多數模型中(包括線性模型),加入某個自變量之后,R方保持不變或增加,即使該變量對因變量的相關性或者預測能力很差。直觀理解是,模型可能對數據過度擬合,出現了虛假的模型改進。因此,以R方增加來判斷新加入變量對模型的貢獻,不合適。
為了解決這個問題,可以用adjusted R squared。這個指標同時考慮了R方和變量個數,如果新加入變量的貢獻小于已有變量的“平均貢獻”,則adjusted R squared會隨著變量加入而減小。
3. 調整后的R2
在樣本容量一定的情況下,增加解釋變量必定使得自由度減少
目的:在模型的復雜程度和衡量模型的優良程度上取一個平衡
讓模型趨于簡單(模型復雜之后 會使預測受到一定限制:過擬合)
所以注意!多元統計要用調整后的R2來衡量
具體操作:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個數對擬合優度的影響
或者寫成:
n是樣本的個數,p是變量的個數
4. R方不能支持模型的哪些假設?
R方并不能用于說明以下的假設是否成立[2]
因此,如果你在定量研究中得到了很高的R方,恭喜你得到了不錯的結果,但這并不是研究的最終目的。為了說明模型的可用性,需要從其他方面進行討論和驗證。很多時候,畫出預測值 vs. 真實值的散點圖,可以提供直觀的判斷。
5. R2和調整后的R2調用方法
from sklearn.metrics import r2_score#R square R2:r2_score(y_test,y_predict) Adjusted_R2::1-((1-r2_score(y_test,y_predict))*(n-1))/(n-p-1)參考資料:
【1】統計知識 | 決定系數 R方、調整后的R方、F值 - 機器快點學習 - 博客園 (cnblogs.com)
【2】Wikipedia entry on the Coefficient of determination?https://en.wikipedia.org/wiki/Coefficient_of_determination?
總結
以上是生活随笔為你收集整理的决定系数R2真的可靠吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计学相关问答
- 下一篇: 【强烈推荐】最好理解的LSTM与GRU教