UA MATH571A R语言回归分析实践 一元回归2 NBA球员的工资
UA MATH571A R語言回歸分析實踐 一元回歸2 NBA球員的工資
- 方差分析
- 相關(guān)性分析
上一講完成了解釋NBA球員工資的一個簡單的一元線性回歸模型的估計、分析,展示了一下簡單的預(yù)測,這一講我們的問題是一元線性回歸模型夠好了嗎?上一講做出來的結(jié)果所反映的主要的問題是系數(shù)是顯著不為0的(非常小的p值),但模型的解釋力不高(只有18%多一點的解釋力)。這一講我們希望先驗證一下球員Draft Number和工資之間的負向關(guān)系是不是真的存在,如果真的存在的話,我們希望解釋為什么名次對工資的解釋力會很低,是因為數(shù)據(jù)并非線性關(guān)系還是正態(tài)假設(shè)不成立?
方差分析
首先我們用方差分析看看工資的信息都到哪里去了,對回歸用ANOVA分析我們只需要用R語言的anova函數(shù)輸入模型對象就可以了,
> anova(ureg01.lm) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) X 1 6.0811e+15 6.0811e+15 150.12 < 2.2e-16 *** Residuals 649 2.6290e+16 4.0508e+13 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1我們這個回歸模型解釋變量是X,它占一個自由度,一共651個樣本,也就是650個自由度,所以殘差占649個自由度,這是第一列df告訴我們的信息。第二列是平方和的分解,第一個數(shù)是回歸平方和,第二個數(shù)是殘差平方和,平方和也可以理解成被解釋變量,也就是球員工資的信息,很顯然在這個一元線性回歸中,解釋變量X能解釋的信息比殘差中的信息少一個數(shù)量級,大部分信息模型都解釋不了,都在殘差中了。第三列就是第二列除以對應(yīng)的第一列,是自由度調(diào)整以后的平方和,第四列是F統(tǒng)計量,這個F統(tǒng)計量就是上一講回歸結(jié)果中最后那一行的F統(tǒng)計量,只是ANOVA給出了這個統(tǒng)計量的計算細節(jié),它等于第三列的第一個數(shù)除以第二個數(shù)。最后一列是F統(tǒng)計量的p值。方差分析的結(jié)果是對R方告訴我們的信息,即名次對工資的解釋力不足的更細致的說明。
相關(guān)性分析
相關(guān)性分析與回歸的邏輯不一樣,相關(guān)性分析把兩個變量都看成隨機變量,分析他們的相關(guān)性系數(shù)。
> alpha <- .05 > N <- length(Y) > r12 <- cor(X,Y) > r12 [1] -0.4334236 > t <- r12*sqrt(N-2)/sqrt(1-r12^2) > t [1] -12.25232 > t < -qt(1-alpha/2,N-2) [1] TRUE > p <- pt(t,N-2) > p [1] 1.70131e-31先用PPMCC來分析,第一行定義顯著性水平,r12給出了相關(guān)性系數(shù)的值是-0.4334236,這說明名次和工資之間的確是存在負相關(guān)的,這個相關(guān)性系數(shù)的t統(tǒng)計量是-12.25232,它比5%的顯著性水平要求的判別值更小,并且p值非常的小,說明我們可以拒絕這個t檢驗的原假設(shè),認(rèn)同相關(guān)性系數(shù)是顯著異于0的。但PPMCC有一個缺陷,他需要正態(tài)分布假設(shè),我們尚且對殘差是否是正態(tài)的存疑,這里又用需要正態(tài)假設(shè)的檢驗顯然不太合理。因此一個更好的選擇是Spearman秩相關(guān)檢驗,這個檢驗不需要某種具體的分布形式,所以得出的結(jié)果會比PPMCC更合理。在R語言中,用cor.test,選擇method為spearman就可以做這個檢驗:
> cor.test(X,Y,method = "spearman",exact = F)Spearman's rank correlation rhodata: X and Y S = 72838840, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates:rho -0.5840626S是Spearman秩相關(guān)檢驗的統(tǒng)計量,對應(yīng)的p值是非常小的,所以可以拒絕相關(guān)性為0的原假設(shè),認(rèn)同名次與工資之間存在相關(guān)性,最后一個數(shù)-0.5840626告訴我們他們之間的相關(guān)性為負。這兩個檢驗進一步說明了名次和工資之間是存在相關(guān)性的,之所以模型解釋力不足可能是模型假設(shè)不成立或者模型設(shè)定不合理。
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的UA MATH571A R语言回归分析实践 一元回归2 NBA球员的工资的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH571A R语言回归分析实
- 下一篇: UA MATH571A R语言回归分析实