相关分析总结
?
?在數據分析的過程中,我們常常需要分析兩個或兩個以上現象之間的因果關系,一般來說,??紤]下面的幾種分析方法:
相關分析:不需要區分自變量和因變量,兩個或者多個變量之間是平等的關系。通過相關分析可以了解變量之間的密切程度。如:教育事業的發展與科學技術的發展存在著一定的關系,學生的數學成績與物理成績存在著一定的關系,相關分析就是要分析這種密切程度。
回歸分析:區分自變量和因變量,適合于因變量和自變量均為連續變量的情況,建立回歸方程,要找出因變量和自變量之間的具體的相關關系。如“收入”和“產品銷售量”的回歸關系。
方差分析:適用于因變量為連續性變量、 自變量為分類變量的情況,如“收入”對“用戶滿意度”的影響。
本小結著重總結相關分析。
相關類型:
1、直線相關:兩變量呈線性共同增大,或一增一減,要求兩個變量服從聯合的正態分布,若不服從,則要考慮變量變換,或者采用等級相關來分析。
2、曲線相關:兩變量存在相關趨勢,但非線性。此時若進行直線相關,有可能出現無相關性的結論,曲線相關分析是一般都先將變量進行變量變換,以將趨勢變換為直線分析,或者采用曲線回歸方法來分析。
相關的方向
依照兩種變量變動的方向分,有正相關、負相關和無相關(零相關)。
1、正相關:一種變量增加或減少,另一種變量也在增加或減少,兩種變量變動的方向相同,謂之正相關。
2、負相關:一種變量增加或減少,另一種變量也在減少或增加,兩種變量變動的方向相反,謂之負相關。
3、無相關:在兩種變量之間,一種變量變動時,另一種變量毫無變動,即使變動也無一定的規律,如人的相貌與人的思想品德,人的身體高矮與學習成績的好壞等是無什么關系的,這兩種變量的關系謂之無相關或零相關。
相關分析針對的數據類型以及計算相關程度的統計量:
1、兩個連續性變量:
兩個連續變量間呈線性相關時,且兩變量服從聯合正態分布,使用Pearson積差相關系數。若不滿足積差相關分析的適用條件時,使用Spearman秩相關系數來描述。
Spearman相關系數又稱秩相關系數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬于非參數統計方法,適用范圍要廣些。對于服從Pearson相關系數的數據亦可計算Spearman相關系數,但統計效能要低一些。Spearman相關系數的計算公式可以完全套用pearson相關系數計算公式,但公式中的x和y用相應的秩次代替即可。
2、 兩個有序分類變量:
Kendall'stau-b等級相關系數:用于反映分類變量相關性的指標,適用于兩個分類變量均為有序分類的情況。對相關的有序變量進行非參數相關檢驗;
取值范圍在-1-1之間,此檢驗適合于正方形表格;
其他:偏相關分析
適用于在控制其他變量影響的情況下對兩個變量進行相關分析,被分析的兩個變量必須服從正態分布。比如說,一般情況下,體重和身高呈正相關,如果還要考慮胸圍,則在胸圍固定的情況下(取胸圍的平均值,假設獲獎所有個體的胸圍都校正為相同的情況下)再求體重和升高的相關(偏相關),則偏相關呈負值。
?
from:http://www.360doc.com/content/070111/15/11966_326615.html
總結
- 上一篇: 对数学本质特征的若干认识
- 下一篇: 总体参数估计概述