pearson相关系数_Pearson(皮尔逊)相关系数
由于使用的統(tǒng)計(jì)相關(guān)系數(shù)比較頻繁,所以這里就利用幾篇文章簡(jiǎn)單介紹一下這些系數(shù)。
相關(guān)系數(shù):考察兩個(gè)事物(在數(shù)據(jù)里我們稱(chēng)之為變量)之間的相關(guān)程度。
如果有兩個(gè)變量:X、Y,最終計(jì)算出的相關(guān)系數(shù)的含義可以有如下理解:
(1)、當(dāng)相關(guān)系數(shù)為0時(shí),X和Y兩變量無(wú)關(guān)系。
(2)、當(dāng)X的值增大(減小),Y值增大(減小),兩個(gè)變量為正相關(guān),相關(guān)系數(shù)在0.00與1.00之間。
(3)、當(dāng)X的值增大(減小),Y值減小(增大),兩個(gè)變量為負(fù)相關(guān),相關(guān)系數(shù)在-1.00與0.00之間。
相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng),相關(guān)系數(shù)越接近于1或-1,相關(guān)度越強(qiáng),相關(guān)系數(shù)越接近于0,相關(guān)度越弱。
通常情況下通過(guò)以下取值范圍判斷變量的相關(guān)強(qiáng)度:
相關(guān)系數(shù)???0.8-1.0?????極強(qiáng)相關(guān)
???????????????? 0.6-0.8???? 強(qiáng)相關(guān)
???????????????? 0.4-0.6???? 中等程度相關(guān)
???????????????? 0.2-0.4???? 弱相關(guān)
???????????????? 0.0-0.2???? 極弱相關(guān)或無(wú)相關(guān)
皮爾森(pearson)相關(guān)系數(shù)
在這三大相關(guān)系數(shù)中,spearman和kendall屬于等級(jí)相關(guān)系數(shù)亦稱(chēng)為“秩相關(guān)系數(shù)”,是反映等級(jí)相關(guān)程度的統(tǒng)計(jì)分析指標(biāo)。今天暫時(shí)用不到,所以現(xiàn)在只做pearson的相關(guān)研究。
??? 首先放上公式:
???? 公式定義為:?兩個(gè)連續(xù)變量(X,Y)的pearson相關(guān)性系數(shù)(Px,y)等于它們之間的協(xié)方差cov(X,Y)除以它們各自標(biāo)準(zhǔn)差的乘積(σX,σY)。系數(shù)的取值總是在-1.0到1.0之間,接近0的變量被成為無(wú)相關(guān)性,接近1或者-1被稱(chēng)為具有強(qiáng)相關(guān)性。
根據(jù)以上公式,python3實(shí)現(xiàn)代碼:
def pearson(vector1, vector2):
n = len(vector1)
#simple sums
sum1 = sum(float(vector1[i]) for i in range(n))
sum2 = sum(float(vector2[i]) for i in range(n))
#sum up the squares
sum1_pow = sum([pow(v, 2.0) for v in vector1])
sum2_pow = sum([pow(v, 2.0) for v in vector2])
#sum up the products
p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
#分子num,分母den
num = p_sum - (sum1*sum2/n)
den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
if den == 0:
return 0.0
return num/den
現(xiàn)在,用兩個(gè)向量測(cè)試一下:vector1 = [2,7,18,88,157,90,177,570]
vector2 = [3,5,15,90,180, 88,160,580]
運(yùn)行結(jié)果為0.998,可見(jiàn)這兩組數(shù)是高度正相關(guān)的。
此外,從上面的公式我們知道,皮爾森相關(guān)性系數(shù)是協(xié)方差與標(biāo)準(zhǔn)差的比值,所以它對(duì)數(shù)據(jù)是有比較高的要求的:
第一, 實(shí)驗(yàn)數(shù)據(jù)通常假設(shè)是成對(duì)的來(lái)自于正態(tài)分布的總體。為啥通常會(huì)假設(shè)為正態(tài)分布呢?因?yàn)槲覀冊(cè)谇笃柹嚓P(guān)性系數(shù)以后,通常還會(huì)用t檢驗(yàn)之類(lèi)的方法來(lái)進(jìn)行皮爾森相關(guān)性系數(shù)檢驗(yàn),而 t檢驗(yàn)是基于數(shù)據(jù)呈正態(tài)分布的假設(shè)的。
第二, 實(shí)驗(yàn)數(shù)據(jù)之間的差距不能太大,或者說(shuō)皮爾森相關(guān)性系數(shù)受異常值的影響比較大。例如心跳與跑步的例子,萬(wàn)一這個(gè)人的心臟不太好,跑到一定速度后承受不了,突發(fā)心臟病,那這時(shí)候我們會(huì)測(cè)到一個(gè)偏離正常值的心跳(過(guò)快或者過(guò)慢,甚至為0),如果我們把這個(gè)值也放進(jìn)去進(jìn)行相關(guān)性分析,它的存在會(huì)大大干擾計(jì)算的結(jié)果的。
總結(jié)
以上是生活随笔為你收集整理的pearson相关系数_Pearson(皮尔逊)相关系数的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 排列组合思维导图_排列组合——排列数专题
- 下一篇: 《算法图解》——第八章 贪婪算法