【数据挖掘知识点七】相关与回归分析
相關(guān)與回歸分析
客觀現(xiàn)象之間的數(shù)量聯(lián)系存在兩種不同類型:一種是函數(shù)關(guān)系,另一種是相關(guān)關(guān)系。當一個或幾個變量取一定的值時,另一個變量有確定值與之對應(yīng),這種關(guān)系稱為確定性的函數(shù)關(guān)系,一般把作為影響因素的變量稱為自變量,把發(fā)生對應(yīng)變化的變量稱為因變量。當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。
變量之間的函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的。客觀現(xiàn)象的函數(shù)關(guān)系可以用數(shù)學(xué)分析的方法去研究,而研究客觀現(xiàn)象的相關(guān)關(guān)系必須借助于統(tǒng)計學(xué)中的相關(guān)和回歸分析方法。
客觀現(xiàn)象的相關(guān)關(guān)系,按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)、不相關(guān),按相關(guān)的方向分為正相關(guān)和負相關(guān),按相關(guān)的形式分為線性相關(guān)和非線性相關(guān),按所研究的變量多少分為單相關(guān)、復(fù)相關(guān)、偏相關(guān)。
相關(guān)分析與回歸分析是研究現(xiàn)象之間相關(guān)關(guān)系的兩種基本方法。相關(guān)分析,是用一個指標來表明現(xiàn)象間相互依存的密切程度。回歸分析,是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型,來近似地表達變量間的平均變化關(guān)系。
相關(guān)分析和回歸分析有共同的研究對象,可互相補充,相關(guān)分析依靠回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式;而回歸分析依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度。只有當變量之間存在高度相關(guān)時,進行回歸分析尋求其相關(guān)的具體形式才有意義,基于這個原因,回歸分析和相關(guān)分析也一同合稱為相關(guān)關(guān)系分析。
不過回歸分析和相關(guān)分析在研究目的和方法上還是有區(qū)別的。相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)的程度,但是相關(guān)分析不能指出變量間相關(guān)關(guān)系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況。回歸分析則研究變量之間相互關(guān)系的具體形式,對具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進行測定,從而為估算和預(yù)測提供一個重要方法。因此,相關(guān)分析不必確定變量中那個是自變量,那個是因變量,其所涉及的變量可以都是隨機變量;而回歸分析必須實現(xiàn)研究確定具有相關(guān)關(guān)系的變量中那個為自變量那個為因變量。一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機變量。
相關(guān)圖,或說是散點圖,是研究相關(guān)關(guān)系的直觀工具,一般在進行詳細的定量分析之前,可以先利用它對現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式和密切程度做大致的判斷。
單相關(guān)分析是對兩個變量之間的線性相關(guān)程度進行分析。單相關(guān)分析所采用的尺度為單相關(guān)系數(shù),簡稱相關(guān)系數(shù)。
在實際的客觀現(xiàn)象分析研究中,相關(guān)系數(shù)一般都是利用樣本數(shù)據(jù)計算的,因而帶有一定隨機性。樣本容量越小其可信程度就越差,因此也需要進行檢驗。相關(guān)系數(shù)的顯著性檢驗問題可分為兩類:一是對總體相關(guān)系數(shù)是否等于0進行檢驗;二是對總體相關(guān)系數(shù)是否等于某一個給定的不為0的數(shù)值進行檢驗。
當變量之間存在顯著的相關(guān)關(guān)系時,可以利用一定的數(shù)學(xué)模型對其進行回歸分析。在回歸分析中,最簡單的模型是只有一個因變量和一個自變量的線性回歸模型,即一元線性回歸模型,又稱簡單線性回歸模型。該模型假定因變量Y主要受自變量X的影響,它們之間存在這近似的線性函數(shù)關(guān)系,即有:
回歸模型中的參數(shù)估計出來之后,需進行檢驗。回歸模型的檢驗包括理論意義檢驗、一級檢驗、二級檢驗。一級檢驗也稱為統(tǒng)計學(xué)檢驗,是利用統(tǒng)計學(xué)中抽樣理論來檢驗樣本回歸方程的可靠性,具體可分為擬合程度評價和顯著性檢驗。二級檢驗又稱為經(jīng)濟計量學(xué)檢驗,是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關(guān)檢驗、異方差性檢驗、多重共線性檢驗等。所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。顯著性檢驗包括兩方面,一個是對各回歸系數(shù)的顯著性檢驗,二是對整個回歸方程的顯著性檢驗。
建立回歸模型的重要目的是進行預(yù)測。如果所擬合的樣本回歸方程經(jīng)過檢驗,被認為具有經(jīng)濟意義,同時被證明具有較高的擬合程度,就可以利用其進行預(yù)測。預(yù)測可能存在誤差,主要來自模型本身中的誤差因素、回歸系數(shù)估計值和真值不一致、自變量X的設(shè)定值與實際值的偏離、未來總體回歸系數(shù)發(fā)生變化四個方面。
研究在線性相關(guān)條件下,兩個和兩個以上自變量對一個因變量的數(shù)量變化關(guān)系,稱為多元線性回歸,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴展,基本原理類似,計算復(fù)雜度增大。
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘知识点七】相关与回归分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘知识点六】假设检验
- 下一篇: 泰勒级数的理解