回归模型(背景和原理)
回歸模型是做數據分析,統計建模和機器學習最先接觸的模型,在大學讀書的時候關注的就是計算過程,很多人在學習數學以及在數學基礎上的研究,常常被復雜的公式所影響。有時候需要跳出來,看這些公式的目的,用途等,或許可以了解的更好。我準備從背景、數學原理、機器學習算法、python語言、模型解釋和模型變化等方面來和大家交流回歸模型。
一、回歸模型產生的背景
“回歸”是由英國著名生物學家兼統計學家高爾頓(Francis Galton,1822~1911,生物學家達爾文的表弟)在研究人類遺傳問題時提出來的。為了研究父代與子代身高的關系,高爾頓搜集了1078對父親及其兒子的身高數據。他發現這些數據的散點圖大致呈直線狀態,也就是說,總的趨勢是父親的身高增加時,兒子的身高也傾向于增加。但是,高爾頓對試驗數據進行了深入的分析,發現了一個很有趣的現象—回歸效應。因為當父親高于平均身高時,他們的兒子身高比他更高的概率要小于比他更矮的概率;父親矮于平均身高時,他們的兒子身高比他更矮的概率要小于比他更高的概率。它反映了一個規律,即這兩種身高父親的兒子的身高,有向他們父輩的平均身高回歸的趨勢。對于這個一般結論的解釋是:大自然具有一種約束力,使人類身高的分布相對穩定而不產生兩極分化,這就是所謂的回歸效應。
1855年, 高爾頓發表《遺傳的身高向平均數方向的回歸》一文,他和他的學生卡爾?皮爾遜Karl?Pearson通過觀察1078對夫婦的身高數據,以每對夫婦的平均身高作為自變量,取他們的一個成年兒子的身高作為因變量,分析兒子身高與父母身高之間的關系,發現父母的身高可以預測子女的身高,兩者近乎一條直線。當父母越高或越矮時,子女的身高會比一般兒童高或矮,他將兒子與父母身高的這種現象擬合出一種線形關系,分析出兒子的身高y與父親的身高x大致可歸結為一下關系:
y=33.73+0.516x (單位為英寸)
根據換算公式1英寸=0.0254米, 1米=39.37英寸。單位換算成米后:
Y= 0.8567+0.516X (單位為米);
假如父母輩的平均身高為1.75米,則預測子女的身高為1.7597米。
這種趨勢及回歸方程表明父母身高每增加一個單位時,其成年兒子的身高平均增加0.516個單位。這就是回歸一詞最初在遺傳學上的含義。
有趣的是,通過觀察,高爾頓還注意到,盡管這是一種擬合較好的線形關系,但仍然存在例外現象:矮個父母所生的兒子比其父要高,身材較高的父母所生子女的身高卻回降到多數人的平均身高。換句話說,當父母身高走向極端,子女的身高不會象父母身高那樣極端化,其身高要比父母們的身高更接近平均身高,即有**“回歸”到平均數去的趨勢**,這就是統計學上最初出現“回歸”時的涵義,高爾頓把這一現象叫做“向平均數方向的回歸” (regression toward mediocrity)。雖然這是一種特殊情況,與線形關系擬合的一般規則無關,但“線形回歸”的術語卻因此沿用下來,作為根據一種變量(父母身高)預測另一種變量(子女身高)或多種變量關系的描述方法。
下圖可視為回歸的圖示(基于高斯分布)。
二、回歸的數學原理
1.指數族分布(Exponential Family)
i. 指數族分布的表達式是
從概率密度圖的角度上,概率密度分布圖的形狀與指數函數的圖形有一定的類似,說明了概率密度的分布可以用指數函數框架來表示。
η被稱為分布的自然參數(natural parameter,也稱為規范參數canonical parameter);
T(y)是充分統計量(sufficient statistic),通常情況下有T(y)=y;
a(η)被稱為對數劃分函數log partition function。
很多分布都可以寫成指數族分布。
ii.伯努利分布(Bernoulli distribution)與高斯分布(Gaussian distribution)的指數族分布標準表達式。
伯努利分布(Bernoulli distribution):邏輯回歸的數學假設
p(y=1;?)=?;p(y=0;?)=1??
則
高斯分布(Gaussian distribution):線性回歸的數學假設
令高斯分布N(μ,1),μ為分布的均值,方差對最終θ和h(θ)的選擇沒有影響,設置為1。
則
2. 廣義線性回歸
廣義線性模型是把自變量的線性預測函數當做因變量的預測值,廣義線性模型是基于指數族分布的。
三個前提:
1)
2)給定x,目標函數是T(y)的期望E[T(y)|x],并且通常T(y)=y
3)自然參數η與輸入特征x呈線性相關,即
實數時,
向量時,
總結
以上是生活随笔為你收集整理的回归模型(背景和原理)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 查询 本周 上周,Mysql
- 下一篇: 分散精力