统计模型 | 学习笔记
一.概述
任何統(tǒng)計(jì)模型都是對(duì)現(xiàn)實(shí)世界復(fù)雜聯(lián)系的簡(jiǎn)化
根據(jù)目的分類(lèi)
聚類(lèi)方法(細(xì)分類(lèi)模型):市場(chǎng)細(xì)分,協(xié)同推薦
預(yù)測(cè)方法:回歸模型,時(shí)間序列模型
關(guān)聯(lián)歸納方法:購(gòu)物籃分析,序列分析
根據(jù)方法原理分類(lèi)
基于傳統(tǒng)統(tǒng)計(jì)模型的推斷性方法:在抽樣理論的支持下,首先假定預(yù)測(cè)變量和影響因素間呈現(xiàn)某種公式化的聯(lián)系,然后采用假設(shè)檢驗(yàn)的方法來(lái)驗(yàn)證相應(yīng)的假設(shè)是否成立,并給出相應(yīng)的參數(shù)估計(jì)值
基本機(jī)器識(shí)別技術(shù)的自動(dòng)化方法:也被稱(chēng)為非推斷性方法,沒(méi)有什么前提假設(shè),就是從數(shù)據(jù)中尋找關(guān)聯(lián),然后采用驗(yàn)證數(shù)據(jù)集對(duì)找到的關(guān)聯(lián)加以驗(yàn)證
損失函數(shù):用于衡量模型的信息損失或者預(yù)測(cè)錯(cuò)誤程度的函數(shù)
模型擬合的最終目標(biāo)是使得損失函數(shù)達(dá)到最小值
分類(lèi):錯(cuò)分比例(及其所導(dǎo)致的損失)
? ? ? ? ? ?分類(lèi)預(yù)測(cè)正確率
? ? ? ? ? ?熵
連續(xù):殘差所代表的信息量的綜合(及其所導(dǎo)致的損失)
? ? ? ? ? ?最小二乘法的殘差平方和
? ? ? ? ? ?離均差絕對(duì)值之和(最小一乘法)
凸函數(shù):局部最小值即全局最小值
非凸函數(shù):存在多個(gè)局部最小值/局部最優(yōu)解
顯然,凸函數(shù)在求解極值時(shí)容易很多
正則化:控制模型復(fù)雜度
模型應(yīng)該復(fù)雜到什么程度才合適?在理想的損失函數(shù)的基礎(chǔ)上增加一個(gè)懲罰項(xiàng),用于表達(dá)模型復(fù)雜程度所帶來(lái)的影響,以避免模型為了追求精確性而過(guò)于復(fù)雜
原損失函數(shù) = 模型精確性衡量指標(biāo)
新?lián)p失函數(shù) = 模型精確性衡量指標(biāo) + 模型復(fù)雜度衡量指標(biāo)
新?lián)p失函數(shù) = 模型精確性衡量指標(biāo) + landa * 模型復(fù)雜度衡量指標(biāo)
一個(gè)東西,三個(gè)名稱(chēng):正則化(機(jī)器學(xué)習(xí)),模型懲罰項(xiàng)(統(tǒng)計(jì)學(xué)),范數(shù)(數(shù)學(xué))
基本作用:保證模型盡可能簡(jiǎn)單,避免參數(shù)過(guò)多導(dǎo)致過(guò)擬合
? ? ? ? ? ? ? ? ? 約束模型特性,加入一些先驗(yàn)知識(shí),例如稀疏,低秩等
正則化函數(shù)一般是模型復(fù)雜度的單調(diào)遞增函數(shù):模型越復(fù)雜,代價(jià)越大
L0正則化:復(fù)雜度指標(biāo)為模型中非零參數(shù)的個(gè)數(shù),容易理解,但數(shù)學(xué)上很難求解
L1正則化:模型中各個(gè)參數(shù)絕對(duì)值(加權(quán))之和,幾何學(xué)上的曼哈頓距離,主要用于特征選擇/篩選變量(實(shí)例:lasso回歸)
L2正則化:為模型各個(gè)參數(shù)平方(加權(quán))之和(的開(kāi)方),幾何學(xué)上的歐幾里得距離,主要用于防止過(guò)擬合(實(shí)例:嶺回歸)
二.回歸
希望描述某個(gè)群體的月收入狀況,該如何給出相應(yīng)的信息?
除了給出平均水平以外,還應(yīng)當(dāng)給出離散程度
均數(shù):能夠表示集中趨勢(shì)
標(biāo)準(zhǔn)差:能夠表示離散趨勢(shì)
單因變量回歸類(lèi)模型的基本框架
三.線(xiàn)性回歸
研究一個(gè)連續(xù)性變量(因變量)的取值隨著其它變量(自變量)的數(shù)值變化而變化的趨勢(shì)
通過(guò)回歸方程解釋兩變量之間的關(guān)系顯得更為精確,可以計(jì)算出自變量改變一個(gè)單位時(shí)因變量平均改變的單位數(shù)量,這是相關(guān)分析無(wú)法做到的
除了描述兩變量的關(guān)系以外,通過(guò)回歸方程還可以進(jìn)行預(yù)測(cè)和控制,這在實(shí)際工作中尤為重要
線(xiàn)性回歸假定自變量對(duì)因變量的影響強(qiáng)度始終保持不變
常用指標(biāo)
決定系數(shù):模型整體價(jià)值的衡量指標(biāo)
? ? ? ? ? ? ? ? ? 相應(yīng)的相關(guān)系數(shù)的平方
? ? ? ? ? ? ? ? ? 反映因變量的全部變異中能夠通過(guò)回歸關(guān)系被自變量解釋的比例
偏回歸系數(shù):反映某一個(gè)自變量在數(shù)量上對(duì)因變量的影響強(qiáng)度
? ? ? ? ? ? ? ? ? ? ? 相應(yīng)的自變量上升一個(gè)單位時(shí),因變量取值的變動(dòng)情況
標(biāo)化偏回歸系數(shù):量綱問(wèn)題
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?用于自變量間重要性的比較
四.分類(lèi)
五.聚類(lèi)?
按照個(gè)體(案例或者變量)的特征將它們分類(lèi),使同一類(lèi)別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性,而類(lèi)別之間則具有盡可能高的異質(zhì)性,隨后總結(jié)每一類(lèi)的基本特征,從而更清晰地了解問(wèn)題的實(shí)質(zhì)
無(wú)因變量,無(wú)監(jiān)督學(xué)習(xí)方法
聚類(lèi)分析前所有個(gè)體所屬的類(lèi)別是未知的,類(lèi)別個(gè)數(shù)一般也是未知的,分析的依據(jù)就是原始數(shù)據(jù)。可能事先沒(méi)有任何有關(guān)類(lèi)別的信息可參考,當(dāng)然如果有的話(huà)更好
本質(zhì)是一種統(tǒng)計(jì)描述方法,或者說(shuō)是一種建立假設(shè)而不是驗(yàn)證假設(shè)的方法
往往被作為一個(gè)中間步驟
基本原理
為了得到比較合理的分類(lèi),首先要采用適當(dāng)?shù)闹笜?biāo)來(lái)定量地描述研究對(duì)象之間的聯(lián)系的緊密程度
直觀(guān)的理解為按空間距離的遠(yuǎn)近來(lái)劃分類(lèi)別
假定研究對(duì)象均用自變量所構(gòu)成的高維空間中的點(diǎn)來(lái)表示
在聚類(lèi)分析中,一般的規(guī)則是將距離較小的點(diǎn)歸為同一類(lèi),將距離較大的點(diǎn)歸為不同的類(lèi)
常見(jiàn)的是對(duì)個(gè)體分類(lèi),也可以對(duì)變量分類(lèi),此時(shí)一般使用相似系數(shù)作為距離測(cè)量指標(biāo)
常見(jiàn)分類(lèi)
①劃分聚類(lèi):K-Means
將數(shù)據(jù)集分割為k個(gè)部分,然后基于統(tǒng)計(jì)指標(biāo)進(jìn)行優(yōu)化調(diào)整
計(jì)算速度相對(duì)比較快
適用于中小規(guī)模的數(shù)據(jù)庫(kù)中的球狀類(lèi)別
②層次聚類(lèi):BIRCH
依次將數(shù)據(jù)點(diǎn)合并入同一類(lèi)別,結(jié)果由不同層次的聚類(lèi)結(jié)果組成
聚類(lèi)結(jié)果較豐富,不同層次的結(jié)果間有嵌套的關(guān)系
計(jì)算量相對(duì)較大
③基于密度:DBSCAN
只要一個(gè)區(qū)域中的點(diǎn)的密度大過(guò)某個(gè)閾值,就應(yīng)當(dāng)被歸入同一類(lèi)中
擅長(zhǎng)發(fā)現(xiàn)各種特殊形狀的類(lèi)
計(jì)算量較大
④基于網(wǎng)格:STING
首先將數(shù)據(jù)空間劃分成為有限個(gè)單元的網(wǎng)格結(jié)構(gòu),然后基于單元格進(jìn)行聚類(lèi)
處理速度很快
⑤基于模型:SOM,高斯混合模型
六.主成分分析
只是一種中間手段,其背景是研究中經(jīng)常會(huì)遇到多指標(biāo)的問(wèn)題,這些指標(biāo)間往往存在一定的相關(guān),直接納入分析不僅復(fù)雜,變量間難以取舍,而且可能因多重共線(xiàn)性而無(wú)法得出正確結(jié)論
主成分分析的目的就是通過(guò)線(xiàn)性變換,將原來(lái)的多個(gè)指標(biāo)組合成相互獨(dú)立的少數(shù)幾個(gè)能充分反映總體信息的指標(biāo),便于進(jìn)一步分析,盡可能保留原始變量的信息,且彼此不相關(guān)
主成分的提取
提取出的每個(gè)主成分都是原來(lái)多個(gè)指標(biāo)的線(xiàn)性組合
原則上如果有n個(gè)變量,則最多可以提取出n個(gè)主成分,但將它們?nèi)刻崛〕鰜?lái)就失去了該方法簡(jiǎn)化數(shù)據(jù)的實(shí)際意義(往往提取出前2~3個(gè)主成分已包含了90%以上的信息,其他可以忽略不計(jì))
提取出的主成分包含主要信息即可,不一定非要有準(zhǔn)確的實(shí)際含義
用途
主成分評(píng)價(jià):當(dāng)進(jìn)行多指標(biāo)的綜合評(píng)價(jià)時(shí),用主成分分析將多指標(biāo)中的信息集中為若干個(gè)主成分,然后加權(quán)求和,得到綜合評(píng)價(jià)指數(shù)
主成分回歸:通過(guò)存在共線(xiàn)性的自變量進(jìn)行主成分分析,從而在提取多數(shù)信息的同時(shí)解決共線(xiàn)性問(wèn)題
python實(shí)現(xiàn)
#主成分分析 #用協(xié)方差陣而不是相關(guān)系數(shù)陣進(jìn)行提取 sklearn.decomposition.PCA()#因子分析 #方法太簡(jiǎn)單,不能進(jìn)行因子旋轉(zhuǎn) sklearn.decomposition.FactorAnalysis()解決變量間多重共線(xiàn)性
新變量集能夠更有利于簡(jiǎn)化和解釋問(wèn)題
有太多的變量,希望能夠消減變量,用一個(gè)新的,更小的由原始變量集組合成的新變量集作進(jìn)一步分析
探討變量?jī)?nèi)在聯(lián)系和結(jié)構(gòu)
觀(guān)測(cè)變量之間存在相互依賴(lài)關(guān)系
這反映的實(shí)際上是變量間的內(nèi)在關(guān)聯(lián)結(jié)構(gòu)?
總結(jié)
以上是生活随笔為你收集整理的统计模型 | 学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: win10资源管理器崩溃导致黑屏
- 下一篇: 自动生成excel中sheet目录导航