2019年上海市数学建模讲座笔记(2)概率统计模型
概率統(tǒng)計(jì)模型講座筆記
概率統(tǒng)計(jì)模型占比例越來越大,大數(shù)據(jù)時(shí)代統(tǒng)計(jì)方面的問題反映在建模中
思考:數(shù)據(jù)的處理,算法時(shí)間復(fù)雜度注意
常用統(tǒng)計(jì)方法
多元統(tǒng)計(jì)分析工具,出鏡率很高
【1】假設(shè)檢驗(yàn)
分為:參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)
【2】方差分析ANOVA
備注:這里原理記錄的比較粗糙,請(qǐng)讀者海涵,因?yàn)檫@些講座本身是讓學(xué)生從整體,從宏觀上進(jìn)行了解,進(jìn)行把握。所以,以下筆記可能有點(diǎn)跳躍,缺少必要的知識(shí)點(diǎn)。
功能:很好反應(yīng)統(tǒng)計(jì)的思想
單因素方差分析 one way ANOVA
問題導(dǎo)出:養(yǎng)雞增重研究:做實(shí)驗(yàn) ,區(qū)分飼料對(duì)雞重量的影響
問題一般化:
現(xiàn)在有三種飼料,實(shí)際問題不止三種,飼料是因素 ,一般化為n種因素 。
下面兩個(gè)假設(shè)
所有的ai等于0,有的飼料好,有的飼料差
為了數(shù)學(xué)處理的方便,需要
第二個(gè)假設(shè):epslo服從正態(tài)分布,為了檢驗(yàn)所需要
老師給的tips:模型需要后面來寫,后面在有眉目的時(shí)候需要不斷比較,給出假設(shè),不是一上來就詳細(xì)地在論文上寫。
假設(shè)檢驗(yàn): H0:所有的ai等于零
特別:平方和分解
統(tǒng)計(jì)思想的角度,特別重要
所有的因素 Ai ,每一行 得到y(tǒng)1.的平均值,手機(jī)里面有照片
平方和分析:
兩個(gè)求和 y平均養(yǎng)的雞的平均重量和 miu不一樣,miu是品種
ST 整齊劃一 值很小,反應(yīng)個(gè)體總差異
是什么造成的呢?
是飼料還是個(gè)體
現(xiàn)在著重飼料
從代數(shù)角度:加一項(xiàng)減一項(xiàng)
(a+b)^2拆分,交叉項(xiàng)等于零
yi.-y平均, 得到是不同種飼料和平均差異
前面是個(gè)體差異
記為 Se 個(gè)體差異 SA 因素造成的差異
這個(gè)方法是平方和分解
任務(wù)是偵測(cè)SA這個(gè)因素是不是顯著,看SA和Se之間占比大小,只有SA比Se相差很大情況下,才有用
除以自由度,平均一下 ,F=MSA/MSe
F越大,越顯著
假設(shè):正態(tài)分布,F就是F分布
如果不是正態(tài)分布,不是F分布
統(tǒng)計(jì)思想有了,下面看競(jìng)賽真題
2012年高教社杯 競(jìng)賽A題 葡萄酒的評(píng)價(jià)
(粗略的講解了一下)
品評(píng)葡萄酒質(zhì)量。
問題:一批酒,兩組品酒師,一組10個(gè)人,分別對(duì)酒打分,葡萄酒好壞也不知道。
第一個(gè)問題:兩組評(píng)價(jià)有無(wú)差異,那一組更可靠
假設(shè)檢驗(yàn)的問題
如果是正態(tài)分布,如果不是正態(tài)總體需要非參數(shù)檢驗(yàn)
檢驗(yàn)出來略有差異,
第二個(gè)問題:哪一組更可靠
答案不一樣,怎么思考這道題呢?
大多數(shù)人考慮方差,波動(dòng)小,同一個(gè)葡萄酒觀點(diǎn)比較接近,就認(rèn)為是好的隊(duì)。其實(shí)不夠
只考慮了一個(gè)方面
用方差分析的思想:評(píng)判員的一致性還要考慮葡萄酒的一致性
分開考慮 比較F比。F比大的,評(píng)委更靠譜一點(diǎn)
以上是關(guān)于賽題的一些討論
【3】回歸分析
掌握:回歸分析
【4】判別分析
美賽出過題,或多或少有很多
人工智能和判別分析有關(guān)
蠓的分類 198幾年競(jìng)賽題
可以分類
用數(shù)據(jù)圖表述
AF 和APF兩種類
橫坐標(biāo):觸角長(zhǎng)度
縱坐標(biāo):翅膀長(zhǎng)度
建立判別準(zhǔn)則,判別不同種類的蠓
第二個(gè)問題,測(cè)量?jī)蓚€(gè)長(zhǎng)度,判斷是哪一個(gè)類型
第三個(gè)問題:如果Apf是益蟲,Af是害蟲,如何對(duì)判別做出修正。
判別分析已經(jīng)完全解決了這類問題
直觀上來講 畫一條線 來分類
判別分析介紹距離判別,貝葉斯判別,fisher判別
現(xiàn)在最流行的貝葉斯判別
(1)貝葉斯統(tǒng)計(jì)思想:本質(zhì)上害蟲看成益蟲 造成的損失和 益蟲看成害蟲造成的損失是不對(duì)等的。 整體上造成的損失最小。思路
(2)fisher觀點(diǎn):降維
直觀畫線,判別分析最大難度不是蠓的分類,因?yàn)橹挥袃蓚€(gè)指標(biāo),難度是指標(biāo)不止兩個(gè),指標(biāo)是n個(gè),出現(xiàn)多維指標(biāo)
空間都沒有感覺,難度在這兒。
提出思路:降維 投影
講一下思想:
降維有技巧,從二維入門,已經(jīng)不需要降維了。從二維分析為講問題方便
一個(gè)方法:坐標(biāo)軸旋轉(zhuǎn),投影到軸上,也可以分的很開
類推,從三維降維到二維,找到一個(gè)方向,一個(gè)角度
思想:
第一個(gè):兩個(gè)指標(biāo):組間距,組內(nèi)距 組間距盡量大,組內(nèi)距盡量小。
很多組,平均值之間的距離越大越好
但是組很多,需要組平均值 組間距:平方和
這個(gè)也是方差分析的思想:剛才的F,組間距和組內(nèi)距
【5】聚類分析
經(jīng)常用
【6】主成分分析
老師提到:出題老師出題的時(shí)候會(huì)考慮,有思路:這道題學(xué)生應(yīng)該怎么做
有的題目和主成分不相干還有人用這種方法來做。
第一:主成分有用,有的可以用,有的不能用。
建模的tips:
模型起作用,需要回答原始問題
寫出幾個(gè)模型,需要寫出模型的優(yōu)缺點(diǎn),說明哪一個(gè)解決什么問題
主成分分析使用:
和fisher 大同小異:降維,減少指標(biāo)的個(gè)數(shù)
舉例美賽的例子
毒品,什么時(shí)候政府干預(yù),有數(shù)據(jù),得出毒品起源地在哪里。
大量的指標(biāo),精煉出來:指標(biāo)精簡(jiǎn)
很多指標(biāo)有內(nèi)在聯(lián)系,找到少數(shù)幾個(gè)指標(biāo)來刻畫這個(gè)問題
指標(biāo)反應(yīng)的內(nèi)容可能共享,構(gòu)建主成分
研究涉及p個(gè)指標(biāo),p維隨機(jī)向量
新的指標(biāo)底系
均值miu
主成分基本原則和關(guān)系:(有四條)
1線性組合
2數(shù)目少
3主成分線性不相關(guān)
4主成分保留絕大多數(shù)信息
利用是spss軟件
問題實(shí)例:
城市指標(biāo)對(duì)城市綜合實(shí)力進(jìn)行評(píng)價(jià),總共17個(gè)指標(biāo)
主成分分析數(shù)據(jù)處理:標(biāo)準(zhǔn)化處理
和線性代數(shù)很有關(guān)
計(jì)算特征方程和特征根
回去好好看這部分內(nèi)容。
統(tǒng)計(jì)的主成分到達(dá)80%就可以
線性組合之前需要去量綱,標(biāo)準(zhǔn)化過程
成分 component 乘上 標(biāo)準(zhǔn)化的比例
得到主成分需要解釋第幾個(gè)主成分是干嘛用的
存在有大小的問題,
第一個(gè)地區(qū)經(jīng)濟(jì)發(fā)展
第二主成分:文化發(fā)展
第三個(gè):粗糙一點(diǎn),農(nóng)村發(fā)展
從這個(gè)例子看主成分的應(yīng)用
得到的各種主成分:信息集中,每個(gè)主成分刻畫的是哪一個(gè)方面的問題。
spss使用:有一個(gè)選項(xiàng),主成分旋轉(zhuǎn),在spss里面有這個(gè),解決的是主成分不明確的問題。
還需要回歸的問題,判別分析等等
和其他搭配起來用。
總結(jié)一下:
這次講座主要講解了概率統(tǒng)計(jì)相關(guān)的模型和知識(shí)。
第一。統(tǒng)計(jì)方法現(xiàn)在在大數(shù)據(jù)時(shí)代是非常重要的。需要多花時(shí)間研究統(tǒng)計(jì)的理論。
第二。這次講座的知識(shí)點(diǎn):假設(shè)檢驗(yàn),方差分析ANOVA(統(tǒng)計(jì)思想很重要,老師特別強(qiáng)調(diào)這個(gè)),回歸分析,判別分析(貝葉斯,fisher),聚類分析,主成分分析等等。其中老師著重講解的是方差分析,判別分析,主成分分析( 但是,老師建議在數(shù)模比賽中少用主成分分析)。
第三。借著這次數(shù)模的比賽好好學(xué)習(xí),系統(tǒng)一下相關(guān)的統(tǒng)計(jì)知識(shí),比賽是途徑,學(xué)習(xí)知識(shí)才是最主要的。但是另外一個(gè)老師講競(jìng)賽的目的就是拿獎(jiǎng),就是證明我比你強(qiáng)。
第四。統(tǒng)計(jì)思想很重要。
最后:以上是筆者2019年參加上海市建模培訓(xùn)的筆記與思考。沒有詳細(xì)地介紹各種方法,只是宏觀上、整體上記錄了一下概率統(tǒng)計(jì)相關(guān)的知識(shí)。希望各位讀者能夠按需求來閱讀,當(dāng)然如果是想學(xué)習(xí)具體的算法,這篇博客可能不適合您。當(dāng)然,如果本篇博客涉嫌侵權(quán),請(qǐng)聯(lián)系刪除。
總結(jié)
以上是生活随笔為你收集整理的2019年上海市数学建模讲座笔记(2)概率统计模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: github入门必备概念
- 下一篇: 理财基金入门基础知识 注意基金的类型