数学建模之倚天剑与屠龙刀
?
https://gitbook.cn/books/5a589d5adf0f795ef280c338/index.html
導(dǎo)言
本Chat基于競(jìng)賽基礎(chǔ)整理,非技術(shù)深度博文!
1.認(rèn)識(shí)數(shù)學(xué)建模
??數(shù)學(xué)建模:從1985年美國(guó)的MCM(Mathematical Contest in Modeling)一直發(fā)展至今。
??亞里士多德說(shuō),“智慧不僅僅存在于知識(shí)之中,而且還存在于應(yīng)用知識(shí)的能力中”。數(shù)學(xué)建模就是對(duì)數(shù)學(xué)知識(shí)最好的應(yīng)用,通過(guò)數(shù)學(xué)建模,你會(huì)發(fā)現(xiàn),生活中很多有意思的事情都可以靠它來(lái)解決,其結(jié)構(gòu)如下:
2.應(yīng)該怎么查找數(shù)據(jù)
??數(shù)據(jù)來(lái)源查找主要有三個(gè)模式:
- 題目來(lái)源數(shù)據(jù)
- 題目來(lái)源數(shù)據(jù)+中外文期刊數(shù)據(jù)庫(kù)(含統(tǒng)計(jì)年鑒)
- 題目來(lái)源數(shù)據(jù)+中外文期刊數(shù)據(jù)庫(kù)(含統(tǒng)計(jì)年鑒)+爬蟲(chóng)數(shù)據(jù)
中外文數(shù)據(jù)庫(kù)
中文:CNKI、VIP、萬(wàn)方
外文:EBSCO、Elserive、ProQuest、Springerlink、EI、ISI Web of Knowledge
統(tǒng)計(jì)年鑒:國(guó)家數(shù)據(jù)、國(guó)家統(tǒng)計(jì)年鑒、各類型統(tǒng)計(jì)數(shù)據(jù)官方網(wǎng)站。
開(kāi)放實(shí)驗(yàn)數(shù)據(jù)源:C Irvine Machine Learning Repository:UCI指的是加州大學(xué)歐文分校。UCI機(jī)器學(xué)習(xí)庫(kù)主要是收集的機(jī)器學(xué)習(xí)領(lǐng)域的一些相關(guān)數(shù)據(jù)集和數(shù)據(jù)生成器,可以用來(lái)做一些基本的實(shí)驗(yàn)。
下圖即可看見(jiàn)非常經(jīng)典的iris數(shù)據(jù)。
3.數(shù)據(jù)預(yù)處理和數(shù)據(jù)異常處理之間有什么區(qū)別
??數(shù)據(jù)預(yù)處理包含數(shù)據(jù)異常處理。數(shù)據(jù)預(yù)處理常常會(huì)包含:數(shù)據(jù)異常處理,數(shù)據(jù)空缺處理,無(wú)效數(shù)據(jù)處理,數(shù)據(jù)分類處理等。常常使用的辦法會(huì)有:剔除數(shù)據(jù)點(diǎn),擬合模擬數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類等。
4.軟件很多、算法很多,到底應(yīng)該如何選擇
this is a 故事:
??某男到醫(yī)院就診,醫(yī)生親切地問(wèn)了一些該男的癥狀,最后得出結(jié)論:“我懷孕了。。。”
??血淋淋的故事告訴我們: 需要一個(gè)好的模型診斷器,根據(jù)病人的一系列癥狀,得出病人患的是什么病。
4.1 軟件方面
??對(duì)于數(shù)學(xué)建模用到最多的軟件有:Matlab、Mathmatic、 Lingo/LinDo、SAS、SPSS。其中前兩個(gè)主要為計(jì)算軟件(也可做優(yōu)化),中間的那個(gè)為優(yōu)化軟件,最后兩個(gè)為統(tǒng)計(jì)分析軟件。由于時(shí)間太緊了,Java、C++之類則在競(jìng)賽中很少用。
個(gè)人推薦:R和Python,從定位角度看,R致力于提供更好的,對(duì)用戶友好的數(shù)據(jù)分析、統(tǒng)計(jì)分析和繪圖模型;而Python則強(qiáng)調(diào)生產(chǎn)效率和代碼的可讀性。
4.2 算法方面
??數(shù)學(xué)建模常常可以劃分成不同的模型需求:比如說(shuō)優(yōu)化模型、微分方程模型、統(tǒng)計(jì)模型、概率模型、圖論模型、決策模型。
??數(shù)學(xué)建模算法中常用的涉及:類比法、二分法、差分法、變分法、圖論法、層次分析法、數(shù)據(jù)擬合法、回歸分析法、數(shù)學(xué)規(guī)劃(線性規(guī)劃,非線性規(guī)劃,整數(shù)規(guī)劃,動(dòng)態(tài)規(guī)劃,目標(biāo)規(guī)劃)、機(jī)理分析、排隊(duì)方法、對(duì)策方法、決策方法、模糊評(píng)判方法、時(shí)間序列方法、灰色理論方法、現(xiàn)代優(yōu)化算法(禁忌搜索算法,模擬退火算法,遺傳算法,神經(jīng)網(wǎng)絡(luò))等。
??其中層次分析法(AHP)是為數(shù)不多的主觀方法,在評(píng)價(jià)模型中經(jīng)常被引用,尤其當(dāng)沒(méi)有模型選擇時(shí),可以考慮使用!
??在優(yōu)化方法中在,決策變量、目標(biāo)函數(shù)(盡量簡(jiǎn)單、光滑)、約束條件、求解方法是四個(gè)關(guān)鍵因素。其中包括無(wú)約束規(guī)則、線性規(guī)則(用 Lingo實(shí)現(xiàn)實(shí)現(xiàn)比較方便)非線性規(guī)則、0-1規(guī)劃,多目標(biāo)規(guī)劃(有目標(biāo)加權(quán)、效用函數(shù))動(dòng)態(tài)規(guī)劃、整數(shù)規(guī)劃,適合軟件(Matlab、 Lingo、R和python)
??回歸分析:對(duì)具有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其關(guān)系形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,用來(lái)近似地表示變量間的平均變化關(guān)系的一種統(tǒng)計(jì)方法 (一元線性回歸、多元線性回歸、非線性回歸),回歸分析在一組數(shù)據(jù)的基礎(chǔ)上研究這樣幾個(gè)問(wèn)題:建立因變量與自變量之間的回歸模型(經(jīng)驗(yàn)公式);對(duì)回歸模型的可信度進(jìn)行檢驗(yàn);判斷每個(gè)自變量對(duì)因變量的影響是否顯著;判斷回歸模型是否適合這組數(shù)據(jù);利用回歸模型對(duì)進(jìn)行預(yù)報(bào)或控制。相對(duì)應(yīng)的有線性回歸、多元二項(xiàng)式回歸、非線性回歸(比較方便的軟件Matlab、Mathmatic、Lingo/LinDo、SAS、SPSS、R和python)。
??逐步回歸分析:從一個(gè)自變量開(kāi)始,視自變量作用的顯著程度,從大到地依次逐個(gè)引入回歸方程:當(dāng)引入的自變量由于后面變量的引入而變得不顯著時(shí),要將其剔除掉;引入一個(gè)自變量或從回歸方程中剔除一個(gè)自變量,為逐步回歸的一步;對(duì)于每一步都要進(jìn)行值檢驗(yàn),以確保每次引入新的顯著性變量前回歸方程中只包含對(duì)作用顯著的變量;這個(gè)過(guò)程反復(fù)進(jìn)行,直至既無(wú)不顯著的變量從回歸方程中剔除,又無(wú)顯著變量可引入回歸方程時(shí)為止(軟件方面SAS、matlab、R和python)。
??時(shí)間序列是按時(shí)間順序排列的、隨時(shí)間變化且相互關(guān)聯(lián)的數(shù)據(jù)序列—通過(guò)對(duì)預(yù)測(cè)目標(biāo)自身時(shí)間序列的處理,來(lái)研究其變化趨勢(shì)(長(zhǎng)期趨勢(shì)變動(dòng)、季節(jié)變動(dòng)、循環(huán)變動(dòng)、不規(guī)則變動(dòng))。
時(shí)間序列建模的基本步驟
?聚類方法聚類方法對(duì)比直通車:
?圖論方法:
1.最短路問(wèn)題:兩個(gè)指定頂點(diǎn)之間的最短路徑—給出了一個(gè)連接若干個(gè)城鎮(zhèn)的鐵路網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)的兩個(gè)指定城鎮(zhèn)間,找一條最短鐵路線 (Dijkstra算法 )每對(duì)頂點(diǎn)之間的最短路徑 (Dijkstra算法、Floyd算法 )。
2.最小生成樹(shù)問(wèn)題:連線問(wèn)題—欲修筑連接多個(gè)城市的鐵路設(shè)計(jì)一個(gè)線路圖,使總造價(jià)最低(prim算法、Kruskal算法 )。
3.圖的匹配問(wèn)題:人員分派問(wèn)題:n個(gè)工作人員去做件n份工作,每人適合做其中一件或幾件,問(wèn)能否每人都有一份適合的工作?如果不能,最多幾人可以有適合的工作?(匈牙利算法)。
4.遍歷性問(wèn)題:中國(guó)郵遞員問(wèn)題—郵遞員發(fā)送郵件時(shí),要從郵局出發(fā),經(jīng)過(guò)他投遞范圍內(nèi)的每條街道至少一次,然后返回郵局,但郵遞員希望選擇一條行程最短的路線。
5.最小費(fèi)用問(wèn)題:在運(yùn)輸問(wèn)題中,人們總是希望在完成運(yùn)輸任務(wù)的同時(shí),尋求一個(gè)使總的運(yùn)輸費(fèi)用最小的運(yùn)輸方案。
5.建立了模型,某些相關(guān)參數(shù)偏差很厲害,是否懷疑過(guò)模型?
??遇到這種問(wèn)題以后,首先要做的就是確定模型的建立的合理性,依據(jù)是哪些。如果模型是合理的,那么比較重要的一點(diǎn),就是需要將數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)建模中的許多數(shù)據(jù)都是實(shí)際數(shù)據(jù),而模型,是一種標(biāo)準(zhǔn)化。實(shí)際數(shù)據(jù)放在模型中去驗(yàn)證,很多都是有問(wèn)題。出現(xiàn)這些問(wèn)題的原因,不是模型錯(cuò)誤,而是數(shù)據(jù)不一定有效。下面就舉幾種數(shù)據(jù)不一定有效的情況:
- 第一種情況是由于某些原因造成的缺少數(shù)據(jù)。
- 第二種情況是由于人為的一些原因造成的數(shù)據(jù)錯(cuò)誤。
- 第三種情況是由于數(shù)據(jù)采集過(guò)程中,不恰當(dāng)采集,造成的臟數(shù)據(jù)。
還有很多種情況,就不在這里細(xì)說(shuō)。 遇到這樣的事情,首先要做到的就是剔除掉無(wú)效數(shù)據(jù),然后再論文中說(shuō)明,為什么要剔除這些數(shù)據(jù),然后再驗(yàn)證模型的合理性。
6.監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)該如何應(yīng)用
何謂機(jī)器學(xué)習(xí)
??斯坦福大學(xué)的Machine Learning課程是這樣解釋:
??Machine Learning is field of study that gives computers the ability to learn without being explicitly programmed.
??也就是說(shuō)機(jī)器學(xué)習(xí)不需要制定具體的模型,而是讓計(jì)算機(jī)根據(jù)龐大的數(shù)據(jù)量自己訓(xùn)練模型。
一、監(jiān)督學(xué)習(xí)(Supervised learning)
??數(shù)據(jù)集中的每個(gè)樣本有相應(yīng)的“正確答案”,根據(jù)這些樣本做出預(yù)測(cè),分有兩類:回歸問(wèn)題和分類問(wèn)題
(1)回歸問(wèn)題
??例如預(yù)測(cè)房?jī)r(jià),根據(jù)樣本集擬合出一條連續(xù)曲線
(2)分類問(wèn)題
??例如:根據(jù)腫瘤特征判斷良性還是惡性,得到的是結(jié)果是“良性”或者“惡性”,是離散的
二、非監(jiān)督學(xué)習(xí)(Unsupervised learning)
??非監(jiān)督學(xué)習(xí)的數(shù)據(jù)集跟監(jiān)督學(xué)習(xí)不同,沒(méi)有任何標(biāo)簽,即沒(méi)有相應(yīng)的“正確答案”。從數(shù)據(jù)集中可以通過(guò)非監(jiān)督學(xué)習(xí)得到數(shù)據(jù)的某種結(jié)構(gòu),可能是把數(shù)據(jù)分成兩個(gè)不同的聚集簇,稱為聚類算法。
例如:從數(shù)據(jù)設(shè)置上看:
??無(wú)監(jiān)督學(xué)習(xí):訓(xùn)練樣本數(shù)據(jù)和待分類的類別已知,但訓(xùn)練樣本數(shù)據(jù)皆為非標(biāo)簽數(shù)據(jù);
?? 監(jiān)督學(xué)習(xí):訓(xùn)練樣本數(shù)據(jù)和待分類的類別已知,且訓(xùn)練樣本數(shù)據(jù)皆為標(biāo)簽數(shù)據(jù);
7. 團(tuán)隊(duì)如何分配任務(wù)
?? 雖然涉及大概三點(diǎn):數(shù)學(xué),編程,寫作。那么安排一個(gè)負(fù)責(zé)文檔、一個(gè)負(fù)責(zé)算法、一個(gè)負(fù)責(zé)編程這樣不一定對(duì),分工太明確了,會(huì)讓人產(chǎn)生依賴思想,不愿去動(dòng)腦子。有多少團(tuán)隊(duì)是內(nèi)部瓦解,如同創(chuàng)業(yè)合伙人散伙一樣,合則雙贏。理想的分工是這樣的:數(shù)學(xué)建模競(jìng)賽小組中的每一個(gè)人,都能勝任其它人的工作,就算小組只剩下她(他)一個(gè)人,也照樣能夠搞定數(shù)學(xué)建模競(jìng)賽。在競(jìng)賽中的分工,只是為了提高工作的效率,做出更好的結(jié)果。
8.以后具體該向哪個(gè)方向找工作
?? 首先告訴你:中國(guó)研究生數(shù)學(xué)建模獲獎(jiǎng)上海落戶加分,最多加10分,具體請(qǐng)參見(jiàn)當(dāng)年上海積分落戶制度細(xì)則。
工作方向:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、人工智能都可涉獵,具體崗位比如說(shuō)在金融方面,金融量化,金融建模,數(shù)據(jù)分析師等,隨便到一個(gè)網(wǎng)站一搜就有很多,具體就不列舉了。
附上以前收集的比較文檔,下載連接如下,目前CSDN無(wú)法設(shè)置0積分,沒(méi)有積分的可以聯(lián)系我。
下載文件地址:寫好數(shù)學(xué)建模競(jìng)賽答卷注意事項(xiàng)(參賽寶典)
數(shù)學(xué)建模模板(建模論文競(jìng)賽標(biāo)準(zhǔn)版)
9.案例
根據(jù)對(duì)某地區(qū)小區(qū)數(shù)據(jù)依據(jù)距離進(jìn)行k-means聚類(從原理入手,并未引入算法模塊,希望大家平時(shí)聯(lián)系也是如此,有利于對(duì)原理的深入理解) 數(shù)據(jù)結(jié)構(gòu)如下:(租金(元/㎡/月)、房齡(年)、小區(qū)名稱)
聚類結(jié)果如下(不同顏色代表不同類別):
總結(jié)
以上是生活随笔為你收集整理的数学建模之倚天剑与屠龙刀的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Linux原子操作与锁实现
- 下一篇: 恋爱宝典