2021全国大学生数学建模竞赛C题思路
全國大學(xué)生數(shù)學(xué)建模競賽即將開始,思路發(fā)布在這里
https://mathmodel.lanzoui.com/s/cumcm
C題 中小微企業(yè)的信貸決
1.量化分析,即將一個(gè)目標(biāo) 用 具 體的 數(shù) 值 表 示 出 來,對(duì) 應(yīng) 于 第一問 就是將每個(gè)企業(yè)的信貸風(fēng)險(xiǎn)用一個(gè)具體的值表示出來。
2.《企業(yè)信息》中只給了企業(yè)名稱和信譽(yù)等級(jí)(自變量),最關(guān)鍵的是是否違約(因變量),學(xué)過機(jī)器學(xué)習(xí)的同學(xué)應(yīng)該知道,題目的言下之意很明顯需要你建立一個(gè)預(yù)測模型,預(yù)測企業(yè)違約的可能性有多大。
3.但是表一給的特征非常有限,這個(gè)時(shí)候就需要從特征工程入手,從后面兩張表中提取出我們所需要的特征(查詢相關(guān)資料)。
給大家列舉已經(jīng)做出來的幾個(gè):進(jìn)項(xiàng)有效發(fā)票數(shù)、進(jìn)項(xiàng)作廢發(fā)票數(shù)、銷項(xiàng)有效發(fā)票數(shù)、銷項(xiàng)作廢發(fā)票數(shù)、負(fù)數(shù)發(fā)票次數(shù)、負(fù)數(shù)發(fā)票次數(shù)占比、企業(yè)交易金額、交易時(shí)長(月份),平均每月交易次數(shù)、平均每月交易金額。涉及到平均主要是因?yàn)槠髽I(yè)交易次數(shù)少,有違約的和沒有違約的,所以單從次數(shù)和金額上不好判斷。其它特征小編不一一解釋了,自己查資料理解。
4.有了這些特征,那我們就可以建議預(yù)測模型《企業(yè)信息》中的信息就是模型的訓(xùn)練樣本。在這里小編推薦使用決策樹、隨機(jī)森林、Xgboost、LightGBM這幾種模型。在編寫代碼的時(shí)候,設(shè)置這些模型的預(yù)測結(jié)果為企業(yè)是否違約(1或者0),并將輸出結(jié)果以概率的式顯示(例如:低于0.5為沒有違約,高于0.5為違約)。特別提醒,一定要設(shè)置隨機(jī)數(shù),不然結(jié)果會(huì)發(fā)生改變。??5.有了第4步的結(jié)果,而且在保證預(yù)測精度的情況下,就可以將企業(yè)違約概率從高到低進(jìn)行排序,再將概率值分為5級(jí)或者8級(jí),并畫出每個(gè)級(jí)別各個(gè)特征的分布情況,人工識(shí)別和制定信貸策略。??6.最后還可以根據(jù)模型,輸出各個(gè)特征的重要性,如下圖:????7.最后大家可以在建立模型之后在一些特征的后面加上一些隨機(jī)數(shù),再進(jìn)行一次預(yù)測,從而說明建模模型的魯棒性。??8.基礎(chǔ)的同學(xué),可以參考PDPBox等這個(gè)方法,用來說明各個(gè)特征變化的時(shí)候,企業(yè)違約概率的變化。這絕對(duì)會(huì)在評(píng)委眼前一亮。可解釋機(jī)器學(xué)習(xí)
在實(shí)際中,由于中小微企業(yè)規(guī)模相對(duì)較小,也缺少抵押資產(chǎn),因此銀行通常是依據(jù)信貸政策、企業(yè)的交易票據(jù)信息和上下游企業(yè)的影響力,向?qū)嵙?qiáng)、供求關(guān)系穩(wěn)定的企業(yè)提供貸款,并可以對(duì)信譽(yù)高、信貸風(fēng)險(xiǎn)小的企業(yè)給予利率優(yōu)惠。銀行首先根據(jù)中小微企業(yè)的實(shí)力、信譽(yù)對(duì)其信貸風(fēng)險(xiǎn)做出評(píng)估,然后依據(jù)信貸風(fēng)險(xiǎn)等因素來確定是否放貸及貸款額度、利率和期限等信貸策略。
某銀行對(duì)確定要放貸企業(yè)的貸款額度為萬元;年利率為4%15%;貸款期限為1年。附件13分別給出了123家有信貸記錄企業(yè)的相關(guān)數(shù)據(jù)、302家無信貸記錄企業(yè)的相關(guān)數(shù)據(jù)和貸款利率與客戶流失率關(guān)系的2019年統(tǒng)計(jì)數(shù)據(jù)。該銀行請(qǐng)你們團(tuán)隊(duì)根據(jù)實(shí)際和附件中的數(shù)據(jù)信息,通過建立數(shù)學(xué)模型研究對(duì)中小微企業(yè)的信貸策略,主要解決下列問題:
(1) 對(duì)附件1中123家企業(yè)的信貸風(fēng)險(xiǎn)進(jìn)行量化分析,給出該銀行在年度信貸總額固定時(shí)對(duì)這些企業(yè)的信貸策略。
問題可以簡單理解為,對(duì)123家企業(yè)的信貸風(fēng)險(xiǎn)進(jìn)行量化(將定類數(shù)據(jù)轉(zhuǎn)化為定量數(shù)據(jù)),然后給出怎么對(duì)這些企業(yè)進(jìn)行評(píng)級(jí)與分配信用貸款。
我們可以看到上圖,這是銀行已經(jīng)對(duì)這些企業(yè)打的信用評(píng)級(jí)與確認(rèn)出來的是否違約,我們需要做的就是把目前所能拿到的數(shù)據(jù)轉(zhuǎn)化一個(gè)定量的數(shù)據(jù)用于評(píng)價(jià)信貸風(fēng)險(xiǎn),然后根據(jù)這個(gè)比例來按進(jìn)行分配貸款。
到這里,大家應(yīng)該知道要解決什么問題了,那怎么去做這件事情呢?
這里我給大家提出一種解決方案:
Step1:對(duì)數(shù)據(jù)進(jìn)行缺失值和異常值處理;
可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—數(shù)據(jù)清洗—缺失值處理】、特征工程—數(shù)據(jù)清洗—異常值處理
Step2:對(duì)【是否違約】建立特征工程,以特征工程為X,以【是否違約】為Y, 建立一個(gè)信譽(yù)評(píng)級(jí)分類模型,特征工程的里的字段可以是,【信譽(yù)評(píng)級(jí)】,
(1,需要轉(zhuǎn)化為數(shù)值標(biāo)簽,可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—數(shù)據(jù)清洗—數(shù)據(jù)標(biāo)簽轉(zhuǎn)化】
2,onehot編碼,可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—數(shù)據(jù)清洗—獨(dú)熱編碼】處理)
對(duì)于【進(jìn)項(xiàng)發(fā)票信息】,可以構(gòu)造特征【金額】,【稅額】,【價(jià)稅合計(jì)】,【發(fā)票狀態(tài)】這些明面上的指標(biāo),也可以是【對(duì)企業(yè)代號(hào)進(jìn)行分組,拿到的總金額、平均金額、中位數(shù)金額】,【對(duì)企業(yè)代號(hào)進(jìn)行分組,拿到的總稅額、平均稅額、中位數(shù)稅額】,【對(duì)企業(yè)代號(hào)進(jìn)行分組,拿到的總價(jià)稅合計(jì)、平均價(jià)稅合計(jì)、中位數(shù)價(jià)稅合計(jì)】,同時(shí)還可以是【對(duì)開票日期(日周月年)進(jìn)行分組,拿到開票的頻數(shù)(日周月年)】,【累計(jì)開票數(shù)】,【累計(jì)有效發(fā)票個(gè)數(shù)】,【累計(jì)無效開票次數(shù)】
對(duì)于【銷項(xiàng)發(fā)票信息】,同理與上
同時(shí)我么也可以根據(jù)企業(yè)名稱來進(jìn)行聚類,例如科技公司,地產(chǎn)公司,可以通用詞向量聚類,也可以通過關(guān)鍵詞進(jìn)行聚類,這樣又多了一個(gè)指標(biāo),【公司類別】
以后還有【(日周月年)均凈收入,凈支出】(收入發(fā)票減支出發(fā)票)
總之,盡可能擴(kuò)充特征工程,就我上面列出來的就有共計(jì)50特征,當(dāng)然,我們還是可以盡可能地多擴(kuò)充,先不管這些特征是否存在共線性。
Step3:接著,我們需要對(duì)樣本數(shù)據(jù)進(jìn)行均衡處理,因?yàn)槲覀內(nèi)庋劭梢钥吹健臼欠襁`約】存在極大的樣本不均衡,這些直接訓(xùn)練一個(gè)分類模型會(huì)導(dǎo)致模型過擬合,例如我有一百個(gè)樣本,99個(gè)樣本是1,那么即使我瞎分類,全部判為1,準(zhǔn)確率也是99%,樣本均衡可以通過上采樣或者下采樣
(可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—樣本均衡處理】)
Step4:由于構(gòu)造的特征太多了,我們需要對(duì)特征進(jìn)行篩選,這里我們需要減少特征,可以選擇諸如主成分分析等降維技術(shù)進(jìn)行數(shù)據(jù)降維,也可以使用遞歸消除特征法等篩選方法來進(jìn)行特征篩選,
(1,可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—數(shù)據(jù)降維處理】,
2,可通過MPai數(shù)據(jù)科學(xué)平臺(tái)【特征工程—特征篩選處理】)
Step5:準(zhǔn)備工作就緒,我們可以把他丟進(jìn)一個(gè)分類模型進(jìn)行序列,推薦邏輯回歸或者XGBOOST與隨機(jī)森林,需要對(duì)數(shù)據(jù)進(jìn)行切分訓(xùn)練,評(píng)價(jià)指標(biāo)可以選擇F1,可以進(jìn)行各種自由調(diào)參,保證模型的最優(yōu)
查看模型輸出(這里只看概率),我們可以得到每個(gè)模型的【是否違約_否】的概率,這個(gè)概率就可以作為信貸風(fēng)險(xiǎn)的量化得分,然后我們這里可以進(jìn)行歸一化,然后按比例分配貸款。
以上方法簡單粗暴,如果想要更突出的小伙伴可以使用評(píng)分卡或者AHP模型,這里舉例AHP模型,信貸風(fēng)險(xiǎn)的評(píng)價(jià)指標(biāo)可以分為三個(gè)內(nèi)容:信譽(yù)評(píng)級(jí),是否違約,企業(yè)流水或收入支出比,我們可以設(shè)計(jì)2個(gè)分類模型(是否違約),一個(gè)回歸模型(企業(yè)流水或收入支出比),采用AHP構(gòu)建判斷矩陣(用德爾菲法確定輸入,可以不用),然后加權(quán)來得出來信貸風(fēng)險(xiǎn)的量化得分最后建模求解:
建模求解:(1)開票日期綜合分析
在對(duì)開票日期是否存在相關(guān)的影響做分析時(shí),繪制企業(yè)進(jìn)項(xiàng)開票日期如圖 5-1
所示,可以看出有 5 個(gè)較高的峰值,其中最高的峰值在 11 月份,此時(shí)個(gè)中小企業(yè)
進(jìn)項(xiàng)開票處于高峰期,此時(shí)可能受環(huán)境影響因素。那么開票日期可作為一項(xiàng)指
標(biāo)。
建模求解:在對(duì)開票日期是否存在相關(guān)的影響做分析時(shí),繪制企業(yè)進(jìn)項(xiàng)開票日期如圖 5-1
所示,可以看出有 5 個(gè)較高的峰值,其中最高的峰值在 11 月份,此時(shí)個(gè)中小企業(yè)
進(jìn)項(xiàng)開票處
作為一個(gè)已經(jīng)畢業(yè)很多年的碩士研究生 回想起我在蘭州理工上學(xué)的時(shí)候還是那么近在咫尺 數(shù)學(xué)建模其實(shí)在我看來重在歷練的同時(shí)掌握方法以及彌補(bǔ)自己短板 我認(rèn)為建模最重要的就是思路和模型如果你也想?yún)⒓訑?shù)模競賽了解相關(guān)的知識(shí)可以關(guān)注作為一個(gè)已經(jīng)畢業(yè)很多年的碩士研究生 回想起我在蘭州理工上學(xué)的時(shí)候還是那么近在咫尺 數(shù)學(xué)建模其實(shí)在我看來重在歷練的同時(shí)掌握方法以及彌補(bǔ)自己短板。我熱愛數(shù)學(xué)建模也支持?jǐn)?shù)學(xué)建模全面發(fā)展。
總結(jié)
以上是生活随笔為你收集整理的2021全国大学生数学建模竞赛C题思路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: adc0809 c语言程序,ADC080
- 下一篇: rtsp基本信令