回归树与基于规则的模型(part1)--if-then语句
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
回歸樹與基于規(guī)則的模型
if-then語句
基于樹的模型由一個(gè)或多個(gè)針對預(yù)測變量的if?thenif-thenif?then語句組成,它們被用來對數(shù)據(jù)進(jìn)行劃分,基于這些劃分,一個(gè)特定的模型將用來對結(jié)果變量進(jìn)行預(yù)測。
例如,一個(gè)簡單的樹模型可以定義為:
在這個(gè)例子中,二維的預(yù)測變量空間被分為了三塊區(qū)域,并且在每一塊區(qū)域中,結(jié)果變量將被預(yù)測為同一個(gè)數(shù)字。
下圖將這些規(guī)則表達(dá)在了預(yù)測變量空間中:
利用樹模型的術(shù)語,我們稱數(shù)據(jù)進(jìn)行了兩次切分,并形成了3個(gè)最終節(jié)點(diǎn)(葉)。最終節(jié)點(diǎn)中的模型表達(dá)式將被用來計(jì)算預(yù)測值,表達(dá)式可以簡單,可以復(fù)雜。
注意到一棵樹生成的if?thenif-thenif?then語句定義了樣本到任何一個(gè)最終節(jié)點(diǎn)唯一的一條路徑。一條規(guī)則就是一系列的if?thenif-thenif?then語句,并且它們被展開成了若干相互獨(dú)立的條件,對于上述例子,共有三條規(guī)則:
當(dāng)樣本被多條規(guī)則覆蓋時(shí),規(guī)則可以在一定程度上被簡化或進(jìn)行剪枝。這種方法相對于簡單的樹模型有若干優(yōu)勢。
樹模型和規(guī)則模型之所以成為非常流行的建模工具,是基于以下幾個(gè)原因:
①首先,它們生成的條件極富解釋力,并且易于實(shí)現(xiàn);
②其次,根據(jù)它們建立模型時(shí)采用的邏輯,它們能有效地處理各種類型的預(yù)測變量(比如稀疏的、偏態(tài)的、連續(xù)的和分類的),而不需要對這些變量事先進(jìn)行預(yù)處理;
③此外,這些模型不需要用戶對響應(yīng)變量與預(yù)測變量之間的關(guān)系進(jìn)行指定;
④最后,這些模型可以有效地處理缺失值。
然而,由單一的樹或規(guī)則建立的模型也具有一些特定的缺點(diǎn):
①模型的不穩(wěn)定性(數(shù)據(jù)中的微小變動(dòng)可能會引起樹或規(guī)則結(jié)構(gòu)的巨大變化,從而影響解釋性);
②次優(yōu)的預(yù)測能力,因?yàn)槟P投x了一系列的矩形區(qū)域,從而,它們得到的結(jié)果具有一定的同質(zhì)性。如果響應(yīng)變量與預(yù)測變量之間的關(guān)系不能充分地通過矩形子空間來進(jìn)行表達(dá),那么樹模型和規(guī)則模型將產(chǎn)生比其他模型更大的預(yù)測誤差。
為了克服這些問題,研究者提出了集成模型,它們將許多棵樹(或規(guī)則)進(jìn)行組合。集成模型通常具有比單一的樹模型好得多的預(yù)測表現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的回归树与基于规则的模型(part1)--if-then语句的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网易闪电邮如何导入/导出/同步联系人
- 下一篇: 水星 MW325R V1~V3 无线路由