【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )
文章目錄
- I . 預(yù)測(cè)建模 與 描述建模
- II . 預(yù)測(cè)模型 與 函數(shù)映射
- III . 預(yù)測(cè)模型的分類 ( 分類 | 回歸 )
- IV . 預(yù)測(cè)建模 測(cè)試集
- V . 預(yù)測(cè)建模 擬合過(guò)程
- VI . 預(yù)測(cè)模型結(jié)構(gòu)確定
- VII . 基于分類的判別模型
- VIII . 基于分類的概率模型
- IX . 預(yù)測(cè)模型的評(píng)分函數(shù)
- X . 基于回歸的預(yù)測(cè)模型
I . 預(yù)測(cè)建模 與 描述建模
1 . 預(yù)測(cè)建模 :
① 目的 : 根據(jù)現(xiàn)有的數(shù)據(jù)集的 若干 ( 1 個(gè)或多個(gè) ) 屬性值 ( 特征值 / 變量 ) , 預(yù)測(cè)其它屬性值 ;
② 示例 : 分類 ;
2 . 描述建模 :
① 目的 : 根據(jù)現(xiàn)有數(shù)據(jù)集的 屬性值 ( 特征值 / 變量 ) , 對(duì)數(shù)據(jù)樣本進(jìn)行概括 ;
② 示例 : 聚類 ;
II . 預(yù)測(cè)模型 與 函數(shù)映射
1 . 預(yù)測(cè)模型 :
① 模型形式 : 使用已知的變量 ( 屬性值 / 特征值 ) 表達(dá) 未知變量的函數(shù) ;
② 已知變量 : 當(dāng)前數(shù)據(jù)集中的樣本 , 已知的屬性的屬性值 ;
③ 未知變量 : 將要預(yù)測(cè)的屬性值 , 這個(gè)屬性值未知 ;
④ 函數(shù)映射 : 預(yù)測(cè)模型 建模的過(guò)程 , 可以看做一個(gè)函數(shù)映射的建立過(guò)程 ;
2 . 預(yù)測(cè)模型 與 函數(shù)映射 :
① 函數(shù)映射 : 預(yù)測(cè)模型的函數(shù)映射形式如下
Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
② 函數(shù)形式 : fff 是預(yù)測(cè)模型 的 函數(shù)映射 的 函數(shù)形式 ;
③ 未知參數(shù) : θ\thetaθ 代表未知的參數(shù) , 每個(gè)已知變量前都有一個(gè)未知參數(shù) ;
④ 已知參數(shù) : XXX 表示當(dāng)前數(shù)據(jù)集樣本的已知參數(shù) , 又叫輸入變量 , 是矩陣形式的 , 如有 14 個(gè)樣本 , 每個(gè)樣本有 5 個(gè)屬性 , 那么該矩陣是一個(gè) 14 行 , 5 列的矩陣 ; 該值的本質(zhì)是 5 維的 向量 ;
⑤ 預(yù)測(cè)結(jié)果 : YYY 表示預(yù)測(cè)結(jié)果 , 又叫響應(yīng)變量 ; 該值的本質(zhì)是 標(biāo)量 ;
III . 預(yù)測(cè)模型的分類 ( 分類 | 回歸 )
1 . 預(yù)測(cè)模型分類 : 預(yù)測(cè)模型分為兩類 : 分類 和 回歸 ;
Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
① 分類 : 如果 YYY 值是離散值 , 是范疇型變量 , 那么這個(gè) 預(yù)測(cè)模型 叫做 分類 ; 從向量 XXX 到標(biāo)量 YYY 映射的過(guò)程是 回歸 ;
② 回歸 : 如果 YYY 值是連續(xù)值 , 是數(shù)值型變量 , 那么這個(gè) 預(yù)測(cè)模型 叫做 回歸 ; 從向量 XXX 到標(biāo)量 YYY 映射的過(guò)程是 分類 ;
2 . 函數(shù)逼近 :
① 分類和回歸本質(zhì) : 從 PPP 維向量 XXX 到 標(biāo)量 YYY 的映射 , 可以看做是 函數(shù)逼近問(wèn)題 ;
② PPP 說(shuō)明 : 是數(shù)據(jù)集樣本已知屬性的個(gè)數(shù) , 如 : 之前 14 個(gè)樣本 , 已知 年齡 , 是否是學(xué)生 , 收入 , 信用等級(jí) , 4 個(gè)屬性 , 此處 P=4P=4P=4 ;
IV . 預(yù)測(cè)建模 測(cè)試集
1 . 預(yù)測(cè)建模相關(guān)數(shù)據(jù)集 : 預(yù)測(cè)建模中用到 3 類數(shù)據(jù)集 , 訓(xùn)練集 , 測(cè)試集 , 新數(shù)據(jù) ;
2 . 訓(xùn)練集 : 訓(xùn)練集中 , 每個(gè)樣本都由一對(duì) (X,Y)(X , Y)(X,Y) 組成 , 其中 XXX 是向量 , 其代表已知的若干屬性值組成的向量 , YYY 代表標(biāo)量 , 在訓(xùn)練集中也是已知的 ;
3 . 訓(xùn)練集數(shù)據(jù)示例 : 之前 14 個(gè)樣本 , 已知 年齡 , 是否是學(xué)生 , 收入 , 信用等級(jí) , 4 個(gè)屬性值 , 組成向量 XXX , 是否購(gòu)買商品 , 是 YYY 代表的變量 , 這樣組成了一對(duì) (X,Y)(X, Y)(X,Y) 值 ; 訓(xùn)練集中有 14 對(duì) (X,Y)(X,Y)(X,Y) 值 ;
4 . 預(yù)測(cè)建模本質(zhì) : 根據(jù) nnn 對(duì)訓(xùn)練集樣本 (X,Y)(X , Y)(X,Y) 擬合出 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數(shù)映射模型 ;
5 . Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 模型作用 : 給定 XXX 向量的值 , 和 θ\thetaθ 參數(shù) , 可以預(yù)測(cè)出 YYY 值 ;
V . 預(yù)測(cè)建模 擬合過(guò)程
預(yù)測(cè)模型的擬合過(guò)程 :
① 預(yù)測(cè)模型 : Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
② 擬合過(guò)程 : 需要完成兩個(gè)工作 , 首先要確定模型 fff 結(jié)構(gòu) , 然后確定參數(shù) θ\thetaθ 值 ;
③ 模型 fff 確定 : 確定 需要確定模型 fff 結(jié)構(gòu) , 即函數(shù)的格式 , 線性模型 , 還是二次函數(shù) , nnn 次函數(shù) 等其它形式 ; 先找到使用的模型 ;
④ 參數(shù) θ\thetaθ 確定 : 這是數(shù)據(jù)挖掘算法的核心部分 ;
⑤ 評(píng)分函數(shù) : 評(píng)分函數(shù)值達(dá)到最大 ( 最小 ) 確定參數(shù) θ\thetaθ 值 ; 如 似然函數(shù) ( 評(píng)分函數(shù)值越大越好 ) , 誤差平方和 ( 評(píng)分函數(shù)值越小越好 ) ;
⑥ 優(yōu)化過(guò)程 : 搜索確定參數(shù)值 θ\thetaθ 的過(guò)程是優(yōu)化過(guò)程 ;
預(yù)測(cè)模型擬合過(guò)程 , 需要確定 模型結(jié)構(gòu) 和 參數(shù) , 確定參數(shù)時(shí) , 需要確定 評(píng)分函數(shù) , 和 搜索優(yōu)化算法 ;
VI . 預(yù)測(cè)模型結(jié)構(gòu)確定
1 . 預(yù)測(cè)模型結(jié)構(gòu) : 預(yù)測(cè)模型結(jié)構(gòu)是 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數(shù)映射形式 , 模型建立時(shí) , 不知道該映射的 結(jié)構(gòu)形式 和 參數(shù)值 , 首先要確定其函數(shù)的結(jié)構(gòu)形式 ;
① 模型基礎(chǔ) : 預(yù)測(cè)模型中的 回歸模型 和 分類模型 都基于 數(shù)學(xué) 和 統(tǒng)計(jì)學(xué) 建立的 ;
② 模型可互用 : 分類模型結(jié)構(gòu) 也可以用于 回歸模型 , 反之也適用 ;
VII . 基于分類的判別模型
分類模型 分為兩種 , 判別模型 和 概率模型 ;
1 . 判別模型 :
① 輸入向量 : XXX , 是一個(gè)向量 ; XXX 是數(shù)據(jù)集樣本的某些已知屬性值組成的向量 ;
② 響應(yīng)變量 : YYY , 是一個(gè)標(biāo)量 ; YYY 取值是某個(gè)屬性類別的單個(gè)取值 ; 假設(shè)該屬性類別的屬性的取值可以是 {C1,C2,?,C3}\{C_1 , C_2 , \cdots , C_3\}{C1?,C2?,?,C3?} ;
2 . XXX向量維數(shù)為 1 時(shí) :
① 數(shù)據(jù)集樣本 : 數(shù)據(jù)集中的樣本已知屬性是 2 個(gè) , 一個(gè)是已知的輸入向量 XXX , 一個(gè)是未知的 , 需要預(yù)測(cè)的響應(yīng)變量 YYY ;
② 判別模型 : 此時(shí)模型是二維坐標(biāo)系中的 分段直線 ; 某個(gè) XXX 1 維向量 ( 1 個(gè)數(shù)值 ) 對(duì)應(yīng)某個(gè) YYY 值 ;
③ 決策區(qū)域 ( 線段 ) : 當(dāng) XXX 向量的唯一值 , 位于某兩個(gè)數(shù)值范圍內(nèi) , YYY 取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0≤i≤m) ;
3 . XXX向量維數(shù)為 2 時(shí) :
① 數(shù)據(jù)集樣本 : 數(shù)據(jù)集中的樣本已知屬性是 3 個(gè) , 一個(gè)是已知的輸入向量 XXX ( 有兩個(gè)屬性值 ) , 一個(gè)是未知的 , 需要預(yù)測(cè)的響應(yīng)變量 YYY ;
② 判別模型 : 此時(shí)模型是三維空間中的 分段曲面 ; 某個(gè) XXX 2 維向量 ( 2 個(gè)數(shù)值 ) 對(duì)應(yīng)某個(gè) YYY 值 ;
③ 決策區(qū)域 ( 平面 ) : 當(dāng) XXX 向量的兩個(gè)屬性值 X1X_1X1? 和 X2X_2X2? 構(gòu)成的點(diǎn) , 位于某個(gè)平面時(shí) , 其 YYY 值取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0≤i≤m) ;
4 . 決策區(qū)域 : 未知屬性 的 取值為某個(gè)屬性值 CiC_iCi? 的所有區(qū)域 , 聯(lián)合在一起 , 稱為 CiC_iCi? 取值的決策區(qū)域 ;
① 決策預(yù)測(cè)機(jī)制 : 輸入變量 XXX 向量 , 符合 CiC_iCi? 決策區(qū)域要求 , 那么最終被預(yù)測(cè)的屬性值 YYY 標(biāo)量 , 就會(huì)被預(yù)測(cè)成 CiC_iCi? 值 ;
② 判別模型分類本質(zhì) : 在判別模型中的分類任務(wù) , 就是確定各個(gè)被預(yù)測(cè)的取值 CiC_iCi? 的 決策區(qū)域 是什么 , 即 這些 決策區(qū)域的 邊界是什么 ;
VIII . 基于分類的概率模型
分類模型 分為兩種 , 判別模型 和 概率模型 ;
1 . 概率模型 :
① 未知屬性類別取值 : 未知屬性的每個(gè)取值類別為 CiC_iCi? ,
② 參數(shù) : θi\theta_iθi? 是函數(shù)參數(shù) , 該參數(shù)反應(yīng) CiC_iCi? 的類型特征 ;
③ 概率模型函數(shù) : 其函數(shù)模型為 分部 或 密度函數(shù) ρ(X∣Ci,θi)\rho ( X | C_i , \theta_i )ρ(X∣Ci?,θi?) ;
2 . θi\theta_iθi? 參數(shù)說(shuō)明 :
① 連續(xù)取值 ( XXX 向量中的數(shù)值取值 ) : 輸入變量 XXX 向量代表的屬性值的取值是連續(xù)的值 ( 如 : 實(shí)數(shù) , 自然數(shù) 等 ) ;
② 取值分布 ( XXX 向量中的數(shù)值取值 ) : 每個(gè)已知的屬性值的模型結(jié)構(gòu)都是 多元正態(tài)分布 ;
③ θi\theta_iθi? 表示每個(gè)屬性類別取值的 均值 和 方差特征 ;
④ 與決策區(qū)域?qū)?yīng) : 均值相當(dāng)于決策區(qū)域的中心點(diǎn)位置 , 方差相當(dāng)于決策區(qū)域范圍大小 ;
3 . 舉例說(shuō)明 :
① 決策區(qū)域距離大 : 這些決策區(qū)域離得很遠(yuǎn) , 各個(gè)取值的均值也很遠(yuǎn) ;
② 決策區(qū)域范圍小 : 決策范圍也很小 , 相應(yīng)的方差也很小 ;
③ 分類容易且準(zhǔn)確 : 那么最終可以很好的將數(shù)據(jù)集進(jìn)行準(zhǔn)確的分類 ;
IX . 預(yù)測(cè)模型的評(píng)分函數(shù)
1 . 分類模型 : 常用 誤分類率 作為評(píng)分函數(shù) ;
2 . 回歸模型 : 常用 誤差平方和 作為評(píng)分函數(shù) ;
X . 基于回歸的預(yù)測(cè)模型
1 . 基于回歸的預(yù)測(cè)模型 : 線性回歸模型 , 非線性回歸模型 , 分段線性模型 ;
2 . 線性回歸模型 : 二維空間 直線 , 三維空間 平面 , 四維空間 超平面 ;
① 預(yù)測(cè)模型結(jié)構(gòu)為 : Y=a0+a1X1+a2X2+?+apXpY = a_0 + a_1X_1 + a_2X_2 + \cdots + a_pX_pY=a0?+a1?X1?+a2?X2?+?+ap?Xp?
② 預(yù)測(cè)值與實(shí)際值分布 : 模型的預(yù)測(cè)值 , 與實(shí)際觀察的值 , 可能存在不一致 , 實(shí)際的值可能在模型預(yù)測(cè)值的周圍分布 ;
3 . 非線性回歸模型 : 預(yù)測(cè)模型結(jié)構(gòu)為 Y=a0+a1X1+a2X22+?+apXp3Y = a_0 + a_1X_1 + a_2X_2^2 + \cdots + a_pX_p^3Y=a0?+a1?X1?+a2?X22?+?+ap?Xp3?
4 . 分段線性模型 : 將簡(jiǎn)單的模型 , 分段組合起來(lái)構(gòu)成復(fù)雜的模型 ;
① 局部線性函數(shù) : 輸入向量 XXX 與 相應(yīng)變量 YYY 是局部的線性函數(shù) ;
② 分段函數(shù) : 該分段線性模型 , 在不同區(qū)域內(nèi) , 有不同的函數(shù)形式 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【数据挖掘】决策树 分类 ( 抽取分类规
- 下一篇: 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器