【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★
文章目錄
- 一、 貝葉斯分類器分類的流程
- 二、 貝葉斯分類器分類示例 1
參考博客 :
- 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )
- 【數據挖掘】貝葉斯公式應用 拼寫糾正示例分析 ( 先驗概率 | 似然概率 | 后驗概率 )
- 【數據挖掘】貝葉斯公式在垃圾郵件過濾中的應用 ( 先驗概率 | 似然概率 | 后驗概率 )
- 【數據挖掘】樸素貝葉斯分類器 ( 多屬性概率計算 | 樸素貝葉斯分類案例分析 )
- 【數據挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應用場景 | 樸素貝葉斯優缺點 )
- 【數據挖掘】貝葉斯信念網絡 ( 馬爾科夫假設 | 結構 | 有向無環圖 | 參數 | 條件概率表 | 案例分析 )
一、 貝葉斯分類器分類的流程
已知條件 :
已知樣本 : 已知若干個樣本
未知樣本 : 給定 111 個未知樣本 , 其有 444 個屬性組成向量 X\rm XX , 樣本的分類有兩種 , Y\rm YY 和 N\rm NN ; ( Yes / No )
分類步驟 :
計算兩個概率 , 即
① 樣本取值為 X\rm XX 向量時 , 分類為 Y\rm YY 的概率 , 公式為 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)? , 其中 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(X∣Y)P(Y) 含義是 : 樣本分類 Y\rm YY 的概率 P(Y)\rm P(Y)P(Y) , 乘以 樣本分類為 Y\rm YY 前提下樣本取值 X\rm XX 時的概率 P(X∣Y)\rm P(X | Y)P(X∣Y) , 是 P(XY)\rm P(XY)P(XY) 共同發生的概率 ;
② 樣本取值為 X\rm XX 向量時 , 分類為 N\rm NN 的概率 , 公式為 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)? , 其中 P(X∣N)P(N)\rm P(X | N) P(N)P(X∣N)P(N) 含義是 : 樣本分類為 N\rm NN 的概率 P(N)\rm P(N)P(N) , 乘以 樣本取值 N\rm NN 時的概率 P(X∣N)\rm P(X | N)P(X∣N) , 是 P(XN)\rm P(XN)P(XN) 共同發生的概率 ;
上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;
先驗概率 : P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) ;
后驗概率 : P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(X∣Y)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(X∣N)P(N) ;
公式中每個元素的含義參考 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )
上述兩個公式 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)? 和 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)? , 分母都是 P(X)\rm P(X)P(X) , 只比較分子即可 , 其中先驗概率 P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) 很容易求得 , 重點是求兩個后驗概率 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(X∣Y)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(X∣N)P(N) ;
后驗概率 P(X∣Y)\rm P(X | Y)P(X∣Y) 求法 : 針對 X\rm XX 向量中 444 個分量屬性的取值 , 當樣品類型是 Y\rm YY 時 , 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應的 444 個概率 , 最后將 四個概率相乘 ;
后驗概率 P(X∣Y)\rm P(X | Y)P(X∣Y) 再乘以先驗概率 P(Y)\rm P(Y)P(Y) , 就是最終的 未知樣本分類為 Y\rm YY 類型的概率 ;
最終對比樣本 , ① 未知樣本分類為 Y\rm YY 類型的概率 , ② 未知樣本分類為 N\rm NN 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;
二、 貝葉斯分類器分類示例 1
分類需求 : 根據 年齡 , 收入水平 , 是否是學生 , 信用等級 , 預測 " 年齡小于 30 歲 , 收入中等 , 學生 , 信用等級一般 " 的用戶是否會購買商品 ;
| 小于 30 歲 | 高收入 | 不是 | 一般 | 不會 N\rm NN |
| 小于 30 歲 | 高收入 | 不是 | 很好 | 不會 N\rm NN |
| 31 ~ 39 歲 | 高收入 | 不是 | 一般 | 會 Y\rm YY |
| 40 歲以上 | 中等收入 | 不是 | 一般 | 會 Y\rm YY |
| 40 歲以上 | 低收入 | 是 | 一般 | 會 Y\rm YY |
| 40 歲以上 | 低收入 | 是 | 很好 | 不會 N\rm NN |
| 31 ~ 40 歲 | 低收入 | 不是 | 很好 | 會 Y\rm YY |
| 小于 30 歲 | 中等收入 | 不是 | 一般 | 不會 N\rm NN |
| 小于 30 歲 | 低收入 | 是 | 一般 | 會 Y\rm YY |
| 40 歲以上 | 中等收入 | 是 | 一般 | 會 Y\rm YY |
| 小于 30 歲 | 中等收入 | 是 | 很好 | 會 Y\rm YY |
| 31 ~ 39 歲 | 中等收入 | 不是 | 很好 | 會 Y\rm YY |
| 31 ~ 39 歲 | 高收入 | 是 | 一般 | 會 Y\rm YY |
| 40 歲以上 | 中等收入 | 不是 | 很好 | 不會 N\rm NN |
未知樣本 取值 X\rm XX 向量 為 " 年齡小于 30 歲 , 收入中等 , 學生 , 信用等級一般 " ;
未知樣本 分類為 Y\rm YY 類型的概率 : P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y | X) = \cfrac{P(X|Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)?
未知樣本 分類為 N\rm NN 類型的概率 : P(N∣X)=P(X∣N)P(N)P(X)\rm P(N | X) = \cfrac{P(X|N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)?
上述兩個概率的分母 P(X)\rm P(X)P(X) 是常數 , 對比時可以忽略 , 只需要對比分子即可 ;
先驗概率 P(Y)=914\rm P(Y) = \cfrac{9}{14}P(Y)=149? , P(N)=514\rm P(N) = \cfrac{5}{14}P(N)=145? , 999 個人購買商品 , 555 個人沒有購買商品 ;
后驗概率
① P(X∣Y)=P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)=29×49×69×69\rm \begin{array}{lcl} \rm P(X|Y) &=& \rm P( 年齡小于 30 | Y) \times P( 收入中等 | Y) \times P( 是學生 | Y) \times P( 信用等級一般 | Y) \\\\ &=& \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \\ \end{array}P(X∣Y)?==?P(年齡小于30∣Y)×P(收入中等∣Y)×P(是學生∣Y)×P(信用等級一般∣Y)92?×94?×96?×96??
② P(X∣N)=P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)=35×25×15×25\begin{array}{lcl} \rm P(X|N) &=& \rm P( 年齡小于 30 | N) \times P( 收入中等 | N) \times P( 是學生 | N) \times P( 信用等級一般 | N) \\\\ &=& \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \cfrac{2}{5} \\\\ \end{array}P(X∣N)?==?P(年齡小于30∣N)×P(收入中等∣N)×P(是學生∣N)×P(信用等級一般∣N)53?×52?×51?×52??
未知樣本 分類為 Y\rm YY 類型的概率 分子 : P(X∣Y)P(Y)=29×49×69×69×914≈0.0282186948853616P(X|Y) P(Y) = \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \times \cfrac{9}{14} \approx 0.0282186948853616P(X∣Y)P(Y)=92?×94?×96?×96?×149?≈0.0282186948853616
未知樣本 分類為 N\rm NN 類型的概率 分子 : P(X∣N)P(N)=35×25×15×25×514≈0.0068571428571429P(X|N) P(N) = \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \frac{2}{5} \times \cfrac{5}{14} \approx 0.0068571428571429P(X∣N)P(N)=53?×52?×51?×52?×145?≈0.0068571428571429
該樣本分類 為 Y\rm YY , 會購買商品 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华南理工计算机就业棒棒,为梦想、为公益,
- 下一篇: GPU+VORONOI+KOKKOS+O