【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目錄
- 一、 關聯規則
- 二、 數據項支持度
- 三、 關聯規則支持度
參考博客 :
- 【數據挖掘】關聯規則挖掘 Apriori 算法 ( 關聯規則簡介 | 數據集 與 事物 Transaction 概念 | 項 Item 概念 | 項集 Item Set | 頻繁項集 | 示例解析 )
一、 關聯規則
關聯規則 是指 :
某些 項集 出現在一個 事務 中 ,
可以推導出 :
另外一些 項集 也出現在同一個 事務 中 ;
如 : 事物 222 : t2={萵苣,尿布,啤酒,甜菜}t_2 = \{ 萵苣 , 尿布 , 啤酒 , 甜菜 \}t2?={萵苣,尿布,啤酒,甜菜}
{啤酒}\{ 啤酒 \}{啤酒} 111 項集 出現在購買清單 事務 222 中 , {尿布}\{ 尿布 \}{尿布} 111 項集 也出現在購買清單 事務 222 中 ;
二、 數據項支持度
支持度 表示 數據項 ( Item ) 在 事務 ( Transaction ) 中的 出現頻度 ;
支持度公式 :
Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)?
Support(X)\rm Support (X)Support(X) 指的是 X\rm XX 項集的支持度 ;
count(X)\rm count (X)count(X) 指的是 數據集 D\rm DD 中含有項集 X\rm XX 的事務個數 ;
count(D)\rm count(D)count(D) 指的是 數據集 D\rm DD 的事務總數 ;
示例 : 【數據挖掘】關聯規則挖掘 Apriori 算法 ( 關聯規則簡介 | 數據集 與 事物 Transaction 概念 | 項 Item 概念 | 項集 Item Set | 頻繁項集 | 示例解析 ) 六、數據集、事物、項、項集合、項集 示例
數據集 D\rm DD 為 :
| 001001001 | 奶粉 , 萵苣 |
| 002002002 | 萵苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 萵苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 萵苣 , 尿布 , 橙汁 |
項集 X={奶粉}\rm X=\{ 奶粉 \}X={奶粉} , 求該項集的支持度 ?\rm ??
根據上述公式 Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)? 計算支持度 ;
count(X)\rm count (X)count(X) 指的是 數據集 D\rm DD 中含有項集 X\rm XX 的事務個數 ;
含有 X={奶粉}\rm X=\{ 奶粉 \}X={奶粉} 項集的事務有 事務 1\rm 11 , 事務 333 , 事務 444 , 事務 555 , 得出 :
count(X)=4\rm count (X) = 4count(X)=4
count(D)\rm count(D)count(D) 指的是 數據集 D\rm DD 的事務總數 ; 得出
count(D)=5\rm count(D) = 5count(D)=5
則計算支持度 :
Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)?
Support(X)=45\rm Support (X) = \cfrac{4}{5}Support(X)=54?
三、 關聯規則支持度
關聯規則 X?Y\rm X \Rightarrow YX?Y 的支持度 ,
等于 項集 X∪Y\rm X \cup YX∪Y 的支持度 ;
公式為 :
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
示例 : 數據集 D\rm DD 為 :
| 001001001 | 奶粉 , 萵苣 |
| 002002002 | 萵苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 萵苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 萵苣 , 尿布 , 橙汁 |
求關聯規則 尿布?啤酒\rm 尿布 \Rightarrow 啤酒尿布?啤酒 的支持度 ???
上述問題等價于 , 項集 X={尿布,啤酒}\rm X=\{ 尿布 , 啤酒 \}X={尿布,啤酒} 的支持度 ;
根據上述公式
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
計算支持度 ;
count(X∪Y)\rm count (X \cup Y)count(X∪Y) 指的是 數據集 D\rm DD 中含有項集 X∪Y\rm X \cup YX∪Y 的事務個數 ;
含有 X∪Y={尿布,啤酒}\rm X \cup Y=\{ 尿布 , 啤酒 \}X∪Y={尿布,啤酒} 項集的事務有 事務 2\rm 22 , 事務 333 , 事務 444 , 得出 :
count(X∪Y)=3\rm count (X \cup Y) = 3count(X∪Y)=3
count(D)\rm count(D)count(D) 指的是 數據集 D\rm DD 的事務總數 ; 得出
count(D)=5\rm count(D) = 5count(D)=5
則計算支持度 :
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
Support(X)=Support(X∪Y)=35\rm Support (X) = Support (X \cup Y) = \cfrac{3}{5}Support(X)=Support(X∪Y)=53?
總結
以上是生活随笔為你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】关联规则挖掘 Apriori
- 下一篇: 【数据挖掘】关联规则挖掘 Apriori