【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
文章目錄
- 一、 關聯規則挖掘簡介
- 二、 數據集 與 事物 ( Transaction ) 概念
- 三、項 ( Item ) 概念
- 四、項集 ( Item Set ) 概念
- 五、頻繁項集
- 六、數據集、事物、項、項集合、項集 示例
一、 關聯規則挖掘簡介
Apriori 算法 是 關聯規則 挖掘算法 ,
關聯規則 反映了 對象之間 相互依賴關系 ,
可以通過 一個對象 的行為或屬性 預測 其它對象的行為或屬性 ;
關聯規則 不是 因果關系 , 有可能有因果關系 , 有可能沒有 ;
如 : 購買商品時 , 啤酒 與 尿布 就有關聯關系 , 這兩個之間肯定沒有因果關系 , 有一種未知的關聯關系 ;
關聯規則挖掘步驟 :
① 步驟一 : 找出 支持度 ≥\geq≥ 最小支持度閾值 的 頻繁項集 ;
② 步驟二 : 根據 頻繁模式 生成 滿足 可信度閾值 的 關聯規則 ;
二、 數據集 與 事物 ( Transaction ) 概念
數據集 與 事物 ( Transaction ) 概念 :
數據挖掘 數據集 由 事物 構成 ;
數據集 記做 DDD ;
使用事物表示 數據集 , 表示為 D={t1,t2,?,tn}D = \{ t_1 , t_2 , \cdots , t_n \}D={t1?,t2?,?,tn?} ,
其中 tk,(k=1,2,?,n)t_k , \ ( k = 1, 2, \cdots, n )tk?,?(k=1,2,?,n) 稱為事物 ;
每個事物可以使用 唯一的標識符 表示 事物編號 ( TID ) ;
三、項 ( Item ) 概念
項 ( Item ) 概念 :
每個 事物 ( Transaction ) 由多個 項 ( Item ) 組成 ;
項 記做 iii ;
表示為 tk={i1,i2,?,in}t_k = \{ i_1 , i_2 , \cdots , i_n \}tk?={i1?,i2?,?,in?} ;
數據集 DDD 是所有 項 iii 的集合 是 III 集合 ;
四、項集 ( Item Set ) 概念
項集 ( Item Set ) 概念 :
III 中的 任意子集 XXX , 稱為 數據集 DDD 的 項集 ( Item Set ) ;
如果 項集 ( Item Set ) 中 項 ( Item ) 個數為 kkk ,
則稱該 項集 ( Item Set ) 為 kkk 項集 ( k-itemset ) ;
五、頻繁項集
頻繁項集 : 頻繁項集指的是出現次數較多的項集 ;
六、數據集、事物、項、項集合、項集 示例
| 001001001 | 奶粉 , 萵苣 |
| 002002002 | 萵苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 萵苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 萵苣 , 尿布 , 橙汁 |
整個 數據集 DDD , 由 555 個事物 構成 ;
數據集 : D={t1,t2,t3,t4,t5}D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t1?,t2?,t3?,t4?,t5?}
事物 111 : t1={奶粉,萵苣}t_1 = \{ 奶粉 , 萵苣 \}t1?={奶粉,萵苣}
事物 222 : t2={萵苣,尿布,啤酒,甜菜}t_2 = \{ 萵苣 , 尿布 , 啤酒 , 甜菜 \}t2?={萵苣,尿布,啤酒,甜菜}
事物 333 : t3={奶粉,尿布,啤酒,橙汁}t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t3?={奶粉,尿布,啤酒,橙汁}
事物 444 : t4={奶粉,萵苣,尿布,啤酒}t_4 = \{ 奶粉 , 萵苣 , 尿布 , 啤酒 \}t4?={奶粉,萵苣,尿布,啤酒}
事物 555 : t5={奶粉,萵苣,尿布,橙汁}t_5 = \{ 奶粉 , 萵苣 , 尿布 , 橙汁 \}t5?={奶粉,萵苣,尿布,橙汁}
上述 事物 集合中的元素 iii 都稱為項 , 奶粉,萵苣,尿布,啤酒,甜菜,橙汁奶粉 , 萵苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,萵苣,尿布,啤酒,甜菜,橙汁 都是 項 ;
I={奶粉,萵苣,尿布,啤酒,甜菜,橙汁}I = \{ 奶粉 , 萵苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,萵苣,尿布,啤酒,甜菜,橙汁}
項集 : 任意不相同的項組成的集合就稱為項集 , 上述 666 個元素的集合有 262^626 個項集 ; 參考集合冪集個數
{奶粉}\{ 奶粉 \}{奶粉} 是 111 項集 ;
{尿布,啤酒}\{ 尿布 , 啤酒 \}{尿布,啤酒} 是 222 項集 ;
{萵苣,尿布,啤酒}\{ 萵苣 , 尿布 , 啤酒 \}{萵苣,尿布,啤酒} 是 333 項集 ;
{奶粉,萵苣,尿布,啤酒}\{ 奶粉 , 萵苣 , 尿布 , 啤酒 \}{奶粉,萵苣,尿布,啤酒} 是 444 項集 ;
{奶粉,萵苣,尿布,啤酒,甜菜}\{ 奶粉 , 萵苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,萵苣,尿布,啤酒,甜菜} 是 555 項集 ;
{奶粉,萵苣,尿布,啤酒,甜菜,橙汁}\{ 奶粉 , 萵苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,萵苣,尿布,啤酒,甜菜,橙汁} 是 666 項集 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android 安全】DEX 加密 (
- 下一篇: 【数据挖掘】关联规则挖掘 Apriori