关联规则(Association Rules)笔记
1 關聯規則產生的原因:購物籃問題
????????關聯規則最初是為了解決購物籃問題而產生。上世紀九十年代,美國的沃爾瑪超市發現,啤酒和尿布這兩種完全不著邊際的商品竟然有很高的概率一起被購買。
????????在一段時間之后,他終于分析出了原因:
????????在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親去超市買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒。所以尿布和啤酒一起出現的概率就很高。
2 關聯規則
? ? ? ??關聯規則是形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(left-hand-side, LHS)和后繼(right-hand-side, RHS) 。
3 幾個重要的概念
在說概念之前,我們看一下我們這一小節涉及的數據集:
3.1 項
每一小件商品(如A、B、C、D),稱之為一個項
3.2 記錄
每一組商品的組合(如ABCD),稱之為一條記錄
3.3 項(目)集
? ? ? ? 由項組成的集合(不一定是記錄里面有的組合),如{A,B,C},{A,B,D}都是項集
3.4 K項集
? ? ? ? 項集中的元素個數為K,如{A,B,C}就是一個三項集
3.5?事務集
所有的記錄構成的集合稱之為事務集
在上圖中,{ABCD,ABCE,BDEF,BCDE,ACDF,ABC,ABE}稱之為一個事務集
3.6? 支持度
????????’????????
? ? ? ? 簡單理解就是頻率。而在數據量大的時候,頻率又可以近似為概率
? ? ? ? Sup(X)可以理解為某個項集出現的概率
以數據集
為例 sup({A,C})=4/7 (一共有7組數據,{A,C}同時出現的有4組)
3.7 置信度
簡單理解就是條件概率(XY同時出現的概率/X出現的概率)
如果X={A},Y={C},那么Con(X->Y)=
換言之,置信度等于X出現的基礎上,出現Y的概率。這樣想也是0.8
3.8 最小支持度
人為規定的一個支持度(后面會說明)
3.9 最小置信度
人為規定的一個置信度(后面會說明)
3.10 提升度
理解為B在A發生的基礎上再發生的概率,和B單獨發生的概率的比值?
如果提升度大于1,表示A的出現對于B的概率有推動作用。
3.11 頻繁K項集
支持度比最小支持度大的K項集
?比如我們最小支持度為0.5,sup({A,C})=4/7 >0.5 所以{A,C}是一個頻繁2項集
3.12 候選K項集
用來生成頻繁K項集的項集(后面會說明)
這個值不等價于所有K項集(后面會說明)
4 關聯規則定理
定理1:如果X是一個頻繁K項集,那么它的所有子集也是
????????X的子集出現的數量肯定大于等于X出現的數量(子集可能出現在非X的K項集里面),所以X子集的支持度肯定大于X的支持度。那么既然X都是頻繁K項集了,它的子集更是。
定理2:如果X的子集不是k-1項頻繁,那么它一定不是頻繁K項集
? ? ? ? 和定理1同樣的說明方法,X的子集的支持度肯定比X要大。那么既然子集都沒有大于最小支持度,那么X更沒有。
5 關聯準則主要步驟(Apriori算法)
重復2和3 直到無法篩選出滿足最小支持度的項集
? ? ?4. 將前面循環獲得的最終頻繁K項集依次取出。同時計算取出的這個K項集的所有真子集,以排列組合的方式形成關聯規則,并計算關聯規則的置信度和提升度,將符合要求的關聯規則提出
算法結束
6 關聯規則案例研究
我們令最小支持度是0.3(2.1/7)
第一步: 令K=1 計算所有單個商品的支持度,篩選出頻繁1項集?
K=2 時的第二步:根據k-1(即1)的頻繁1項集生成候選二項集,并進行預剪枝。
這一步得到的是所有的二項組合(并沒有做劃去{A,D}這些的操作)
(這一步還沒有預剪枝)
?K=2時的第三步?從候選K項集生成頻繁K項集
將上一步得到的候選二項集中支持度小于最小支持度的去掉(即去掉{A,D}這一類項集)
?K=3?時的第二步:根據k-1(即2)的頻繁2項集生成候選三項集,并進行預剪枝。
?K=3時的第三步?從候選K項集生成頻繁K項集
?
第四步
細心的話會發現,這里沒有{A,C}和{A,B}的組合,因為這兩個的組合和{C}和{B}之間的組合沒有區別
7 算法缺點
- ??時間復雜度大(每次計算一個K項集的支持度時,都需要掃描一遍事務集)
- ? 頻繁項目集長度變大的情況下,運算時間顯著增加
- 采用唯一支持度,沒有考慮各個屬性的重要程度
8 總結
如果一個規則 X->Y 是一個最小支持度s,最小置信度c的關聯規則,那么它需要滿足:
1) X?∪ Y 的 支持度大于s
2)X->Y的置信度大于c
參考資料:通俗易懂講算法-關聯規則_嗶哩嗶哩_bilibili
總結
以上是生活随笔為你收集整理的关联规则(Association Rules)笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SG 生活篇
- 下一篇: 文巾解题 53. 最大子序和