當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

A-priori算法

發布時間：2023/12/16 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 A-priori算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

A-priori算法

A-priori算法
- 相關概念
- A-priori算法流程
- 算法示例
- A-priori算法的優缺點
- - 優點
  - 缺點

A-priori算法

關聯規則是一種有效且很重要的數據挖掘方法，它可以從海量數據中挖掘出數據之間有意義的關聯規則及它們之間的相關聯系，幫助相關人員分析數據并做出合適的決策；其最典型的應用例子是購物車分析，即通過分析顧客放入購物車中的商品來分析顧客的購買習慣，從而指導零售商制定更好的營銷策略。

購物籃模型：描述兩類對象之間多對多的關系。

目前常用的關聯規則方法有很多，如貝葉斯網絡、決策樹、A-priori 算法等。其中 A-priori 算法是關聯規則挖掘頻繁項集的經典算法，最早由 R.Agrawal 等人在 1993 年提出來的，是一種挖掘單維布爾型的關聯規則算法，很多算法也是以其為核心進行改進的。

A-priori算法的目的：

A-priori算法的中心思想：

A-priori算法流程

輸入：數據集合 D ，支持度閾值 α（支持度閾值一般為經驗值或實驗值）

輸出：最大的頻繁k項集

相關定義：

自連接步驟：頻繁k-1項集L_k-1的自身連接產生候選k項集C_k。
剪枝策略：由于存在先驗性質：任何非頻繁的k-1項集都不是頻繁k項集的子集。因此，如果一個候選k項集C_k的k-1項子集不在L_k-1中，則該候選也不可能是頻繁的，從而可以從C_k中刪除，獲得壓縮后的C_k。
刪除策略：基于壓縮后的C_k，掃描所有事務，對C_k中的每個項進行計數，然后刪除不滿足支持度閾值s的項，從而獲得頻繁k項集。

算法步驟：

掃描整個數據集，得到所有出現過的數據，作為候選頻繁1項集。k = 1，頻繁0項集為空集。

挖掘頻繁k項集：
a. 掃描數據計算候選頻繁k項集的支持度
b. 去除候選頻繁k項集中支持度低于閾值的數據集，得到頻繁k項集（使用剪枝策略和刪除策略）。如果得到的頻繁k項集為空，則直接返回頻繁k-1項集的集合作為算法結果，算法結束。如果得到的頻繁k項集只有一項，則直接返回頻繁k項集的集合作為算法結果，算法結束。
c. 基于頻繁k項集，自連接生成候選頻繁k+1項集（自連接步驟）。

令k=k+1，轉入步驟2。

算法示例

假定事物數據庫如下所示：

Step 1：將所有的單個項作為候選集，通過掃描數據庫中所有事務，生成一個候選1項集C₁；然后計算出每個候選集出現的次數，并根據預先設定的最小支持度閾值 s=2，選擇頻繁1項集L₁。

Step 2：通過項集L₁產生候選頻繁2項集L₂。

Step 3：通過項集L₂產生候選頻繁3項集L₃。

Step 4：因為L₃無法產生候選4項集，所以終止迭代過程。在實際情況中，當數據較多的，一層一層向上尋找，當無法繼續構造時停止處理。

Step 5：根據產生的頻繁項集生成關聯規則，利用L₃={ B, C, D }產生關聯規則，確定該頻繁項集中所有非空子集。

Step 6：根據各項子集產生關聯規則，并計算各個表達式的可信度。

支持度大，置信度則越高（如關聯規則2與關聯規則3），關聯規則的實用機會就大，此關聯規則就越重要；一些關聯規則置信度很高，但支持度很低（如關聯規則9, 10, 11），則此關聯規則就不那么重要。

A-priori算法的優缺點

優點

如果使用樸素算法，隨著尋找頻繁k項集中k值的增大，需要遍歷的候選項集數會非常巨大，而A-priori算法可以通過減少候選集的大小來獲得相對良好的性能，并且A-priori算法原理較簡單，易于實現。

缺點

在數據集很大或支持度閾值設置較小時，A-priori算法依然會生成數量龐大的候選項集，并需要對數據進行反復的掃描，造成算法性能的低下。

總結

以上是生活随笔為你收集整理的A-priori算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jQuery可拖拽3D万花筒旋转特效
下一篇： vue3.0组合式api语法使用总结

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

A-priori算法

A-priori算法

A-priori算法

相關概念

A-priori算法流程

算法示例

A-priori算法的優缺點

優點

缺點

總結