论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)
?
一、論文整體思路:
作者提出了一種基于前綴樹的數據結構,NegNodeset,其實是對之前前綴樹的一種改進,主要區別在于采用了位圖編碼,通過這種數據結構產生的算法稱為negFIN。
negFIN算法高效有三個原因
?
二、問題定義
? ? ? ?I= {i1,i2,…, init} 表示事務數據庫所有項的集合,T表示每個事務,T?I ,DB = {T1,T2,…, Tnt} 是所有事務的集合
P稱為k-項集,如果P?T ,那么事務T包含了項集P,support(P)是DB中包含P的百分比,如果support(P)大于min-support
我們就稱P為頻繁項集,頻繁項集是2的nit 次方,nit = |I| 。
?
三、之前貢獻
? ? ?主要對前綴樹的研究,結構1)Node-list,2)N-list,3)Nodeset,4)DisffNodeset?(***先理解下前綴樹和哈希樹)
? ? ?1) Node-list和N-list是通過對節點進行先序和后序排列,這兩種數據結構產生的算法分別是PPV和PrePost頻繁項集挖掘算法,
? ? ? ? ? ?這兩個算法的缺點消耗了大量內存;
? ? ?2)對于這種情況,數據結構Nodeset將其進行改進,k-項集的獲得通過取k-1項集的交集,算法為FIN,確定是對于一些數據集Nodeset基數太大;
? ? ?3)為了將其進行改進,DiffNodest數據結構提出,k-項集的獲得兩個不同的k-1項集獲得,算法為dFIN,算法的更快了。
? ? ?4)文中提出了NegNodeset為了實現計算兩個不同的DiffNodesets花費時間較長,主要利用的是位圖,提出的算法negFIN;
?
四、相關工作
? ? ? ? 頻繁項集挖掘算法
? ? ? ?1)通過產生候選項集
? ? ? ? ? ? 比如Apriori算法,以及一些其他的算法,這種方法的主要缺點是需要多次掃描數據庫。
? ? ? ?2)模式增長方法
? ? ? ? ? ? ?這種方式不會產生候選項集,也避免了多次掃描數據庫,包括FP-tree和FP-growth算法,缺點:對于稀疏的數據集效率低,數據結構復雜。
? ? ? ?3)前綴樹方法
? ? ? ? ?
?
五、基本術語
? ? ? ? F1頻繁項集的集合,例如F1 = {e, b, a, c, d} ,
L1是根據支持度進行非降序排列的頻繁項集L1 = [e, d, c, b, a] ,L1 = [i0,i1,…, inf - 1] ,nf=|F1|
k-項集P,Pk = ik…i2i1 ,ik>...>i2>i1
例如P = {e, b, d} ,P3 = bde ,對Pk進行位圖編碼BMC(Pk) = bnf - 1…b1b0 ,這里需要注意的是
BMC(node-path)分為兩部分,主要部分和無關部分
?
轉載于:https://www.cnblogs.com/Optimism/p/10711138.html
總結
以上是生活随笔為你收集整理的论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: webpack(一) 配置
- 下一篇: data type