R语言数据挖掘2.1.1.1 频繁项集
2.1.1.1 頻繁項集
頻繁項集的概念來源于真實的購物籃分析。在諸如亞馬遜等商店中,存在很多的訂單或交易數(shù)據(jù)。當(dāng)客戶進(jìn)行交易時,亞馬遜的購物車中就會包含一些項。商店店主可以通過分析這些大量的購物事務(wù)數(shù)據(jù),發(fā)現(xiàn)顧客經(jīng)常購買的商品組合。據(jù)此,可以簡單地定義零個或多個項的組合為項集。
我們把一項交易稱為一個購物籃,任何購物籃都有組元素。將變量s設(shè)置為支持閾值,我們可以將它和一組元素在所有的購物籃中出現(xiàn)的次數(shù)做比較,如果這組元素在所有購物籃中出現(xiàn)的次數(shù)不低于s,我們就將這組元素稱為一個頻繁項集。
若一個項集包含有k個項,則該項集稱為k項集,其中k是非零整數(shù)。項集X的支持計數(shù)記為support_count(X),表示給定數(shù)據(jù)集中包含項集X的計數(shù)。
給定一個預(yù)先定義的最小支持度閾值s,如果support_count(X)≥s,則稱項集X為頻繁項集。最小支持度閾值s是一個可以自定義的參數(shù),可以根據(jù)領(lǐng)域?qū)<一蚪?jīng)驗進(jìn)行調(diào)整。
頻繁項集也經(jīng)常應(yīng)用于許多領(lǐng)域,如下表所示。
????? 項?? 籃子???? 說明
相關(guān)概念???? 詞?? 文檔????
剽竊???? 文檔???? 句子????
生物標(biāo)記物? 生物標(biāo)記物和疾病??? 病人的數(shù)據(jù)集???
?
如果某個項集是頻繁的,那么該項集的任何一個子集也一定是頻繁的。這稱為Apriori原理,它是Apriori算法的基礎(chǔ)。Apriori原理的直接應(yīng)用就是用來對大量的頻繁項集進(jìn)行剪枝。
影響頻繁項集數(shù)目的一個重要因素是最小支持計數(shù):最小支持計數(shù)越小,頻繁項集的數(shù)目也越多。
為了優(yōu)化頻繁項集生成算法,人們提出一些其他概念:
閉項集:給定數(shù)據(jù)集S,如果Y∈S, X? Y,則support_count (X) ≠ support_count (Y),那么X稱作閉項集。換言之,如果X是頻繁的,則X是頻繁閉項集。
最大頻繁項集:如果Y∈S, X? Y,X是最大頻繁項集,則Y是非頻繁的。換言之,Y沒有頻繁超集。
約束頻繁項集:若頻繁項集X滿足用戶指定的約束,則X稱為約束頻繁項集。
近似頻繁項集:若項集X只給出待挖掘數(shù)據(jù)近似的支持計數(shù),則稱為近似頻繁項集。
top-k頻繁項集:給定數(shù)據(jù)集S和用戶指定的整數(shù)k,若X是前k個頻繁項集,則X稱為top-k頻繁項集。
下面給出一個事務(wù)數(shù)據(jù)集的例子。所有項集僅包含集合D = {Ik |{k∈[1,7]}中的項。假定最小支持度計數(shù)為3。
tid(交易號)??? 項集或交易中的項列表
T001???? I1, I2, I4, I7
T002???? I2, I3, I6
T003???? I1, I4, I6
T004???? I1, I2, I5
T005???? I2, I3, I4
T006???? I2, I5, I6
T007???? I2, I4, I7
T008???? I1, I7
T009???? I1, I2, I3
T010???? I1, I2, I4
?
那么,可以得到頻繁項集L1 = {Ik | k∈{1, 2, 4, 6, 7}}和L2 = {{I1, I2},{I1, I4},{I2, I4}}。
總結(jié)
以上是生活随笔為你收集整理的R语言数据挖掘2.1.1.1 频繁项集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 魔兽怀旧服部落1-60升级任务路线 47
- 下一篇: 魔兽世界怀旧服法师选什么天赋 法师天赋详