【数据挖掘笔记七】高级模式挖掘
7.高級模式挖掘
模式挖掘是比頻繁模式挖掘更一般的術語,前者還涵蓋了稀有模式和負模式。
?
7.1?模式挖掘:一個路線圖
模式挖掘的研究關注三個方面:所挖掘的模式類型、挖掘方法和應用。
模式挖掘研究的一般路線圖:
?
?
?
7.2?多層、多維空間中的模式挖掘
?
多層關聯(lián)涉及多個抽象層的概念。多維關聯(lián)涉及多個維或謂詞。?量化關聯(lián)涉及其值之間有序的數(shù)值屬性。負模式顯示項之間的負關聯(lián)。
1)挖掘多層關聯(lián)規(guī)則
在多個抽象層的數(shù)據(jù)上挖掘產生的關聯(lián)規(guī)則稱為多層關聯(lián)規(guī)則。在支持度-置信度框架下,使用概念分層可有效地挖掘多層關聯(lián)規(guī)則。一般而言,可采用自頂向下策略,由概念層1開始,向下到較低的、更特定的概念層,在每個概念層累計計數(shù),計算頻繁項集,直到不能再找到頻繁項集。
2)挖掘多維關聯(lián)規(guī)則
涉及兩個或多個維或謂詞的關聯(lián)規(guī)則稱做多維關聯(lián)規(guī)則(multidimensional?association?rule)。多個謂詞,但每個謂詞在規(guī)則中僅出現(xiàn)一次,稱其具有不重復謂詞。具有不重復謂詞的關聯(lián)規(guī)則稱做維間關聯(lián)規(guī)則。挖掘具有重復謂詞的關聯(lián)規(guī)則,包括某些謂詞的多次出現(xiàn),稱做混合維關聯(lián)規(guī)則。
挖掘多維關聯(lián)規(guī)則的技術分為兩種方法:
第一種方法,使用預先定義的概念分層對量化屬性離散化,方法稱為使用量化屬性的靜態(tài)離散化挖掘多維關聯(lián)規(guī)則;
第二種方法,根據(jù)數(shù)據(jù)分布將量化屬性離散化或聚類到“箱”,方法稱為動態(tài)量化關聯(lián)規(guī)則。
K-謂詞集是包含k個合取謂詞的集合。
3)挖掘量化關聯(lián)規(guī)則
基于數(shù)據(jù)立方體挖掘的量化關聯(lián)規(guī)則,在多維空間存儲聚集信息,可用于計算多維關聯(lián)規(guī)則的支持度和置信度。
基于聚類的量化關聯(lián)規(guī)則,有趣的頻繁模式或關聯(lián)規(guī)則通常在量化屬性相對稠密的簇中出現(xiàn),可采用自頂向下的聚類和自底向上的聚類來發(fā)現(xiàn)量化規(guī)則。
使用統(tǒng)計學理論發(fā)現(xiàn)異常行為,使用統(tǒng)計檢驗證實規(guī)則的有效性。
4)挖掘稀有模式和負模式
????有趣的不只是頻繁模式,也可能是稀有模式或發(fā)現(xiàn)反映項之間負相關的負模式。
7.3?基于約束的頻繁模式挖掘
基于約束的挖掘包括:
1)知識類型約束:指定待挖掘的知識類型,如關聯(lián)、相關、分類或聚類。
2)數(shù)據(jù)約束:指定任務相關的數(shù)據(jù)集。
3)維/層約束:指定挖掘中所使用的數(shù)據(jù)維(或屬性)、抽象層,或概念分層結構的層次。
4)興趣度約束:指定規(guī)則興趣度的統(tǒng)計度量閾值,如支持度、置信度和相關性。
5)規(guī)則約束:指定要挖掘的規(guī)則形式或條件。這個約束可以用元規(guī)則(規(guī)則模板)表示,如可以出現(xiàn)在規(guī)則前件或后件中謂詞的最大或最小個數(shù),或屬性、屬性值和聚集之間的聯(lián)系。
基于約束的挖掘支持交互式探索挖掘與分析。元規(guī)則使得用戶可以說明他們感興趣的規(guī)則的語法形式。規(guī)則的形式可以作為約束,幫助提高挖掘過程的性能。元規(guī)則可以根據(jù)分析者的經驗、期望或對數(shù)據(jù)的直覺,或者根據(jù)數(shù)據(jù)庫模式自動產生。
一般而言,一種有效的頻繁模式挖掘過程可以用兩種主要方法在挖掘期間對其搜索空間進行剪枝:模式搜索空間剪枝和數(shù)據(jù)搜索空間剪枝。
7.4?挖掘高維數(shù)據(jù)和巨型模式
搜索空間隨維數(shù)呈指數(shù)增長,解決上,一個方向是利用垂直數(shù)據(jù)格式,擴充模式增長方法,處理具有大量維但少量行的數(shù)據(jù)集;另一個方向是開發(fā)模式融合的挖掘方法,用于挖掘巨型模式。
模式融合的挖掘方法,通過融合少量較短的頻繁模式,形成巨型模式候選,在模式搜索空間跳躍,避開了寬度優(yōu)先和深度優(yōu)先搜索容易落入的陷阱,可以得到巨型頻繁模式完全集的一個很好的近似解。
模式融合旨在產生巨型模式的近似解,需引進一個質量評估模型,即核模式。融合模式有兩個階段:
1)池初始化:模式融合假定有一個短頻繁模式的初始池,是一個短長度的頻繁模式的完全集,這個初始池可以用任意已有的有效挖掘算法挖掘。
2)迭代的模式融合:模式融合取用戶指定的參數(shù)K作為輸入,K是要挖掘模式的最大個數(shù)。挖局過程是迭代的,每次迭代中,從當前池中隨機地選擇K個種子,對于每個種子,找出直接為既定值的球內的所有模式。然后,每個球中的所有模式融合在一起,形成一個超模式集。這些超模式形成新的池,由于每個超模式的支集隨迭代而收斂,因此迭代過程終止。
7.5?挖掘壓縮或近似模式
頻繁模式挖掘的主要挑戰(zhàn)是所發(fā)現(xiàn)的模式數(shù)量巨大。為壓縮挖掘產生的巨大的頻繁模式集,同時維持高質量的模式,可以挖掘頻繁模式的壓縮集合或近似集合。Top-k最頻繁閉模式的提出使得挖掘過程只關注k個最頻繁模式。
1)通過模式聚類挖掘壓縮模式?
模式聚類,要先定義一種好的相似性度量,根據(jù)該度量對模式聚類,然后每個簇僅選擇和輸出一個代表模式。由于閉頻繁模式的集合是原頻繁模式集合的無損壓縮,因此在閉模式集合上發(fā)現(xiàn)代表模式是可行的。
2)提取感知冗余的top-k模式
挖掘top-k個最頻繁模式是一種減少挖掘返回的模式數(shù)量的策略。感知冗余的top-k模式在顯著性和冗余性之間進行平衡,定義兩個模式間的冗余性。
7.6?模式探索和應用
通過頻繁模式的語義注解返回附加信息,有助于理解模式。頻繁模式高質量語義注解的關鍵是成功的模式語境建模。語義模式注解的基本任務是:
1)選擇語境單元,并多每個單元設計強度權重,對頻繁模式的語境建模;
2)為兩個模式的語境、一個事務和一個模式的語境設計相似性度量;
3)對于給定的頻繁模式,提取最顯著的語境指示符、代表事務和語義相似模式,構建注解。
在數(shù)據(jù)密集型應用中,模式挖掘作為預處理,廣泛地用于噪聲過濾和數(shù)據(jù)清理。模式挖掘也有助于發(fā)現(xiàn)隱藏在數(shù)據(jù)中的固有結構和簇。頻繁模式也可用于高維空間中子空間的有效聚類。對于時間空間數(shù)據(jù)、時間序列數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)和多媒體數(shù)據(jù)的分析,模式分析也是有用的。模式挖掘還用于序列或結構數(shù)據(jù)分析,如樹、圖、子序列和網(wǎng)絡分析。頻繁模式和有判別力的模式可用做基本的索引結構(稱為圖索引),幫助搜索大型復雜的、結構化的數(shù)據(jù)集和網(wǎng)絡。頻繁模式還可用于推薦系統(tǒng),可發(fā)現(xiàn)相關性、顧客行為的簇和基于一般事件或有判別力模式的分類模型。對模式挖掘有效計算方法的研究和可伸縮的計算研究相互加強。
7.7?小結
1)除了挖掘基本的頻繁項集和關聯(lián)外,還可以挖掘高級的模式形式,如多層關聯(lián)和多維關聯(lián)、量化關聯(lián)規(guī)則、稀有模式和負模式,還可挖掘高維模式、壓縮的或近似的模式。
2)多層關聯(lián)涉及多個抽象層中的數(shù)據(jù),還可以使用多個最小支持度閾值挖掘。多維關聯(lián)包含多個維。挖掘這種關聯(lián)的技術因如何處理重復謂詞而異。量化關聯(lián)規(guī)則涉及量化屬性。離散化、聚類和揭示異常行為的統(tǒng)計分析可以與模式挖掘過程集成在一起。
3)稀有模式很少出現(xiàn)但特別有趣。負模式是其成員呈現(xiàn)負相關行為的模式。需小心定義負模式,考慮零不變性性質。稀有模式和負模式可能凸顯數(shù)據(jù)的異常行為,可能很有趣。
4)基于約束的挖掘策略可以用來引導挖掘過程,挖掘與用戶直觀一致或滿足某些約束的模式。約束分為模式剪枝約束和數(shù)據(jù)剪枝約束,這些約束的性質包括單調性、反單調性、數(shù)據(jù)反單調性和簡潔性。
5)高維空間模式挖掘方法,包括為挖掘維數(shù)很大但元組很少的數(shù)據(jù)集(如微陣列數(shù)據(jù))的基于行枚舉的模式增長方法,以及通過模式融合方法挖掘巨型模式(即非常大的模式)。
6)為減少挖掘返回的模式數(shù)量,可以代之以挖掘壓縮模式或近似模式。壓縮模式可以通過基于聚類概念定義代表模式來挖掘,而近似模式則通過提取感知冗余的top-k模式(即k個代表模式的小集合,不僅具有高顯著性,而且相互之間低冗余)來挖掘。
7)可以產生語義注解來幫助用戶理解發(fā)現(xiàn)的頻繁模式的含義。注解類似詞典,提供關于項的語義信息,包括語境指示符、最具代表性的事務和語義最相似的模式。
8)頻繁模式挖掘具有廣泛的應用,涵蓋基于模式的數(shù)據(jù)清理,到基于模式的分類、聚類、離群點或異常分析。
總結
以上是生活随笔為你收集整理的【数据挖掘笔记七】高级模式挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 捕鼠记
- 下一篇: 【数据挖掘笔记八】分类:基本概念