数据挖掘基础之数据库
最近出現(xiàn)的一種數(shù)據(jù)庫結(jié)構(gòu)是數(shù)據(jù)倉庫(1.3.2 小節(jié))。這是一種多個(gè)異種數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。數(shù)據(jù)倉庫
技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機(jī)分析處理(OLAP)。OLAP 是一種分析技術(shù),具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力。盡管 OLAP 工具支持多維分析和決策,對(duì)于深層次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特征,仍然需要其它分析工具。
許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語“數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)”或 KDD 的同義詞。而另一些人只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過程如圖 1.4 所示,由以下步驟組成:
1. 數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù))
2. 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)1
3. 數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))
4. 數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如,通過匯總或聚集操作)
5. 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)
6. 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別提供知識(shí)的真正有趣的模式;1.5 節(jié))
7. 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))。
?
典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分:
1 數(shù)據(jù)庫、數(shù)據(jù)倉庫、或其它信息庫:這是一個(gè)或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、展開的表、或其它類型的信息庫。可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。
2 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請(qǐng)求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。
3知識(shí)庫:這是領(lǐng)域知識(shí),用于指導(dǎo)搜索,或評(píng)估結(jié)果模式的興趣度。這種知識(shí)可能包括概念分層,用于將屬性或?qū)傩灾到M織成不同的抽象層。用戶確信方面的知識(shí)也可以包含在內(nèi)??梢允褂眠@種知識(shí),根據(jù)非期望性評(píng)估模式的興趣度。領(lǐng)域知識(shí)的其它例子有興趣度限制或閾值和元數(shù)據(jù)(例如,描述來自多個(gè)異種數(shù)據(jù)源的數(shù)據(jù))。
4數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征、關(guān)聯(lián)、分類、聚類分析、演變和偏差分析。
5模式評(píng)估模塊:通常,該部分使用興趣度度量(1.5 節(jié)),并與挖掘模塊交互,以便將搜索聚焦在有趣的模式上。它可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。模式評(píng)估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。對(duì)于有效的數(shù)據(jù)挖掘,建議盡可能地將模式評(píng)估推進(jìn)到挖掘過程之中,以便將搜索限制在有興趣的模式上。
6圖形用戶界面:該模塊在用戶和挖掘系統(tǒng)之間通訊,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息、幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,該成分還允許用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu),評(píng)估挖掘的模式,以不同的形式對(duì)模式可視化。
?
關(guān)系數(shù)據(jù)庫
數(shù)據(jù)庫系統(tǒng),也稱數(shù)據(jù)庫管理系統(tǒng)(DBMS),由一組內(nèi)部相關(guān)的數(shù)據(jù),稱作數(shù)據(jù)庫,和一組管理和存取數(shù)據(jù)的軟件程序組成。軟件程序涉及如下機(jī)制:數(shù)據(jù)庫結(jié)構(gòu)定義,數(shù)據(jù)存儲(chǔ),并行、共享或分布的數(shù)據(jù)訪問,面對(duì)系統(tǒng)癱瘓或未授權(quán)的訪問,確保數(shù)據(jù)的一致性和安全性。
關(guān)系數(shù)據(jù)庫是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。每個(gè)表包含一組屬性(列或字段),
并通常存放大量元組(記錄或行)。關(guān)系中的每個(gè)元組代表一個(gè)被唯一關(guān)鍵字標(biāo)識(shí)的對(duì)象,并被一
組屬性值描述。語義數(shù)據(jù)模型,如實(shí)體-聯(lián)系(ER)數(shù)據(jù)模型,將數(shù)據(jù)庫作為一組實(shí)體和它們之間的聯(lián)系進(jìn)行建模。通常為關(guān)系數(shù)據(jù)庫構(gòu)造 ER 模型。
?
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ),存放在一個(gè)一致的模式下,并通常駐留在單個(gè)站點(diǎn)。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、
數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新構(gòu)造。
通常,數(shù)據(jù)倉庫用多維數(shù)據(jù)庫結(jié)構(gòu)建模。其中,每個(gè)維對(duì)應(yīng)于模式中一個(gè)或一組屬性,每個(gè)單元存放聚集度量,如 count 或 sales_amount。數(shù)據(jù)倉庫的實(shí)際物理結(jié)構(gòu)可以是關(guān)系數(shù)據(jù)存儲(chǔ)或多維數(shù)據(jù)方。它提供數(shù)據(jù)的多維視圖,并允許快速訪問預(yù)計(jì)算的和匯總的數(shù)據(jù)。
數(shù)據(jù)倉庫收集了整個(gè)組織的主題信息,因此,它是企業(yè)范圍的。另一方面,數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個(gè)部門子集。它聚焦在選定的主題上,是部門范圍的。
通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預(yù)計(jì)算,數(shù)據(jù)倉庫非常適合聯(lián)機(jī)分析處理(OLAP)。OLAP操作使用數(shù)據(jù)的領(lǐng)域背景知識(shí),允許在不同的抽象層提供數(shù)據(jù)。這些操作適合不同的用戶。OLAP操作的例子包括下鉆和上卷,它們?cè)试S用戶在不同的匯總級(jí)別觀察數(shù)據(jù),如圖 1.8(b)所示。例如,可以對(duì)按季度匯總的銷售數(shù)據(jù)下鉆,觀察按月匯總的數(shù)據(jù)。類似地,可以對(duì)按城市匯總的銷售數(shù)據(jù)上卷,觀察按國家匯總的數(shù)據(jù)。
?
事務(wù)數(shù)據(jù)庫
一般地,事務(wù)數(shù)據(jù)庫由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。通常,一個(gè)事務(wù)包含一個(gè)唯一的事務(wù)標(biāo)識(shí)號(hào)(trans_ID),和一個(gè)組成事務(wù)的項(xiàng)的列表(如,在商店購買的商品)。事務(wù)數(shù)據(jù)庫可能有一些與之相關(guān)聯(lián)的附加表,包含關(guān)于銷售的其它信息,如事務(wù)的日期、顧客的 ID 號(hào)、銷售者的 ID 號(hào)、銷售分店,等等。
?
高級(jí)數(shù)據(jù)庫系統(tǒng)和高級(jí)數(shù)據(jù)庫應(yīng)用
關(guān)系數(shù)據(jù)庫系統(tǒng)廣泛地用于商務(wù)應(yīng)用。隨著數(shù)據(jù)庫技術(shù)的發(fā)展,各種先進(jìn)的數(shù)據(jù)庫系統(tǒng)已經(jīng)出現(xiàn)并在開發(fā)中,以適應(yīng)新的數(shù)據(jù)庫應(yīng)用需要。
新的數(shù)據(jù)庫應(yīng)用包括處理空間數(shù)據(jù)(如地圖)、工程設(shè)計(jì)數(shù)據(jù)(如建筑設(shè)計(jì)、系統(tǒng)部件、集成
電路)、超文本和多媒體數(shù)據(jù)(包括文本、圖象和聲音數(shù)據(jù))、時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股
票交換數(shù)據(jù))和萬維網(wǎng)(Internet 使得巨大的、廣泛分布的信息存儲(chǔ)可以利用)。這些應(yīng)用需要有效的數(shù)據(jù)結(jié)構(gòu)和可規(guī)?;姆椒?#xff0c;處理復(fù)雜的對(duì)象結(jié)構(gòu)、變長記錄、半結(jié)構(gòu)化或無結(jié)構(gòu)的數(shù)據(jù),文本和多媒體數(shù)據(jù),以及具有復(fù)雜結(jié)構(gòu)和動(dòng)態(tài)變化的數(shù)據(jù)庫模式。
響應(yīng)這些需求,開發(fā)了先進(jìn)的數(shù)據(jù)庫系統(tǒng)和面向特殊應(yīng)用的數(shù)據(jù)庫系統(tǒng)。這些包括面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫系統(tǒng)、空間數(shù)據(jù)庫系統(tǒng)、時(shí)間和時(shí)間序列數(shù)據(jù)庫系統(tǒng)、異種和遺產(chǎn)數(shù)據(jù)庫系統(tǒng)、基于萬維網(wǎng)的全球信息系統(tǒng)。
雖然這樣的數(shù)據(jù)庫或信息存儲(chǔ)需要復(fù)雜的機(jī)制,以便有效地存儲(chǔ)、提取和更新大量復(fù)雜的數(shù)據(jù),它們也為數(shù)據(jù)挖掘提供了肥沃的土壤,提出了挑戰(zhàn)性的研究和實(shí)現(xiàn)問題。本節(jié),我們將介紹上面列舉的每種高級(jí)數(shù)據(jù)庫系統(tǒng)。
面向?qū)ο髷?shù)據(jù)庫
向?qū)ο髷?shù)據(jù)庫基于面向?qū)ο蟪绦蛟O(shè)計(jì)范例。用一般術(shù)語,每個(gè)實(shí)體被看作一個(gè)對(duì)象。對(duì)于AllElectronics 例子,對(duì)象可以是每個(gè)雇員、顧客、商品。涉及一個(gè)對(duì)象的數(shù)據(jù)和代碼封裝在一個(gè)單元中。每個(gè)對(duì)象關(guān)聯(lián):
1??一個(gè)變量集,它描述數(shù)據(jù)。這對(duì)應(yīng)于實(shí)體-聯(lián)系和關(guān)系模型的屬性。
2? ??一個(gè)消息集,對(duì)象可以使用它們與其它對(duì)象,或與數(shù)據(jù)庫系統(tǒng)的其它部分通訊。
3? ?一個(gè)方法集,其中每個(gè)方法存放實(shí)現(xiàn)一個(gè)消息的代碼。一旦收到消息,方法就返回一個(gè)響應(yīng)值。例如,消息 get_photo(employee)的方法將提取并返回給定雇員對(duì)象的照片。
共享公共特性集的對(duì)象可以歸入一個(gè)對(duì)象類。每個(gè)對(duì)象都是其對(duì)象類的實(shí)例。對(duì)象類可以組成/子類層次結(jié)構(gòu),使得每個(gè)類代表該類對(duì)象共有的特性。例如,類 employee 可以包含變量 name, address 和birthdate。假定類 sales_person 是 employee 的子類。一個(gè) sales_person 對(duì)象將繼承屬于其超類 employee 的所有變量。此外,它還具有作為一個(gè)銷售員特有的所有變量(如,commission)。這種類繼承特性有利于信息共享。
對(duì)象-關(guān)系數(shù)據(jù)庫
對(duì)象-關(guān)系數(shù)據(jù)庫基于對(duì)象-關(guān)系數(shù)據(jù)模型構(gòu)造。該模型通過提供處理復(fù)雜對(duì)象的豐富數(shù)據(jù)類型和對(duì)象定位,擴(kuò)充關(guān)系模型。此外,它還包含關(guān)系查詢語言的特殊構(gòu)造,以便管理增加的數(shù)據(jù)類型。
通過增加處理復(fù)雜數(shù)據(jù)類型、類層次結(jié)構(gòu)和如上所述的對(duì)象繼承,對(duì)象-關(guān)系模型擴(kuò)充了基本關(guān)系模型。對(duì)象-關(guān)系數(shù)據(jù)庫在工業(yè)和應(yīng)用正日趨流行。
在面向?qū)ο蠛蛯?duì)象-關(guān)系系統(tǒng)中的數(shù)據(jù)挖掘具有某些類似性。與關(guān)系數(shù)據(jù)挖掘相比,需要開發(fā)新的技術(shù),處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、特性繼承以及方法和過程。
時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫
時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。這些屬性可能涉及若干時(shí)間標(biāo)簽,每個(gè)都具有不同的語義。時(shí)間序列數(shù)據(jù)庫存放隨時(shí)間變化的值序列,如,收集的股票交易數(shù)據(jù)。
數(shù)據(jù)挖掘技術(shù)可以用來發(fā)現(xiàn)數(shù)據(jù)庫中對(duì)象演變特征或?qū)ο笞兓厔?shì)。這些信息對(duì)于決策和規(guī)劃
是有用的。例如,銀行數(shù)據(jù)的挖掘可能有助于根據(jù)顧客的流量安排銀行出納員??梢酝诰蚬善苯灰?/strong>
數(shù)據(jù),發(fā)現(xiàn)可能幫助你制訂投資策略的趨勢(shì)(例如,何時(shí)是購買 AllElectronics 的股票的最佳時(shí)機(jī)?)。通常,這種分析需要定義時(shí)間的多粒度。例如,時(shí)間可以按財(cái)政年、學(xué)年或日歷年分解。年可以進(jìn)一步分解成季度或月。
文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫
文本數(shù)據(jù)庫是包含對(duì)象文字描述的數(shù)據(jù)庫。通常,這種詞描述不是簡(jiǎn)單的關(guān)鍵詞,而是長句子
或短文,如產(chǎn)品介紹、錯(cuò)誤或故障報(bào)告、警告信息、匯總報(bào)告、筆記或其它文檔。文本數(shù)據(jù)庫可能
是高度非規(guī)格化的(如,萬維網(wǎng)上的網(wǎng)頁)。有些文本數(shù)據(jù)庫可能是半結(jié)構(gòu)化的(如 email 消息和一些 HTML/XML 網(wǎng)頁),而其它的可能是良結(jié)構(gòu)化的(如圖書館數(shù)據(jù)庫)。通常,具有很好結(jié)構(gòu)的文本數(shù)據(jù)庫可以使用關(guān)系數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)。
“文本數(shù)據(jù)庫上的數(shù)據(jù)挖掘可以發(fā)現(xiàn)什么?”說到底,可以發(fā)現(xiàn)對(duì)象類的一般描述,以及關(guān)鍵詞或內(nèi)容的關(guān)聯(lián)和文本對(duì)象的聚類行為。為做到這一點(diǎn),需要將標(biāo)準(zhǔn)的數(shù)據(jù)挖掘技術(shù)與信息提取技術(shù)和文本數(shù)據(jù)特有的層次構(gòu)造(如字典和辭典),以及面向?qū)W科的(如化學(xué)、醫(yī)學(xué)、法律或經(jīng)濟(jì))術(shù)語分類系統(tǒng)集成在一起。
多媒體數(shù)據(jù)庫存放圖象、音頻和視頻數(shù)據(jù)。它們用于基于圖內(nèi)容的提取、聲音傳遞、錄像點(diǎn)播、萬維網(wǎng)和識(shí)別口語命令的基于語音的用戶界面等方面。多媒體數(shù)據(jù)庫必須支持大對(duì)象,因?yàn)橄笠曨l這樣的數(shù)據(jù)對(duì)象可能需要數(shù)十億字節(jié)的存儲(chǔ)。還需要特殊的存儲(chǔ)和檢索技術(shù),因?yàn)橐曨l和音頻數(shù)據(jù)需要以穩(wěn)定的、預(yù)先確定的速率實(shí)時(shí)檢索,防止圖象或聲音間斷和系統(tǒng)緩沖區(qū)溢出。這種數(shù)據(jù)稱為連續(xù)媒體數(shù)據(jù)。
對(duì)于多媒體數(shù)據(jù)庫挖掘,需要將存儲(chǔ)和檢索技術(shù)與標(biāo)準(zhǔn)的數(shù)據(jù)挖掘方法集成在一起。有前途的方法包括構(gòu)造多媒體數(shù)據(jù)方、多媒體數(shù)據(jù)的多特征提取和基于相似的模式匹配。
異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫
異種數(shù)據(jù)庫由一組互連的、自治的成員數(shù)據(jù)庫組成。這些成員相互通訊,以便交換信息和回答查詢。一個(gè)成員數(shù)據(jù)庫中的對(duì)象可能與其它成員數(shù)據(jù)庫中的對(duì)象很不相同,使得很難將它們的語義吸收進(jìn)一個(gè)整體的異種數(shù)據(jù)庫中。
許多企業(yè)需要遺產(chǎn)數(shù)據(jù)庫,作為信息技術(shù)長時(shí)間開發(fā)(包括使用不同的硬件和操作系統(tǒng))的結(jié)果。遺產(chǎn)數(shù)據(jù)庫是一組異種數(shù)據(jù)庫,它將不同的數(shù)據(jù)系統(tǒng)組合在一起。這些數(shù)據(jù)系統(tǒng)如關(guān)系或?qū)ο?/strong> -關(guān)系數(shù)據(jù)庫、層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫、電子表格、多媒體數(shù)據(jù)庫或文件系統(tǒng)。遺產(chǎn)數(shù)據(jù)庫中的異種數(shù)據(jù)庫可以通過網(wǎng)內(nèi)或網(wǎng)間計(jì)算機(jī)網(wǎng)絡(luò)連接。
這種數(shù)據(jù)庫的信息交換是困難的,因?yàn)樾枰紤]發(fā)散的語義,制定從一種表示到另一種表示的精確轉(zhuǎn)換規(guī)則。例如,考慮不同學(xué)校之間學(xué)生學(xué)業(yè)情況數(shù)據(jù)交換問題。每個(gè)學(xué)校可能有自己的計(jì)算機(jī)系統(tǒng)和課程與評(píng)分體系。一所大學(xué)可能采用學(xué)季系統(tǒng)(每學(xué)期三個(gè)月——譯注),開三門數(shù)據(jù)庫課程,并按由 A+到 F 評(píng)定成績(jī);而另一所可能采用學(xué)期系統(tǒng),開兩門數(shù)據(jù)庫課程,并按由 1 到 10評(píng)定成績(jī)。很難制定這兩所大學(xué)的課程-成績(jī)轉(zhuǎn)換精確的規(guī)則,使得信息交換很困難。通過將給定的數(shù)據(jù)轉(zhuǎn)換到較高的、更一般的概念層(對(duì)于學(xué)生成績(jī),如不及格、良好或優(yōu)秀),數(shù)據(jù)挖掘技術(shù)可以對(duì)此問題提供有趣的解,使得數(shù)據(jù)交換可以更容易地進(jìn)行。
萬維網(wǎng)
萬維網(wǎng)和與之關(guān)聯(lián)的分布信息服務(wù)(如,美國在線,Yahoo!, Alta Vista, Prodigy)提供了豐富的、世界范圍的聯(lián)機(jī)信息服務(wù);這里,數(shù)據(jù)對(duì)象被鏈接在一起,便于交互訪問。用戶通過鏈接,從一個(gè)對(duì)象到另一個(gè),尋找有趣的信息。這種系統(tǒng)對(duì)數(shù)據(jù)挖掘提供了大量機(jī)會(huì)和挑戰(zhàn)。例如,理解用戶的訪問模式不僅能夠幫助改進(jìn)系統(tǒng)設(shè)計(jì)(通過提供高度相關(guān)的對(duì)象間的有效訪問),而且還可以引導(dǎo)
更好的市場(chǎng)決策(例如,通過在頻繁訪問的文檔上布置廣告,或提供更好的顧客/用戶分類和行為分析)。在這種分布式信息環(huán)境下,捕獲用戶訪問模式稱作挖掘路徑遍歷模式。
盡管網(wǎng)頁看上去好看并且信息豐富,但它們實(shí)際上是非結(jié)構(gòu)化的并且缺乏預(yù)定義的模式、類型和格式。這樣,對(duì)于系統(tǒng)地進(jìn)行信息提取和數(shù)據(jù)挖掘,計(jì)算機(jī)很難理解各種網(wǎng)頁的語義并把它們以有組織的形式結(jié)構(gòu)化。提供基于關(guān)鍵字的搜索服務(wù),而不理解特定網(wǎng)頁的上下文,只能給用戶提供有限的幫助。例如,基于單個(gè)關(guān)鍵字的網(wǎng)搜索可能返回?cái)?shù)以百計(jì)的指針,指向包含該關(guān)鍵字的網(wǎng)頁,而其中大部分與用戶期望的查找無關(guān)。數(shù)據(jù)挖掘可以提供比網(wǎng)搜索服務(wù)更多的幫助嗎?數(shù)據(jù)挖掘能夠幫助我們學(xué)習(xí)網(wǎng)上信息的一般分布、網(wǎng)頁特征和不同網(wǎng)頁之間的關(guān)聯(lián)嗎?能夠幫助我們找到特定主題的權(quán)威網(wǎng)頁嗎?這些問題對(duì)高級(jí)的數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。
?
總結(jié)
以上是生活随笔為你收集整理的数据挖掘基础之数据库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: poj-1069(三角形和六边形)(转)
- 下一篇: 数据结构常用常考经典习题【按十大专题总结