数据仓库与联机分析处理笔记
生活随笔
收集整理的這篇文章主要介紹了
数据仓库与联机分析处理笔记
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
本文為《數(shù)據(jù)挖掘:概念與技術(shù)》中“數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理”的閱讀筆記。
4. 數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理
- ETL:用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。
- 數(shù)據(jù)倉庫提供聯(lián)機(jī)分析處理(OLAP)工具,用于各種粒度的多維數(shù)據(jù)的交互分析,有利于有效的數(shù)據(jù)泛化和數(shù)據(jù)挖掘。
- 數(shù)據(jù)立方體,是一種用于數(shù)據(jù)和OLAP以及OLAP操作(如上卷、下鉆、切片和切塊)的多維數(shù)據(jù)模型。
4.1 數(shù)據(jù)倉庫:基本概念
4.1.1 什么是數(shù)據(jù)倉庫
- 數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。
- 面向主題的:數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模和分析,而不是單位的日志操作和事務(wù)處理。數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
- 集成的:通常構(gòu)造數(shù)據(jù)倉庫是將多個異構(gòu)數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄集成在一起。
- 時變的:數(shù)據(jù)倉庫的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素。
- 非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制,通常只需要數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4.1.2 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別
- 聯(lián)機(jī)操作數(shù)據(jù)庫系統(tǒng)的主要是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理,稱為聯(lián)機(jī)事務(wù)處理(Online Transaction Processing,OLTP)系統(tǒng)。
- 數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識工人”提供服務(wù),這種系統(tǒng)可以用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色的需求,稱作聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)系統(tǒng)。
4.1.3 為什么需要分離的數(shù)據(jù)倉庫
- 操作數(shù)據(jù)庫是為已知的任務(wù)和負(fù)載設(shè)計的,檢索特定的記錄,優(yōu)化“定制的”查詢。數(shù)據(jù)倉庫的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計算,可能需要特殊的基于多維視圖的數(shù)據(jù)組織、存取方法和實(shí)現(xiàn)方法。
- 操作數(shù)據(jù)庫支持多事務(wù)的并發(fā)處理,需要并發(fā)控制和恢復(fù)機(jī)制,以確保一致性和事務(wù)的魯棒性。OLAP查詢只需要對匯總和聚集數(shù)據(jù)記錄進(jìn)行只讀訪問。
- 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中的數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。
4.1.4 數(shù)據(jù)倉庫:一種多層體系結(jié)構(gòu)
- 底層是倉庫數(shù)據(jù)庫服務(wù)器。
- 中間層是OLAP服務(wù)器
- 頂層是前段客戶層
4.1.5 數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫
從結(jié)構(gòu)的角度來看,有三種數(shù)據(jù)倉庫模型
- 企業(yè)倉庫
- 數(shù)據(jù)集市
- 虛擬倉庫
4.1.6 數(shù)據(jù)提取、變換和裝入
- 數(shù)據(jù)提取:由多個異構(gòu)的外部數(shù)據(jù)源收集數(shù)據(jù)。
- 數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們。
- 數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換層數(shù)據(jù)倉庫格式。
- 裝入:排序、匯總、合并、計算視圖、檢查完整性,并建立索引和劃分。
- 刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。
4.1.7 元數(shù)據(jù)庫
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。元數(shù)據(jù)庫應(yīng)當(dāng)包括以下內(nèi)容:
- 數(shù)據(jù)倉庫結(jié)構(gòu)的描述
- 操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)、數(shù)據(jù)流通、管理信息
- 用于匯總的算法
- 由操作環(huán)境到數(shù)據(jù)倉庫的映射
- 關(guān)于系統(tǒng)性能的數(shù)據(jù)
- 商務(wù)元數(shù)據(jù)
4.2 數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體與OLAP
數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,這種模型將數(shù)據(jù)看做數(shù)據(jù)立方體形式。
4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型
- 數(shù)據(jù)立方體允許以多維對數(shù)據(jù)建模和觀察,它由維和事實(shí)定義。
- 維是一個單位想要記錄的透視或?qū)嶓w。
- 每個維都可以有一個與之相關(guān)聯(lián)的表,該表稱為維表,它進(jìn)一步描述維。
- 通常,多維數(shù)據(jù)模型圍繞注入銷售這樣的中心主題組織,主題用事實(shí)表表示,事實(shí)是數(shù)值度量的。
- 存放最低層匯總的方體稱作基本方體(base cuboid),0-D方體存放最高層的匯總,稱為頂點(diǎn)方體(apex cuboid),頂點(diǎn)方體通常用all標(biāo)記。
4.2.2 星型、雪花型和事實(shí)星座:多維數(shù)據(jù)模型的模式
最流行的數(shù)據(jù)倉庫的數(shù)據(jù)模型是多維數(shù)據(jù)模型,這種模型可以是星型模型、雪花模型和事實(shí)星座模式。
星型模式
- 最常見的模式范型,其中數(shù)據(jù)倉庫包括:
- 一個大的中心表(事實(shí)表),它包含大批數(shù)據(jù)并且不含冗余
- 一組小的附屬表(維表),每維一個。
- 每維只用一個表表示,而每個表包含一組屬性。
- 一個維表中的屬性可能形成一個層次(全序)或格(偏序)。
雪花模式
- 雪花模式是星型模式的變種,其中某些維表被規(guī)范化,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。
事實(shí)星座
- 復(fù)雜的應(yīng)用可能需要多個事實(shí)表共享維表,這種模式可以看做星型模式的匯集,因此稱作星系模式或事實(shí)星座。
- 對于數(shù)據(jù)倉庫,通常使用事實(shí)星座模式,因?yàn)樗軐Χ鄠€相關(guān)的主題建模。數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個子集,它針對選定的主題,流行采用星型或雪花模式,因?yàn)樗麄兌歼m合對單個主題建模。
4.2.3 維:概念分層的作用
- 概念分層定義一個映射序列,將低層概念集映射到較高層、跟一般的概念。
- 形成數(shù)據(jù)庫模式中屬性的全序或偏序的概念分層稱做模式分層。
- 數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)為用戶提供靈活性,允許用戶根據(jù)他們的特殊需要裁剪預(yù)定義的分層,也可以通過將給定維或?qū)傩缘闹惦x散化或分組來定義概念分層,產(chǎn)生集合分組分層。
4.2.4 度量的分類和計算
- 數(shù)據(jù)立方體空間的多維點(diǎn)可以用維-值對的集合來定義。
- 數(shù)據(jù)立方體度量(measure)是一個數(shù)值函數(shù),該函數(shù)可以對數(shù)據(jù)立方體空間的每個點(diǎn)求值。
- 度量根據(jù)所用的聚集函數(shù)可以分為三類:分布的、代數(shù)的和整體的。
- 分布式的:如果將數(shù)據(jù)劃分為n個集合,將函數(shù)用于每一部分,得到n個聚集值。如果將函數(shù)用于n個聚集值得到的結(jié)果與將函數(shù)用于整個數(shù)據(jù)集得到的結(jié)果一樣,這該函數(shù)可以用分布方式計算。
- 代數(shù)的:一個聚集函數(shù)如果能用一個具有M個參數(shù)的代數(shù)函數(shù)計算,而每個參數(shù)都可以用一個分布聚集函數(shù)求得,則它是代數(shù)的。
- 整體的:一個聚集函數(shù)如果描述它的子聚集所需的存儲沒有一個常數(shù)界,則它是整體的。也就是不存在一個具有M個參數(shù)的代數(shù)函數(shù)進(jìn)行這一計算。
4.2.5 典型的OLAP操作
- 在多維數(shù)據(jù)模型中,數(shù)據(jù)組織在多維空間,每維包含由概念分層定義的多個抽象層。
- 上卷(roll-up):上卷操作(也稱為上鉆(drill-up)操作)通過沿一個維的概念分層向上攀升或者通過維歸約在數(shù)據(jù)立方體上進(jìn)行聚集。
- 下鉆(drill-down):下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。下鉆可以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn)。
- 切片和切塊:
- 切片(slice)操作在給定的立方體的一個維上進(jìn)行選擇,導(dǎo)致一個子立方體。
- 切塊(dice)操作通過在兩個或多個維上進(jìn)行選擇,定義子立方體。
- 轉(zhuǎn)軸(pivot):轉(zhuǎn)軸(又稱旋轉(zhuǎn)(rotate))是一種目視操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。
- 其他OLAP操作:
- 鉆過(drill-across)執(zhí)行涉及多個事實(shí)表的查詢。
- 鉆透(drill-through)操作使用關(guān)系SQL機(jī)制,鉆透到數(shù)據(jù)立方體的底層,到后端關(guān)系表。
4.2.6 查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型
- 多維數(shù)據(jù)庫查詢可以基于星網(wǎng)模型(starnet model)。
- 星網(wǎng)模型由從中心點(diǎn)發(fā)出的射線組成,其中每一條射線代表一個維的概念分層。
- 概念分層上的每個“抽象級”稱為一個足跡(footprint),代表諸如上卷、下鉆等OLAP操作可用的粒度。
- 通過用較高層抽象值替換低層抽象值,概念分層可以用于泛化數(shù)據(jù)。
- 通過用低層抽象值替換高層抽象值,概念分層也可以特殊化數(shù)據(jù)。
4.3 數(shù)據(jù)倉庫的設(shè)計與使用
4.3.1 數(shù)據(jù)倉庫的設(shè)計的商務(wù)分析框架
關(guān)于數(shù)據(jù)倉庫的設(shè)計,必須考慮四種不同的視圖:
- 自頂向下視圖:使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息。
- 數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫系統(tǒng)收集、存儲和管理的信息。
- 數(shù)據(jù)倉庫視圖:包括事實(shí)表和維表。
- 商務(wù)查詢視圖:是從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)。
4.3.2 數(shù)據(jù)倉庫的設(shè)計過程
- 數(shù)據(jù)倉庫可以使用自頂向下方法、自底向上方法、或二者結(jié)合的混合方法設(shè)計。
- 自頂向下:由總體設(shè)計和規(guī)劃開始。
- 自底向上:以實(shí)現(xiàn)和原型開始。
- 混合方法:一個組織既能利用自頂向下方法的規(guī)劃性和戰(zhàn)略性特點(diǎn),又能保持像自底向上方法一樣快速實(shí)現(xiàn)和立即應(yīng)用。
- 一般而言,數(shù)據(jù)倉庫的設(shè)計過程包含以下步驟:
- 選取待建模的商務(wù)處理
- 選擇商務(wù)處理的粒度
- 選取用于每個事實(shí)表記錄的維
- 選取將安放在每個事實(shí)表記錄中的度量
4.3.3 數(shù)據(jù)倉庫用于信息處理
- 有三類數(shù)據(jù)倉庫應(yīng)用:
- 信息處理:支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖表或圖進(jìn)行報告。
- 分析處理:支持基本的OLAP操作,包括切片與切塊、下鉆、上卷和轉(zhuǎn)軸。
- 數(shù)據(jù)挖掘:支持知識發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測,并使用可視化工具提供挖掘結(jié)果。
- 數(shù)據(jù)挖掘的涵蓋面要比簡單的OLAP操作寬的多,因?yàn)樗粌H執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關(guān)聯(lián)、分類、預(yù)測、聚類、時間序列分析和其他數(shù)據(jù)分析任務(wù)。
4.3.4 從聯(lián)機(jī)分析處理到多維數(shù)據(jù)挖掘
- 數(shù)據(jù)挖掘?qū)﹃P(guān)系數(shù)據(jù)、數(shù)據(jù)倉庫的數(shù)據(jù)、事務(wù)數(shù)據(jù)、時間序列數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)和一般數(shù)據(jù)進(jìn)行挖掘。
- 多維數(shù)據(jù)挖掘(又稱探索式多維數(shù)據(jù)挖掘、聯(lián)機(jī)分析挖掘或OLAM)把數(shù)據(jù)挖掘與OLAP集成在一起,在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識。
- 多維數(shù)據(jù)挖掘特別重要的原因:
- 數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量
- 環(huán)繞數(shù)據(jù)倉庫的信息處理基礎(chǔ)設(shè)施
- 基于OLAP的多維數(shù)據(jù)探索
- 數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇
4.4 數(shù)據(jù)倉庫的實(shí)現(xiàn)
4.4.1 數(shù)據(jù)立方體的有效計算:概述
compute cube操作與維災(zāi)難
- 多維數(shù)據(jù)分析的核心是有效計算許多維集合上的聚集。用SQL的術(shù)語,這些聚集稱為分組(group-by)。
- 每個分組可以用一個方體表示,而分組的集合構(gòu)成數(shù)據(jù)立方體。
- 頂點(diǎn)方體或0-D方體表示分組為空的情況,基本方體是最低泛化的方體。
- 對于n維立方體,包括基本方體總共有2^n個方體。
- 大多數(shù)OLAP產(chǎn)品都借助于多維聚集的預(yù)計算。
- 如果數(shù)據(jù)立方體的所有方體都預(yù)先計算,所需的存儲空間可能爆炸,特別是當(dāng)立方體包含許多維時。當(dāng)許多維都具有相關(guān)聯(lián)的概念分層,具有多層時,存儲需求甚至更多,這個問題稱作維災(zāi)難。
- 預(yù)計算并物化由數(shù)據(jù)立方體可能產(chǎn)生的所有方體是不現(xiàn)實(shí)的,更合理的選擇是部分物化。
部分物化:方體的選擇計算
- 部分物化:有選擇的計算整個可能的方體集中一個適當(dāng)?shù)淖蛹N覀円部梢杂嬎懔⒎襟w的一個子集,它只包含滿足用戶指定的某種條件(如每個單元的元組計數(shù)大于某個閾值)的那些單元,這種情況我們稱為子立方體。
- 冰山立方體(iceberg cube):一個數(shù)據(jù)立方體,它只存放其聚集值大于某個最小支持度閾值的立方體單元。
- 外殼立方體(shell cube):預(yù)計算數(shù)據(jù)立方體的只有少量維(例如3到5維)的方體。
4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引
- 為了提供有效的數(shù)據(jù)訪問,大部分?jǐn)?shù)據(jù)倉庫系統(tǒng)支持索引結(jié)構(gòu)和物化視圖。
- 位圖索引(bitmap indexing):record_ID列表的一種代替表示。如果給定的屬性域包含n個值,則位圖索引中每項(xiàng)需要n個位(即n維向量)。如果數(shù)據(jù)表給定行上該屬性值為v,則在位圖索引的對應(yīng)行,表示該值的位為1,該行的其他位均為0。
- 對于基數(shù)較小的值域特別有用,因?yàn)楸容^、連接和聚集操作都簡化為位算術(shù)運(yùn)算,大大減少了處理時間。
- 由于字符串可以用單個二進(jìn)位表示,位圖索引顯著降低了空間和IO開銷。
- 對于基數(shù)較高的值域,可以使用壓縮技術(shù)。
- 連接索引(join indexing):連接索引登記來自關(guān)系數(shù)據(jù)庫的兩個關(guān)系的可連接行。
- 與傳統(tǒng)的索引將給定列上的值映射到具有該值的行的列表上不同。
- 連接索引記錄能夠識別可連接的元組,而不必執(zhí)行開銷很大的連接操作。
- 連接索引可以跨越多維,形成復(fù)合連接索引。
- 為進(jìn)一步加快查詢處理,我們可以將連接索引與位圖索引集成,形成位圖連接索引。
4.4.3 OLAP查詢的有效處理
給定物化的視圖,查詢處理應(yīng)按如下步驟進(jìn)行:
- 確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行。
- 確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體。
4.4.4 OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較
用于OLAP處理的數(shù)據(jù)倉庫服務(wù)器的實(shí)現(xiàn)包括:
- 關(guān)系OLAP(ROLAP)服務(wù)器:使用關(guān)系的或擴(kuò)充關(guān)系的DBMS存儲并管理數(shù)據(jù)倉庫數(shù)據(jù),而OLAP中間件支持其余部分。具有比MOLAP更好的可伸縮性。
- 多維OLAP(MOLAP)服務(wù)器:通過基于數(shù)組的多維存儲引擎,將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu)。如果數(shù)據(jù)集是稀疏的,存儲利用率會很低,應(yīng)當(dāng)使用稀疏矩陣壓縮技術(shù)。
- 混合OLAP(HOLAP)服務(wù)器:結(jié)合ROLAP和MOLAP技術(shù),得益于ROLAP較大的可伸縮性和MOLAP的快速計算。
- 特殊的SQL服務(wù)器:一些數(shù)據(jù)庫供應(yīng)商實(shí)現(xiàn)了特殊的SQL服務(wù)器,提供高級查詢語言和查詢處理,在只讀環(huán)境下,在星型和雪花型模式上支持SQL查詢。
數(shù)據(jù)如何存放在ROLAP結(jié)構(gòu)中:
- 與基本方體相關(guān)聯(lián)的事實(shí)表稱為基本事實(shí)表。
- 基本事實(shí)表存放的數(shù)據(jù)所處的抽象級由給定的數(shù)據(jù)立方體的模式的連接鍵指出。
- 聚集數(shù)據(jù)也能存放在事實(shí)表中,這種表稱為匯總事實(shí)表。
4.5 數(shù)據(jù)泛化:面向?qū)傩缘臍w納
- 數(shù)據(jù)泛化通過把相對低層的值用較高層概念替換來匯總數(shù)據(jù),或通過減少維數(shù),在涉及較少維數(shù)的概念空間匯總數(shù)據(jù)。
- 概念通常指數(shù)據(jù)的匯集。概念描述產(chǎn)生數(shù)據(jù)的特征和比較描述。
- 當(dāng)被描述的概念涉及對象類時,有時也稱概念描述為類描述。
- 特征提供給定數(shù)據(jù)匯集的簡潔匯總,而概念或類的比較也稱作區(qū)分,提供兩個或多個數(shù)據(jù)集合的比較描述。
- 與數(shù)據(jù)立方體方法相比,數(shù)據(jù)特征和泛化的面向?qū)傩缘臍w納方法提供了另一種數(shù)據(jù)泛化方法,用于復(fù)雜的數(shù)據(jù)類型并依賴數(shù)據(jù)驅(qū)動的泛化過程。
- 不局限與關(guān)系數(shù)據(jù)
- 不需要預(yù)先計算數(shù)據(jù)立方體
- 可以把自動分析加入這種歸納過程,自動過濾不相關(guān)或不重要的屬性。
- 不能有效支持下鉆到比被泛化的關(guān)系提供的抽象層還深的層。
4.5.1 數(shù)據(jù)特征的面向?qū)傩缘臍w納
- 基本思想:
- 首先使用數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù)(數(shù)據(jù)聚焦)
- 通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進(jìn)行泛化(通過屬性刪除或通過屬性泛化進(jìn)行)。
- 聚集通過合并相同的廣義元組,并收集它們對應(yīng)的計數(shù)值進(jìn)行。
- 屬性刪除:如果初始工作關(guān)系的某個屬性有大量不同的值,但是在該屬性上沒有泛化操作符,或者它的較高層概念用其他屬性表示,則應(yīng)當(dāng)將該屬性從工作關(guān)系中刪除。
- 屬性泛化:如果初始工作關(guān)系的某個屬性有大量不同的值,并且該屬性上存在泛化操作符的集合,則應(yīng)當(dāng)選擇一個泛化操作符,并將它用于該屬性。
- 多大才算“屬性具有大量不同值”,控制泛化過程的方法:
- 屬性泛化閾值控制:對所有的屬性設(shè)置一個泛化閾值,或?qū)γ總€屬性設(shè)置一個閾值。
- 廣義關(guān)系閾值控制:為廣義關(guān)系設(shè)置一個閾值。
- 這兩種技術(shù)可以順序使用,先用屬性泛化閾值控制技術(shù)泛化每個屬性,然后使用關(guān)系閾值控制進(jìn)一步壓縮廣義關(guān)系。
- 泛化過程將導(dǎo)致相同元組的分組,這些相同的元組合并成一個,同時累計它們的計數(shù)值。
4.5.2 面向?qū)傩詺w納的有效實(shí)現(xiàn)
算法的有效性分析如下:
- 算法的第1步基本上是關(guān)系查詢,把任務(wù)相關(guān)的數(shù)據(jù)收集到工作關(guān)系W中。其有效性依賴與所用的查詢處理方法。
- 第2步收集初始關(guān)系上的統(tǒng)計量。最多需要掃描一次該關(guān)系。計算開銷依賴與每個屬性的不同值的數(shù)量,小于初始關(guān)系的元組個數(shù)|W|。可使用工作關(guān)系的一個樣本得到統(tǒng)計量。
- 第3步導(dǎo)出主關(guān)系P。所有廣義元組的時間復(fù)雜度為O(N)。
4.5.3 類比較的面向?qū)傩詺w納
- 類區(qū)分或比較挖掘區(qū)分目標(biāo)類和它的對比類的描述。
- 目標(biāo)類和對比類必須是可比較的,意指它們具有相似的維或?qū)傩浴?/li>
- 如何進(jìn)行類比較?
- 數(shù)據(jù)收集:通過查詢處理收集數(shù)據(jù)庫中相關(guān)數(shù)據(jù),并把它劃分成一個目標(biāo)類和一個或多個對比類。
- 維相關(guān)分析:如果有多個維,則應(yīng)當(dāng)在這些類上進(jìn)行維相關(guān)分析,僅選擇與進(jìn)一步分析高度相關(guān)的維。
- 同步泛化:泛化在目標(biāo)類進(jìn)行,產(chǎn)生主目標(biāo)類關(guān)系。對比類的概念泛化到與主目標(biāo)類關(guān)系相同的層次,形成主對比類關(guān)系。
- 導(dǎo)出比較的表示:結(jié)果類比較描述可以用表、圖或規(guī)則的形式可視化。
總結(jié)
以上是生活随笔為你收集整理的数据仓库与联机分析处理笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录一次大对象导致的Java堆内存溢出问
- 下一篇: Presto内存管理源码分析