数据仓库与数据挖掘知识点梳理
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘知識(shí)點(diǎn)梳理
一:數(shù)據(jù)挖掘
1:什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。
----簡(jiǎn)單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用信息的過程
數(shù)據(jù)的豐富帶來了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求:
解決辦法:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)(存儲(chǔ))
數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)/規(guī)則/規(guī)律/模式/約束(分析)。
注意事項(xiàng):
—數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是大量數(shù)據(jù)庫(kù)的集成。
2:數(shù)據(jù)挖掘的功能
------注:聚類是一種無指導(dǎo)的觀察式學(xué)習(xí),沒有預(yù)先定義的類;而分類問題是有指導(dǎo)的示例式學(xué)習(xí),有預(yù)先定義的類。
| 2.聚類分析(描述) | 物以類聚,人以群分 |
| 3.分類(預(yù)測(cè)) | 反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差 |
| 4.孤立點(diǎn)分析(預(yù)測(cè)) | 對(duì)差異和極端特例的描述 |
| 數(shù)據(jù)倉(cāng)庫(kù) | 分析型數(shù)據(jù)處理 |
| 數(shù)據(jù)挖掘 | 知識(shí)發(fā)現(xiàn) |
二:數(shù)據(jù)倉(cāng)庫(kù)
1:什么是數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是為構(gòu)建分析型數(shù)據(jù)處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。
數(shù)據(jù)倉(cāng)庫(kù)之父:William H.Inmon
嚴(yán)格定義:
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.—W.H.Inmon
2:數(shù)據(jù)倉(cāng)庫(kù)的作用
3:數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵特征
數(shù)據(jù)倉(cāng)庫(kù)中所有數(shù)據(jù)都是圍繞某一主題組織、展開的
一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的
只進(jìn)行兩種數(shù)據(jù)訪問:
數(shù)據(jù)的初始裝載;
查詢操作
從歷史的角度提供信息
4:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的區(qū)別
數(shù)據(jù)倉(cāng)庫(kù):是一種存儲(chǔ)技術(shù),它能適應(yīng)于不同用戶提供對(duì)不同決策需要所需的數(shù)據(jù)和信息。
數(shù)據(jù)挖掘:是一種分析技術(shù),研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識(shí)。
注:數(shù)據(jù)倉(cāng)庫(kù)并不是數(shù)據(jù)挖掘的必要條件
三:數(shù)據(jù)立方體
數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具是基于多維數(shù)據(jù)模型的。在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(data cube)的形式存在。
1.概念分層
2.方體的格
3.數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型
(1)概念模型:
從客觀世界到主觀認(rèn)識(shí)的映射;
首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來描述。
(2)邏輯模型:
邏輯模型描述了數(shù)據(jù)倉(cāng)庫(kù)主題的邏輯實(shí)現(xiàn).
(3)物理模型
邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、索引策略、存儲(chǔ)分配優(yōu)化等。
一:概念模型
二:邏輯模型
星型模型:事實(shí)表在中心,周圍圍繞地連接著維表(每維一個(gè))。
------(一個(gè)事實(shí)表)
雪花模型:是星型模型的變種。
--------(一個(gè)事實(shí)表)
事實(shí)星座模型:復(fù)雜的應(yīng)用(如多主題的數(shù)據(jù)倉(cāng)庫(kù))可能需要多個(gè)事實(shí)表共享維表。
--------(針對(duì)兩個(gè)會(huì)兩個(gè)以上的數(shù)據(jù)倉(cāng)庫(kù))
幾個(gè)基本概念:
維和維表:
事實(shí)和事實(shí)表:
三:物理模型
是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn);
主要進(jìn)行:數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、索引策略、存儲(chǔ)分配優(yōu)化等工作。
有兩種常見的存儲(chǔ)結(jié)構(gòu):
1)分布式存儲(chǔ);
2)集中式存儲(chǔ)。
四:OLAP
1. OLAP的基本概念?
定義:聯(lián)機(jī)分析處理是共享多維信息的、針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析的快速軟件技術(shù)。
60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展。
多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP
2.OLAP與OLTP
OLTP :是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,包括記錄實(shí)時(shí)的增、刪、改、查,主要是面向基本的、日常的事務(wù)處理
OLAP:是數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持
3.OLAP的特性
1.快速性 :用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。
2.可分析性 :OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。
3.多維性 :系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析。
4.信息性 :OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。
4.OLAP的分析方法
從多維數(shù)組選定一個(gè)二維子集,切出一個(gè)“平面”
從多維數(shù)組選定一個(gè)三維子集,切出一個(gè)“立方體”
改變一個(gè)報(bào)告(或頁(yè)面)顯示的維方向
根據(jù)維層次,改變數(shù)據(jù)的粒度,在單個(gè)維上進(jìn)行
基本概念:
維:是人們觀察數(shù)據(jù)的特定角度,是考察問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。
維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維),還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。
維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)
多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)
數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,¥10000)
五:數(shù)據(jù)預(yù)處理
1.臟數(shù)據(jù)分類:
2.數(shù)據(jù)預(yù)處理的常見方法
----去掉數(shù)據(jù)中的噪聲,糾正不一致
-----將多個(gè)數(shù)據(jù)源合并成一致的數(shù)據(jù)存儲(chǔ),構(gòu)成一個(gè)完整的數(shù)據(jù)集,如數(shù)據(jù)倉(cāng)庫(kù)。
-----將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一格式的數(shù)據(jù)(如規(guī)范化)
----通過聚集、刪除冗余屬性或聚類等方法來壓縮數(shù)據(jù)。
2.1數(shù)據(jù)清理
2.1.1空缺值的處理
1)忽略該元組
2)人工填寫空缺值
3)使用屬性的平均值填充空缺值
4)使用與給定元組屬同一類的所有樣本的平均值
5)使用一個(gè)全局變量填充空缺值
6)使用最可能的值填充空缺值
2.1.2噪聲數(shù)據(jù)的處理
1)分箱方法
2)聚類方法
3)線性回歸
4)人機(jī)結(jié)合共同檢測(cè)
2.1.3不一致數(shù)據(jù)的處理
2.2數(shù)據(jù)集成和變換
2.2.1數(shù)據(jù)集成
數(shù)據(jù)集成
將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中。
這些源可以是關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件。
它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的:
注意問題:
2.2.2數(shù)據(jù)變換
平滑處理:從數(shù)據(jù)中消除噪聲;
聚集操作:對(duì)數(shù)據(jù)進(jìn)行綜合;
數(shù)據(jù)規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到一個(gè)較小的范圍之內(nèi);
2.2.2.1規(guī)范化方法
2.2.2.1 最小—最大規(guī)范化
假定minA和maxA分別為屬性A的最小和最大值,則通過下面公式將A的值映射到區(qū)間[new_min, new_max]中的v’:
假定屬性income的最小與最大值分別為$12000和$98000,可根據(jù)最小—最大規(guī)范化方法將其范圍映射到[0,1]:
如:
屬性值$73600將變換為:
[(73600-12000)/(98000-12000)]*(1-0)+0=0.716
2.2.2.2 z-score規(guī)范化(零均值規(guī)范化)
將屬性A的值根據(jù)其平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化;
常用于屬性最大值與最小值未知,或使用最小最大規(guī)范化方法會(huì)出現(xiàn)異常數(shù)據(jù)的情況。
其中,meanA、standard-devA分別為屬性A取值的均值和標(biāo)準(zhǔn)差。
例:
假定屬性income的平均值與標(biāo)準(zhǔn)差分別為$54000和$16000,使用z-score規(guī)范化,則屬性值$73600將變換為:
(73600-54000)/16000=1.225
2.2.2.3 小數(shù)定標(biāo)規(guī)范化
通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化,小數(shù)點(diǎn)的移動(dòng)依賴于A的最大絕對(duì)值
其中,j是使 Max(| v’ |)<1的最小整數(shù)
例:
假定A的取值范圍[-986, 917],則A的最大絕對(duì)值為986,為使用小數(shù)定標(biāo)規(guī)范化,用1000(即j=3)除每個(gè)值,這樣-986被規(guī)范化為-0.986。
2.2.3數(shù)據(jù)規(guī)約
主要用于檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性維
最常用的方法:屬性子集選擇。
1)逐步向前選擇 (選好的)
2)逐步向后刪除(刪差的)
3)向前選擇和向后刪除的結(jié)合(1+2)
4)判定樹歸納
在判定樹的每個(gè)節(jié)點(diǎn),算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。
當(dāng)判定樹歸納用于屬性子集選擇時(shí),不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的;出現(xiàn)在判定樹中的屬性形成歸約后的屬性子集。
標(biāo)稱型(名稱型、名義型):數(shù)值來自于無序集合,如性別、地名、人名等。
序數(shù)型:數(shù)值來自于有序集合,如獎(jiǎng)學(xué)金的等級(jí);職稱分布等。
連續(xù)型:實(shí)數(shù)值,如溫度、體重等。
2.2.3.1離散化方法
1)分箱:屬性的值可以通過將其分配到各分箱中而將其離散化。
利用每個(gè)分箱的均值或中數(shù)替換每個(gè)分箱中的值(利用均值或中數(shù)進(jìn)行平滑)。
2)基于熵的離散化:通過信息熵度量,實(shí)現(xiàn)離散化
3)通過自然劃分分段:3-4-5自然劃分分段法
4)聚類:聚類算法可以將數(shù)據(jù)集劃分為若干類或組,每個(gè)類構(gòu)成概念層次樹的一個(gè)節(jié)點(diǎn);每個(gè)類還可以進(jìn)一步分解為若干子類,從而構(gòu)成更低水平的層次。
2.2.3.2基于熵的離散化
考慮類別信息,遞歸計(jì)算信息熵,產(chǎn)生分層的離散化。
初始不確定性:
I(S)=
給定一個(gè)數(shù)據(jù)元組的集合S,基于熵對(duì)S離散化的方法如下:
1)屬性A中的每個(gè)取值可被認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。例如,A的取值v可以將樣本S劃分為分別滿足A<v和A≥v兩個(gè)子集,這樣就創(chuàng)建了一個(gè)二元離散化。
2)對(duì)于數(shù)據(jù)集S,根據(jù)所劃分子集而獲得的最大熵增益來選擇閾值,劃分后數(shù)據(jù)集S提供的信息如下:
學(xué)習(xí)屬性A之后的不確定性:
E(A)=
其中S1和S2分別對(duì)應(yīng)于S中滿足條件:A<T與A≥T,的樣本。對(duì)給定的集合,熵函數(shù)Ent根據(jù)集合中樣本的類分布來計(jì)算。例如,給定m個(gè)不同類別,S1的熵就是:
其中pi為類i在S1中出現(xiàn)的概率,等于S1中類i的樣本除以S1中樣本的總行數(shù)。同理,計(jì)算Ent(S2)。
3)確定閾值的過程遞歸的用于所得到的每個(gè)劃分,直到滿足某個(gè)終止條件,如:
信息增益不能低于δ:
Ent(S)-I(S,T) ≤δ
2.2.3.3自然劃分分段
將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。
聚類分析產(chǎn)生的概念分層可能會(huì)將一個(gè)工資區(qū)間劃分為:[51263.98, 60872.34]
而通常數(shù)據(jù)分析人員希望看到劃分的形式為[50000,60000]
自然劃分的3-4-5規(guī)則常可以將數(shù)值數(shù)據(jù)劃分為相對(duì)一致和“自然”的區(qū)間。一般的,根據(jù)最重要的數(shù)字上的值區(qū)域,遞歸的和逐層的將給定的數(shù)據(jù)區(qū)域劃分為3、4或5個(gè)等寬區(qū)間。
規(guī)則的劃分步驟:
如果一個(gè)區(qū)間最高有效位上跨越3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(7->2,3,2)
如果一個(gè)區(qū)間最高有效位上跨越2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;
如果一個(gè)區(qū)間最高有效位上跨越1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;
將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;
規(guī)則的劃分步驟:
對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g. 5%-95%
例如,在資產(chǎn)數(shù)據(jù)集中,少數(shù)人的資產(chǎn)可能比其他人高幾個(gè)數(shù)量級(jí)。如果按照最高資產(chǎn)值進(jìn)行分段,可能導(dǎo)致高度傾斜的分層。此時(shí),可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g. 5%-95%。
越出頂層分段的特別高和特別低的部分采用類似的規(guī)則劃分方法形成單獨(dú)的區(qū)間。
假定AllElectronics所有分部1999年的利潤(rùn)覆蓋了一個(gè)很寬的區(qū)間,從-351.00$ 到4700$。要求利用3-4-5規(guī)則自動(dòng)構(gòu)造利潤(rùn)屬性的一個(gè)概念層次樹。
例子:
思路:
設(shè)在上述范圍取值為5%至95%的區(qū)間為:-159$ 至1838$ 。應(yīng)用3-4-5規(guī)則的具體步驟如下:
1)根據(jù)以上信息,在利潤(rùn)數(shù)據(jù)集中最小和最大值分別為:MIN=-351$ , MAX=4700$ 。而根據(jù)以上分析,對(duì)于分段的頂層或第一層,要考慮的最低(5%)和最高(95%)的值是:LOW=-159$ , HIGH=1838$ 。
2)依據(jù)LOW和HIGH及其取值范圍,確定最高有效位為1000$ ,LOW按1000$ 美元向下取整 ,得到LOW’=-1000$ ; HIGH按1000$ 向上取整,得到:HIGH’=2000$ 。
3)由于該區(qū)間在最高有效位上跨越了3個(gè)值,即(2000-(-1000))/1000=3,根據(jù)3-4-5規(guī)則,該區(qū)間被劃分成3個(gè)等寬區(qū)間:(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。這代表分層結(jié)構(gòu)的最頂層。
4)現(xiàn)在,考察原數(shù)據(jù)集中MIN和MAX值與最高層區(qū)間的聯(lián)系。由于MIN值落在區(qū)間(-1000$ ,0],因此調(diào)整左邊界,對(duì)MIN取整后的-400$ ,所以第一個(gè)區(qū)間調(diào)整為(-400$ ,0]。
而由于MAX值不在最后一個(gè)區(qū)間 (1000$ ,2000$ ]中,因此需新建一個(gè)區(qū)間(最右邊區(qū)間)。對(duì)MAX取整后得5000$ ,因此新區(qū)間為(2000$ ,5000]。
因此最終,概念樹分層結(jié)構(gòu)的最頂層包含4個(gè)區(qū)間:(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5)對(duì)上述每個(gè)區(qū)間遞歸應(yīng)用3-4-5規(guī)則,形成分層結(jié)構(gòu)的下一個(gè)較低層:
第一個(gè)區(qū)間(-400$ ,0]:劃分為4個(gè)子區(qū)間(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二個(gè)區(qū)間(0$ ,1000$ ]:劃分為5個(gè)子區(qū)間(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三個(gè)區(qū)間(1000$ ,2000$ ]:劃分為5個(gè)子區(qū)間(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四個(gè)區(qū)間(2000$ ,5000$ ] :劃分為3個(gè)子區(qū)間(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
類似的,如有必要,3-4-5規(guī)則可繼續(xù)在較低的層次上迭代。
總結(jié)
以上是生活随笔為你收集整理的数据仓库与数据挖掘知识点梳理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《华为时间管理培训》笔记
- 下一篇: 分布式数据库系统体系结构