数据仓库与数据挖掘归纳汇总
/*
大學生一枚,只為分享知識別無他求,有興趣一起交流,相互激勵,共同進步
關注個人微信公眾號:飛享
文中相應鏈接都是對應知識點補充說明
*/
數據倉庫
1.數據倉庫:面向主題的,集成的,穩定的,反映歷史變化的數據集合,通常用于輔助決策支持。
2.元數據:描述數據倉庫內數據的結構和建立方法的數據。
3.元數據是數據倉庫運行和維護的中心內容,數據倉庫系統對數據的存取和更新都需要元數據信息。
4.根據元數據用途的不同可將元數據分為技術元數據和業務元數據。
5.訪問工具:用戶訪問數據倉庫提供的手段,數據查詢和報表工具,應用開發工具,數據挖掘工具,數據分析工具。
6.數據倉庫數據庫:數據信息存放的地方,對海量數據進行存取和檢索支持。
7.數據抽取工具:把數據從各種各樣的存取環境中提取出來,進行必要的轉化,整理,再存放到數據倉庫內。
8.數據轉換內容:刪除對決策分析沒有意義的數據,轉換到統一的數據名稱和定義,計算統計和衍生數據,填補缺失數據,統一不同的數據定義方式。
9.數據集市:為了特定的應用目的,從數據倉庫中獨立出來的一部分數據,也稱為部門數據或主題數據。
10.數據倉庫管理:包括安全和權限管理,數據更新的跟蹤,數據質量的檢查,元數據的管理與更新,數據倉庫的使用狀態的監測與審計,數據復制與刪除,數據分割與分發,數據備份與恢復,數據存儲管理。
11.信息發布系統:用于把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。
12.數據挖掘:從大量數據中獲取有效的,新穎的,潛在有用的,最終可理解的模式的過程。就是從大量數據中提取和挖掘知識。
13.數據處理分兩類:聯機事務處理(OLTP),聯機分析處理(OLAP)
14.數據挖掘步驟:
a.數據清理:消除噪聲數據
b.數據集成:多種數據組合在一起
c.數據選擇:選擇相關數據
d.數據變換:匯總等操作將數據變換成適合挖掘的數據
e.數據挖掘:對數據進行操作
f.模式評估:根據某種模式來評估其價值
g.知識表示:可視化表現
15.數據倉庫的粒度是指數據的細節或匯總程度,細節程度越高,粒度級別越低。
16.數據倉庫與數據挖掘的區別:數據倉庫是一種存儲技術,適應于不同用戶對不同決策需要提供所需的數據和信息。數據挖掘研究各種方法和技術,從大量信息中挖掘出有用的信息和知識。
17.多維數據模型:星型模型,雪花模型,星網模型,第三范式
18.ETL過程:數據倉庫的數據獲取需要經過抽取,轉換,裝載三個過程。
19.基本多維數據分析的基本操作:切片,切塊,旋轉,鉆取。
20.粒度:數據倉庫中數據單元的詳細程度和級別。數據越詳細,粒度越小,層次級別越低;數據綜合度越高,粒度越大,層次級別越高。
21.數據倉庫關鍵環節:數據抽取,數據存儲與管理,數據表現。
22.商業智能:商業智能以數據庫為基準,通過聯機分析處理和數據挖掘技術幫助企業領導者針對市場變化的環境,做出快速準確的決策。
23.數據倉庫是一個作為決策支持和聯機分析應用系統數據源的結構化數據環境,數據倉庫要研究和解決的就是從數據庫中獲取信息的問題。
24.數據倉庫組成:數據倉庫數據庫,數據抽取工具,元數據,訪問工具,數據集市,數據倉庫管理,信息發布系統。
25.數據倉庫體系結構模型:兩層體系結構,基于獨立數據集市的體系結構,基于依賴型數據集市和ODS的體系結構,基于邏輯型數據集市的實時數據倉庫體系結構。
26.操作型數據存儲:集成的,面向主題的,可更新的,當前值的,企業級的,詳細的數據,也叫運營數據存儲。
27.實時數據倉庫:意味著源數據系統,決策支持服務和數據倉庫之間以一個接近實時的速度交換數據和業務規則。
28.數據倉庫發展演變的5個階段:以報表為主,以分析為主,以預測為主,以營運導向為主,以實時數據倉庫和自動決策為主。
數據倉庫與數據存儲
1.調和數據是存儲在企業級數據倉庫和操作型數據倉庫中的數據
2.數據倉庫中的數據分為狀態數據和事件數據
3.數據抽取:從不同網絡,不同的操作平臺,不同的數據庫及數據格式,不同的應用中抽取數據。
4.數據轉換:數據轉化,數據的重新格式化和計算,關鍵數據的重新構建,數據匯總,數據定位。
5.數據加載:將數據加載到目標數據倉庫,通常需要跨網絡,跨操作平臺進行加載。
6.數據的ETL過程就是將操作型數據轉換成調和數據的過程。
7.ETL過程:抽取,清洗,轉換,加載和索引。
8.數據抽取的類型分為靜態抽取和增量抽取。靜態抽取用于最初填充數據倉庫,增量抽取用于進行數據倉庫的維護。
9.使用星型模式可以從一定程度上提高查詢效率,星型模式中數據的組織已經經過預處理,主要數據都在龐大的事實表中。
10.維度表一般由主鍵,分類層次,描述屬性組成。主鍵分自然鍵和代理鍵。
11.雪花模型是對星型模式維表的進一步層次化和規范化來消除冗余數據。
12.數據倉庫中存在不同綜合級別的數據。分為四個級別:早期細節級,當前細節級,輕度綜合級,高度綜合級。
13.數據結構的三層結構:
數據從企業內外部的各業務處理系統流向企業級數據倉庫或操作型數據存儲區,根據企業的數據模型和元數據庫對數據進行調和處理,形成一個中間數據層,然后再根據分析需求,從調和數據層將數據引入導出數據層,形成滿足各類需求的數據集市。
14.星型模式中,事實表居中,多個維表呈輻射狀分布于四周,并與事實表連接。位于星型中心的實體是事實表,是用戶最關心的基本實體和查詢活動中心,為數據倉庫的查詢活動提供定量數據。位于星型模式四周的實體是維度實體,其作用是限制和過濾用戶的查詢結果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相連。
15.時間總是數據倉庫或數據集市的維,因為數據倉庫或數據集市的數據總是歷史的數據,需要時間維來區別。
數據倉庫的建立
1.數據倉庫的概念模型通常采用信息包圖法來進行設計,五個組成部分:名稱,維度,類別,層次,度量。
2.數據倉庫的邏輯模型通常采用星型圖法來設計。
3.按照事實表中度量的可加性,事實表對應的事實分為四種類型:事務事實,快照事實,線性項目事實,事件事實。
4.確定數據倉庫的粒度模型之后,為提高數據倉庫的使用性能,還需要根據用戶需求設計聚合。
5.在項目實施時,根據事實表的特點和用戶查詢需求,可以選用時間,業務類型,區域和下屬組織等多種數據分割類型。
6.當維表中的主鍵在事實表中沒有與外界關聯時,這樣的維稱為退化維。
7.維度可以根據變化快慢分為:無變化維度,緩慢變化維度,劇烈變化維度。
8.數據倉庫的數據量一般很大,且數據更新很少,可以通過設計和優化索引結構來提高數據存儲性能。
9.信息包圖法:也叫用戶需求表,在一張平面表格上描述元素的多維性,其中的每一個維度用平面表格的一列表示,通常的維度如時間,地點,產品和顧客等;而細化本列的對象就是類別,例如時間維度可以細化到年月日等;平面表格的最后一行即為指標度量值。創建信息包圖需確定最高層和最底層的信息需求,以便最終設計出包含各個層次需要的數據倉庫。
10.數據倉庫設計過程:收集分析和確認業務需求,分析理解主題和元數據、事實及其度量、粒度和維度的選擇與設計、數據倉庫的物理存儲方式的設計。
11.數據倉庫系統設計過程:
a.收集和分析業務需求
b.建立數據模型和數據倉庫的物理設計
c.定義數據源
d.選擇數據倉庫技術和平臺
e.從操作型數據庫中抽取,清洗,轉換數據到數據倉庫。
f.原則訪問和報表工具,選擇數據庫連接軟件,選擇數據分析和數據展示軟件
g.更新數據倉庫
https://wenku.baidu.com/view/0b0d44785bcfa1c7aa00b52acfc789eb172d9e1b.html?rec_flag=default&sxts=1560318635557
補充
1.雪花模型:雪花模型中某些維表是規范化的,因而把數據進一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度的減少數據存儲量以及聯合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表的數量,增加了某些查詢的復雜性,但同時提高了靈活性,可以回答更多的商業問題,特別適合系統的逐步建設要求。
2.OLAP:聯機分析處理,是使分析人員,管理人員或執行人員能狗從多角度對信息進行快速,一致,交互的存取,從而獲得對數據的更深入了解的一類軟件技術。支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。
3.決策樹:將訓練集函數表示成樹結構,通過他來近似離散值的目標函數。是一種有向樹,以訓練集的一個屬性做節點,屬性所對應的一個值做邊。決策樹一般都是自上而下的來生成的。
4.元數據管理在數據倉庫中的運用:
元數據能支持系統對數據的管理和維護,五類系統管理功能:
a.描述哪些數據在數據倉庫中
b.定義要進入數據倉庫中的數據和數據倉庫產生的數據
c.記錄根據業務數據發生而隨之進行的數據抽取工作時間安排。
d.記錄并檢測系統數據一致性的要求和執行情況。
e.衡量數據質量。
5.數據挖掘對聚類的數據的要求:
a.可伸縮性
b.處理不同類型屬性的能力
c.發現任意形狀的聚類
d.使輸入參數的領域知識最小化
e.處理噪聲數據的能力
f.對于輸入順序不敏感
g.高維性
h.基于約束的聚類
i.可解釋性和可利用性
6.aprior算法思想:
第一步:迭代,檢索出數據源中所有煩瑣項集,即支持度不低于用戶設定的閾值的項
第二步:利用第一步檢索出的煩瑣項集構造出滿足用戶最小信任度的規則
7.基于依賴型數據集市和操作型數據存儲的數據倉庫體系結構常常被稱為中心和輻射架構,其中企業級數據倉庫是中心,源數據系統和數據集市在輸入和輸出范圍的兩端。
8.運營數據存儲,ODS:是一個集成的,面向主題的,可更新的,當前值的,企業級的,詳細的數據庫。
9.貝葉斯網絡的兩部分組成:網絡結構和條件概率表
10.數據倉庫常見的存儲優化方法:
a.表的歸并與簇文件
b.反向規范化,引入冗余
c.表的物理分割
https://wenku.baidu.com/view/8c08ad5976eeaeaad0f3307a.html
一.關聯規則https://blog.csdn.net/sealyao/article/details/6460578
1.經典關聯規則算法:Apriori算法和FP-growth算法
2. Apriori算法:多次掃描交易數據庫,每次利用候選頻繁集產生頻繁集;
3. FP-growth算法:利用樹形結構,無須產生候選頻繁集而是直接得到頻繁集,大大減小掃描交易數據庫的次數,從而提高算法效率。
4.關聯規則:發現隱含的關聯關系,并用規則的形式表現出來。反映一個事物與其他事物之間的相互依存性和關聯性。
5.關聯規則分為產生頻繁集和產生規則兩個步驟
a.找出交易數據庫中所有大于或等于用戶指定的最小支持度的頻繁項集
b.利用頻繁項集生成所需要的關聯規則,根據用戶設定的最小可信度進行取舍,產生強關聯規則
6.關聯規則分為:一維和多維關聯規則,單層和多層關聯規則,布爾型和數值型關聯規則
7.項集:項目元素的集合
8.支持度:項集出現的次數除以總的記錄數
9.置信度:在X出現的條件下,Y發生的概率
10.頻繁集:支持度大于等于最小支持度的項集稱為頻繁項集
11.強關聯規則:支持度和可信度分別大于最小支持度和最小可信度
二.數據分類
1.分類:把數據樣本映射到一個事先定義的類中的學習過程,即給定一定輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類。
2.數據集通過描述屬性(連續或離散數據)和類別屬性(離散數據)來表示
3.分類的過程:獲取數據,預處理,分類器的設計,分類決策
獲取數據:包括物理數據和邏輯數據
預處理:去除噪聲數據,對空缺值進行處理。數據集成或者變換。
分類器設計:劃分數據集(訓練集和測試集),分類器構造,分類器測試
分類決策:利用該分類器對未知類標號的數據樣本進行實際的分類決策
4.評價準則:精確度,查全率,查準率,F-measure,幾何均值的計算
5.支持向量機常用核函數:多項式核函數,徑向核函數,S型核函數
6.ID3構造決策樹
三.數據聚類
1.聚類分析是將物理的或者抽象的數據集合劃分為多個類別的過程。聚類之后的每個類別中任意兩個數據樣本之間具有較高的相似度,而不同類別的數據樣本之間具有較低的相似度。
2.聚類算法的分類:劃分聚類方法,層次聚類方法,基于密度的聚類方法,基于網格的聚類方法
3.數據樣本之間的相似度通常用樣本間的距離來表示,而距離是通過數據樣本的描述屬性的具體取值來計算的。
4.聚類分析包括:連續型,二值離散型,多值離散型,混合類型四種類型描述屬性的相似度計算方法。
5.連續型屬性的數據樣本之間的距離有:歐式距離,曼哈頓距離,明考斯基距離。
6.劃分聚類方法對數據集進行聚類時包含三個要點:選定某種距離作為數據樣本間的相似性度量,選擇評價聚類性能的準則函數,選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數取得最優值。
7.層次聚類的方法包括:凝聚型層次聚類,分解型層次聚類
8.數據挖掘技術對聚類分析的要求:可伸縮性,處理不同類型屬性的能力,發現任意形狀聚類的能力,減小對先驗知識和用戶自定義參數的依賴,處理噪聲數據的能力,可解釋性和實用性。
四.貝葉斯網絡
1.先驗概率:根據歷史資料或主觀判斷所確定的各種事件發生的概率,該概率沒有經過實驗證實,屬于檢驗前的概率。
2.后驗概率:通過貝葉斯公式,結合調查等方式獲取了新的附加信息,對先驗概率修正后得到的更符合實際的概率。
3.條件概率:當條件確定后,某事件發生的條件概率。
4.貝葉斯網絡:信念網絡,因果網絡,是描述隨機變量之間依賴關系的一種圖形模式,是一種用來推理的模型。
5.貝葉斯網絡通過有向圖的形式來表示隨機變量間的因果關系,并通過條件概率將這種關系數量化,可以包含隨機變量集的聯合概率分布,是一種將因果知識和概率知識相結合的信息表示框架,使得不確定性推理在邏輯上變得更為清晰,理解性更強。
6.貝葉斯網絡由網絡結構和條件概率表兩部分組成。
7.貝葉斯網絡三個議題:預測,診斷,學習。
8.基于貝葉斯網絡的學習包括:結構學習,參數學習
五.粗糙集
1.粗糙集:粗糙集理論是一種新型處理不完整和不確定性問題的數學工具,它能對不完整資料進行分析,推理,學習和發現,具有很強的知識獲取能力。
2.決策表:具有條件屬性集和決策屬性集的知識表達系統稱為決策表。
3.等價關系:關系是自反的,對稱的,傳遞的。
六.神經網絡
1.神經網絡類型:前向型,反饋型,隨機型,自組織競爭型。
2.神經元:神經網絡的基本計算單元,又稱為處理單元或結點,一般是多個輸入,一個輸出的非線性單元,可以有一個內部反饋和閾值。
3.神經網絡中的特性函數:分段線性特性函數,閾值特性函數,S型邏輯特型函數
4.神經網絡通常包括一個輸入層和一個輸出層,以及若干隱藏神經元組成的隱層。無隱層為單層神經網絡,否則稱為多層神經網絡。
5.神經網絡按照是否有反饋層,分為前饋神經網絡和反饋神經網絡。
6.網絡結構包括神經元數目,隱含層數目,連接方式等。
7.前饋網絡和遞歸網絡的本質區別是網絡的某些輸出是否循環作為網絡的輸入。前饋網絡的所有輸出都不能作為輸入,而遞歸網絡的某些輸出可以循環作為網絡的輸入。
8.多層前饋網絡中隱藏神經元的作用是增強網絡的適應能力,通過隱藏層,多層前饋網絡可以逼近系統中任意非線性的成分。
9.在BP算法中,總體誤差對網絡輸出的偏導數和有序導數始終一致。因為總體誤差與網絡輸出變量之間沒有中間變量。總體誤差對網絡輸入的偏導數和有序導數是不一致的。因為總體誤差和輸入變量之間是有中間變量。
七.遺傳算法
八.統計分析
九.文本和web挖掘
1.web挖掘的三個主要類別:web內容挖掘,web結構挖掘,web使用挖掘
web內容挖掘:文本挖掘,多媒體挖掘
web結構挖掘:超鏈接挖掘,頁面結構挖掘
web使用挖掘:用戶訪問模式挖掘,分析定制web站點
2.查準率:檢索到的文檔中的相關文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統的準確性。
查全率:檢索出的文檔中的相關文檔占全部相關文檔的百分比,他所衡量的是檢索系統的全面性。
3.信息檢索:用戶從包含各種信息的文檔集中查找所需要的信息或知識的過程。
4.信息模型建立方法:布爾模型,向量模型,概率模型
5.檢索模型三要素:文本集,用戶提問,文本與用戶提問相匹配
6.關聯分析對文本數據庫進行語法分析,抽取詞根等預處理,生成關鍵字向量,根據關鍵字查詢向量與文檔向量之間的相關度比較結果,輸出文本結果,然后調用關聯挖掘算法。
7.文本挖掘兩個階段:關聯挖掘階段,規則生成階段
8.文本聚類步驟:獲取結構化的文本集;執行聚類算法,獲得聚類譜系圖;選取合適的聚類閾值。
9.自動摘要信息系統構成:信息的理解,主題信息的提取,摘要生成
10.自動摘要步驟:對文檔的預處理;過濾;分詞
11.搜索引擎組成:搜索器,索引器,檢索器,用戶接口
算法邏輯題:
1.k-means聚類
2.層次聚類
3.aprior關聯規則算法
4.FP-tree關聯
https://www.cnblogs.com/pinard/p/6307064.html
5.決策樹ID3算法分類
https://blog.csdn.net/qq_28697571/article/details/84678889
6.近鄰分析與k近鄰分析算法分類
數據倉庫:
https://blog.csdn.net/ycy258325/article/details/52811013
https://blog.csdn.net/jack0511/article/details/3863501
https://blog.csdn.net/weixin_40449300/article/details/87384104
//歡迎關注個人微信公眾號:飛享
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘归纳汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软件工程导论——第三章——需求分析
- 下一篇: 数据仓库与数据挖掘 阶段考试复习题