當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

数据库基础考点笔记-3

發布時間：2023/12/14 数据库 28 豆豆

生活随笔收集整理的這篇文章主要介紹了数据库基础考点笔记-3 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、反規范化——概念

1、增加冗余列

2、增加派生列

3、重新組表

4、分割表

（1）水平分割

（2）垂直分割

二、事務管理——概念

三、并發控制——概念

1、排他型封鎖（簡稱 X 封鎖）

2、共享型封鎖（簡稱 S 封鎖）

四、分布式數據庫——概念

1、分布式數據庫系統特點

（1）數據的分布性

（2）統一性

（3）透明性

2、分布式數據庫優點

五、故障恢復——概念

1、數據庫的故障分類

（1）事務故障

（2）系統故障

（3）介質故障

（4）計算機病毒

2、故障的恢復

（1）事務故障的恢復

（2）系統故障的恢復

（3）介質故障與病毒破壞的恢復

（4）具有檢查點的恢復技術

六、數據庫備份——概念

1、物理備份

（1）冷備份

（2）熱備份

（3）備份方式

七、數據倉庫——概念

1、數據倉庫的結構

（1）數據源

（2）數據的存儲與管理

（3）OLAP 服務器

（4）前端工具

2、數據倉庫的實現方法

（1）自頂向下法

（2）自底向上法

（3）混合法

八、數據挖掘——概念

1、數據挖掘的流程

（1）問題定義

（2）建立數據挖掘庫

（3）分析數據

（4）調整數據

（5）模型化

（6）評價和解釋

2、常用數據挖掘技術

（1）關聯分析

（2）序列分析

（3）分類分析

（4）聚類分析

（5）預測

（6）時間序列

一、反規范化——概念

常見的反規范化技術包括：

1、增加冗余列

增加冗余列是指在多個表中具有相同的列，它常用來在查詢時避免連接操作。

例如：以規范化設計的理念，學生成績表中不需要字段“姓名”，因為“姓名”字段可以通過學號查詢到，但在反規范化設計中，會將“姓名”字段加入表中。這樣查詢一個學生的成

績時，不需要與學生表進行連接操作，便可得到對應的“姓名”。

2、增加派生列

增加派生列指增加的列可以通過表中其他數據計算生成。它的作用是在查詢時減少計算量，從而加快查詢速度。

例如：訂單表中，有商品號、商品單價、采購數量，我們需要訂單總價時，可以通過計算得到總價，所以規范化設計的理念是無須在訂單表中設計“訂單總價”字段。

但反規范化則不這樣考慮，由于訂單總價在每次查詢都需要計算，這樣會占用系統大量資源，所以在此表中增加派生列“訂單總價”以提高查詢效率。

3、重新組表

重新組表指如果許多用戶需要查看兩個表連接出來的結果數據，則把這兩個表重新組成一個表來減少連接而提高性能。

4、分割表

有時對表做分割可以提高性能。表分割有兩種方式。

（1）水平分割

根據一列或多列數據的值把數據行放到兩個獨立的表中。

水平分割通常在下面的情況下使用。

情況 1：表很大，分割后可以降低在查詢時需要讀的數據和索引的頁數，同時也降低了索引的層數，提高查詢效率。
情況 2：表中的數據本來就有獨立性，例如表中分別記錄各個地區的數據或不同時期的數據，特別是有些數據常用，而另外一些數據不常用。
情況 3：需要把數據存放到多個介質上。

（2）垂直分割

把主碼和一些列放到一個表，然后把主碼和另外的列放到另一個表中。

如果一個表中某些列常用，而另外一些列不常用，則可以采用垂直分割，另外垂直分割可以使得數據行變小，一個數據頁就能存放更多的數據，在查詢時就會減少 I/O 次數。其缺點是需要管理冗余列，查詢所有數據需要連接操作。

二、事務管理——概念

數據庫系統運行的基本工作單位是事務，事務相當于操作系統中的進程，是用戶定義的一個數據庫操作序列，這些操作序列要么全做要么全不做，是一個不可分割的工作單位。

事務通常以 BEGIN TRANSACTION（事務開始）語句開始，以COMMIT 或 ROLLBACK 語句結束。

COMMIT 稱為“事務提交語句”，表示事務執行成功的結束。
ROLLBACK 稱為“事務回退語句”，表示事務執行不成功的結束。

從終端用戶來看，事務是一個原子，是不可分割的操作序列。事務中包括的所有操作要么都做，要么都不做（就效果而言）。事務不應該丟失或被分割地完成。

三、并發控制——概念

處理并發控制的主要方法是采用封鎖技術。它有兩種類型：排他型封鎖（X 封鎖）和共享型封鎖（S 封鎖），分別介紹如下：

1、排他型封鎖（簡稱 X 封鎖）

如果事務 T 對數據 A（可以是數據項、記錄、數據集，乃至整個數據庫）實現了 X 封鎖，那么只允許事務 T 讀取和修改數據 A，其他事務要等事務 T 解除 X 封鎖以后，才能對數據 A 實現任何類型的封鎖。可見 X 封鎖只允許一個事務獨鎖某個數據，具有排他性。

2、共享型封鎖（簡稱 S 封鎖）

X 封鎖只允許一個事務獨鎖和使用數據，要求太嚴。需要適當放寬，例如可以允許并發讀，但不允許修改，這就產生了S 封鎖概念。

S 封鎖的含義是：如果事務 T 對數據 A 實現了 S 封鎖，那么允許事務 T 讀取數據 A，但不能修改數據 A，在所有 S 封鎖解除之前絕不允許任何事務對數據 A 實現 X 封鎖。

典型真題

若事務T1對數據D1加了共享鎖，事務T2、T3分別對數據D2、D3加了排它鎖，則事務T1 對數據（）;事務T2對數據（）。

A.D2、D3加排它鎖都成功? ? ? ?
B.D2、D3加共享鎖都成功
C.D2加共享鎖成功，D3加排它鎖失敗? ? ?
D.D2、D3加排它鎖和共享鎖都失敗

——————————————————————————————————

A.D1、D3加共享鎖都失敗? ? ? ?
B.D1、D3加共享鎖都成功
C.D1加共享鎖成功，D3如排它鎖失敗? ? ??
D.D1加排它鎖成功，D3加共享鎖失敗

試題分析：

共享鎖（S鎖）：又稱讀鎖，若事物T對數據對象A加上S鎖，其他事物只能再對A加S鎖，而不能加X鎖，而不能加X鎖，直到T釋放A上的S鎖

排他鎖（X鎖）：又稱寫鎖。若事物T對數據對象A加上X鎖，其他事物不能再對A加任何鎖，直到T釋放A上的鎖。

參考答案： D 、C

四、分布式數據庫——概念

1、分布式數據庫系統特點

（1）數據的分布性

分布式數據庫中的數據分布于網絡中的各個結點，它既不同于傳統的集中式數據庫，也不同于通過計算機網絡共享的集中式數據庫系統。

（2）統一性

主要表現在數據在邏輯上的統一性和數據在管理上的統一性兩個方面。

分布式數據庫系統通過網絡技術把局部的、分散的數據庫構成一個在邏輯上單一的數據庫，從而呈現在用戶面前的就如同是一個統一的、集中式的數據庫。這就是數據在邏輯上的統一性，因此，它不同于由網絡互聯的多個獨立數據庫。分布式數據庫是由分布式數據庫管理系統統一管理和維護的，這種管理上的統一性又使它不同于一般的分布式文件系統。

（3）透明性

用戶在使用分布式數據庫時，與使用集中式數據庫一樣，無須知道其所關心的數據存放在哪里，存儲了幾次。用戶需要關心的僅僅是整個數據庫的邏輯結構。

分布透明性包括：分片透明性、位置透明性和局部數據模型透明性。

（1）分片透明性是分布透明性的最高層次

所謂分片透明性是指用戶或應用程序只對全局關系進行操作而不必考慮數據的分片。

（2）位置透明性是分布透明性的下一層次

所謂位置透明性是指，用戶或應用程序應當了解分片情況，但不必了解片段的存儲場地。

（3）局部數據模型（邏輯透明）

透明性是指用戶或應用程序應當了解分片及各片斷存儲的場地，但不必了解局部場地上使用的是何種數據模型。

2、分布式數據庫優點

與集中式數據庫相比，分布式數據庫具有下列優點：

（1）堅固性好

由于分布式數據庫系統是由多個位置上的多臺計算機構成的，在個別結點或個別通信鏈路發生故障的情況下，它仍然可以降低級別繼續工作，如果采用冗余技術，還可以獲得一定的容錯能力。因此，系統的堅固性好，即系統的可靠性和可用性好。

（2）可擴充性好

可根據發展的需要增減結點，或對系統重新配置，這比用一個更大的系統代替一個已有的集中式數據庫要容易得多。

（3）可改善性能

在分布式數據庫中可按就近分布，合理地冗余的原則來分布各結點上的數據，構造分布式數據庫，使大部分數據可以就近訪問，避免了集中式數據庫中的瓶頸問題，減少了系統的響應時間，提高了系統的效率，而且也降低了通信費用。

（4）自治性好

數據可以分散管理，統一協調，即系統中各結點的數據操縱和相互作用是高度自治的，不存在主從控制，因此，分布式數據庫較好地滿足了一個單位中各部門希望擁有自己的數據，管理自己的數據，同時又想共享其他部門有關數據的要求。

注意：

雖然分布式數據庫系統與集中式數據庫相比有不少優點，但同時也需要解決一些集中式數據庫所沒有的問題。

首先，異構數據庫的集成問題是一項比較復雜的技術問題，目前還很難用一個通用的分布式數據庫管理系統來解決這一問題。

其次，如果數據庫設計得不好，數據分布不合理，以致遠距離訪問過多，尤其是分布連接操作過多，不但不能改善性能，反而會使性能降低。

五、故障恢復——概念

1、數據庫的故障分類

數據庫的故障可用事務的故障來表示，主要分為四類：

（1）事務故障

事務在運行過程中由于種種原因，如輸入數據的錯誤、運算溢出、違反了某些完整性限制、某些應用程序的錯誤，以及并發事務發生死鎖等，使事務未運行至正常終止點就被撤銷，這種情況稱為“事務故障”。

（2）系統故障

系統故障是指系統在運行過程中，由于某種原因（如操作系統或數據庫管理系統代碼錯誤、操作員操作失誤、特定類型的硬件錯誤（如 CPU 故障）、突然停電等造成系統停止運行），致使事務在執行過程中以非正常方式終止，這時內存中的信息丟失，但存儲在外存儲設備上的數據不會受影響。

（3）介質故障

系統在運行過程中，由于某種硬件故障，如磁盤損壞、磁頭碰撞或由于操作系統的某種潛在的錯誤、瞬時強磁場干擾，使存儲在外存上的數據部分損失或全部損失，稱為“介質故障”。這類故障比前兩類故障的可能性雖然小得多，但破壞性卻最大。

（4）計算機病毒

計算機病毒是一種人為破壞計算機正常工作的特殊程序。通過讀寫染有病毒的計算機系統中的程序與數據，這些病毒可以迅速繁殖和傳播，危害計算機系統和數據庫。目前大多數病毒是在 PC 和其兼容機上傳播的。有的病毒一侵入系統就馬上摧毀系統，有的病毒有較長的潛伏期，有的病毒則只在特定的日期發生破壞作用，有的病毒感染系統所有的程序和數據，有的只影響特定的程序和數據。

2、故障的恢復

（1）事務故障的恢復

事務故障是指事務未運行至正常終止點前被撤銷，這時恢復子系統應對此事務做撤銷處理。事務故障的恢復是由系統自動完成的，不需要用戶干預，步驟如下：

反向掃描文件日志，查找該事務的更新操作。

對該事務的更新操作執行逆操作。

繼續反向掃描日志文件，查找該事務的其他更新操作，并做同樣處理。

如此處理下去，直至讀到此事務的開始標記，事務故障恢復完成。

（2）系統故障的恢復

系統故障發生時，造成數據庫不一致狀態的原因有兩個：

一是由于一些未完成事務對數據庫的更新已寫入數據庫；
二是由于一些已提交事務對數據庫的更新還留在緩沖區沒來得及寫入數據庫。

系統故障的恢復是在重新啟動時自動完成的，不需要用戶干預，步驟如下：

正向掃描日志文件，找出在故障發生前已經提交的事務，將其事務標識記入重做（Redo）隊列。同時找出故障發生時尚未完成的事務，將其事務標識記入撤銷（Undo）隊列。

對撤銷隊列中的各個事務進行撤銷處理：反向掃描日志文件，對每個 Undo 事務的更新操作執行逆操作。

對重做隊列中的各個事務進行重做處理：正向掃描日志文件，對每個 Redo 事務重新執行日志文件登記的操作。

（3）介質故障與病毒破壞的恢復

在發生介質故障和遭病毒破壞時，磁盤上的物理數據庫被破壞，這時的恢復操作可分為三步：

裝入最新的數據庫后備副本，使數據庫恢復到最近一次轉儲時的一致性狀態。

從故障點開始反向讀日志文件，找出已提交事務標識將其記入重做隊列。

從起始點開始正向閱讀日志文件，根據重做隊列中的記錄，重做所有已完成事務，將數據庫恢復至故障前某一時刻的一致狀態。

（4）具有檢查點的恢復技術

檢查點記錄的內容可包括：

建立檢查點時刻所有正在執行的事務清單。
這些事務最近一個日志記錄的地址。

采用檢查點的恢復步驟如下：

從重新開始文件中找到最后一個檢查點記錄在日志文件中的地址，由該地址在日志文件中找到最后一個檢查點記錄。

由該檢查點記錄得到檢查點建立時所有正在執行的事務清單隊列（A）。

建立重做隊列（R）和撤銷隊列（U），把 A 隊列放入 U 隊列中，R 隊列為空。

六、數據庫備份——概念

數據庫備份按照不同方式可分為多種，這里按照備份內容分為物理備份和邏輯備份兩類。

1、物理備份

物理備份是在操作系統層面上對數據庫的數據文件進行備份，物理備份分為冷備份和熱備份兩種。

（1）冷備份

冷備份是將數據庫正常關閉，在停止狀態下利用操作系統的 copy、cp、tar、 cpio 等命令將數據庫的文件全部備份下來，當數據庫發生故障時，將數據文件復制回來，進行恢復。

（2）熱備份

熱備份也分為兩種，一種是不關閉數據庫，將數據庫中需要備份的數據文件依次置于備份狀態，相對保持靜止，然后再利用操作系統的 copy、cp、tar、cpio 等命令將數據庫的文件

備份下來，備份完畢后再將數據文件恢復為正常狀態，當數據庫發生故障時，恢復方法同冷備份一樣。

熱備份的另外一種方式是利用備份軟件（例如，veritas 公司的netbackup，legato 公司的 network 等）在數據庫正常運行的狀態下，將數據庫中的數據文件備份出來。

（3）備份方式

為了提高物理備份的效率，通常將完全、增量、差異三種備份方式相組合。

完全備份是將數據庫的內容全部備份。

不足之處在于，各個全備份磁帶中的備份數據存在大量的重復信息；另外，由于每次需要備份的數據量相當大，因此備份所需時間較長。

增量備份是只備份上次完全、增量或差異備份以來修改的數據。

因此備份的數據量不大，備份所需的時間很短。但增量備份的數據恢復是比較麻煩的。

必須具有上一次全備份和所有增量備份磁帶（一旦丟失或損壞其中的一盤磁帶，就會造成恢復的失敗），并且它們必須沿著從全量備份到依次增量備份的時間順序逐個反推恢復，因此這就極大地延長了恢復時間。

差異備份是備份自上次完全備份后發生變化的所有數據。

差異備份在避免了另外兩種備份策略缺陷的同時，又具備了它們各自的優點。

首先，它具有了增量備份需要時間短、節省磁盤空間的優勢；
其次，它又具有了全量備份恢復所需磁帶少、恢復時間短的特點。系統管理員只需要兩盤磁帶，即全備份磁帶與災難發生前一天的差異備份磁帶，就可以將系統恢復。

典型真題

試題分析

增量備份在做數據備份前會先判斷數據的最后修改時間是否比上次備份的時間晚。如果不是，則表示該數據并沒有被修改過，這次不需要備份。

所以該備份方式，只記錄上次備份之后的變動情況，而非完全備份。

試題答案：A

七、數據倉庫——概念

數據倉庫（Data Warehouse）是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合，用于支持管理決策。

1、數據倉庫的結構

（1）數據源

是數據倉庫系統的基礎，是整個系統的數據源泉。通常包括企業內部信息和外部信息。

內部信息包括存放于 RDBMS（關系型 DBMS）中的各種業務處理數據和各類文檔數據。
外部信息包括各類法律法規、市場信息和競爭對手的信息等。

（2）數據的存儲與管理

是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。

數據倉庫的組織管理方式決定了它有別于傳統數據庫，同時也決定了其對外部數據的表現形式。要決定采用什么產品和技術來建立數據倉庫的核心，則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據，進行抽取、清理，并有效集成，按照主題進行組織。

數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫（通常稱為數據集市）。

（3）OLAP 服務器

對分析需要的數據進行有效集成，按多維模型予以組織，以便進行多角度、多層次的分析，并發現趨勢。

其具體實現可以分為：ROLAP、MOLAP 和 HOLAP。

ROLAP 基本數據和聚合數據均存放在 RDBMS 之中；
MOLAP 基本數據和聚合數據均存放于多維數據庫中；
HOLAP 基本數據存放于 RDBMS 之中，
聚合數據存放于多維數據庫中。

（4）前端工具

主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具及各種基于數據倉庫或數據集市的應用開發工具。

其中數據分析工具主要針對 OLAP 服務器，報表工具、數據挖掘工具主要針對數據倉庫。

2、數據倉庫的實現方法

從整體的角度來看，數據倉庫的實現方法主要有自頂向下法、自底向上法和聯合方法。

（1）自頂向下法

在該方法中，首先應找出數據倉庫解決方案所要滿足的商業需求，把商業需求視為實現數據倉庫的首要任務。

數據倉庫是一種功能而不是一種特征，數據倉庫保存信息，并以外部工具易于顯示和操作的方式組織這些信息。因此，如果不借助于可以利用這種功能的外部工具，最終用戶就無法將這種功能嵌入數據倉庫中。這樣，就很難定出該功能的范圍，除非用廣義上的商業術語，如“數據倉庫將包含有關客戶、供應商、市場、產品的信息”。

（2）自底向上法

自底向上方法一般從實驗和基于技術的原形入手。先選擇一個特定的、眾所周知的商業問題的子集，再為該子集制訂方案。

實現自底向上一般是比較快的。自底向上可以使一個單位在發展時用盡可能少的經費和時間，就可以在做出有效的投入之前評估技術的收益情況。

在數據倉庫領域，自底向上方法是快速實現數據集市、部門級數據倉庫的有效手段。

（3）混合法

擁有以上兩種方法的優點。適合數據倉庫技術的快速試運行，并且保留了建立長遠的決策方案的機會。

典型真題

試題分析

數據倉庫4大特點：

面向主題：數據按主題組織。
集成的：消除了源數據中的不一致性，提供整個企業的一致性全局信息。
相對穩定的(非易失的)：主要進行查詢操作，只有少量的修改和刪除操作（或是不刪除）。
反映歷史變化(隨著時間變化)：記錄了企業從過去某一時刻到當前各個階段的信息，可對發展歷程和未來趨勢做定量分析和預測。

試題答案：C

八、數據挖掘——概念

數據挖掘（Data Mining）技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的數據庫中的，然后發展到可對數據庫進行查詢和訪問，進而發展到對數據庫的即時遍歷。

數據挖掘使數據庫技術進入了一個更高級的階段，它不僅能對過去的數據進行查詢和遍歷，并且能夠找出過去數據之間的潛在聯系，從而促進信息的傳遞。

現在數據挖掘技術在商業應用中已經可以馬上投入使用，因為對這種技術進行支持的三種基礎技術已經發展成熟，它們是海量數據搜集、強大的多處理器計算機和數據挖掘算法。

數據挖掘與傳統的數據分析（如查詢、報表、聯機應用分析）的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。

數據挖掘所得到的信息應具有先知，有效和可實用三個特征。

1、數據挖掘的流程

（1）問題定義

在開始數據挖掘之前，最先的也是最重要的要求就是熟悉背景知識，弄清用戶的需求。

缺少了背景知識，就不能明確定義要解決的問題，就不能為挖掘準備優質的數據，也很難正確地解釋得到的結果。要想充分發揮數據挖掘的價值，必須對目標有一個清晰明確的定義，即決定到底想干什么。

（2）建立數據挖掘庫

要進行數據挖掘必須收集要挖掘的數據資源。

一般建議把要挖掘的數據都收集到一個數據庫中，而不是采用原有的數據庫或數據倉庫。這是因為大部分情況下需要修改要挖掘的數據，而且還會遇到采用外部數據的情況；另外，數

據挖掘還要對數據進行各種紛繁復雜的統計分析，而數據倉庫可能不支持這些數據結構。

（3）分析數據

分析數據就是通常所進行的對數據深入調查的過程。

從數據集中找出規律和趨勢，用聚類分析區分類別，最終要達到的目的就是搞清楚多因素相互影響的、十分復雜的關系，發現因素之間的相關性。

（4）調整數據

通過上述步驟的操作，對數據的狀態和趨勢有了進一步的了解，這時要盡可能對問題解決的要求能進一步明確化、進一步量化。

針對問題的需求對數據進行增刪，按照對整個數據挖掘過程的新認識組合或生成一個新的變量，以體現對狀態的有效描述。

（5）模型化

在問題進一步明確，數據結構和內容進一步調整的基礎上，就可以建立形成知識的模型。

這一步是數據挖掘的核心環節，一般運用神經網絡、決策樹、數理統計、時間序列分析等方法來建立模型。

（6）評價和解釋

上面得到的模式模型，有可能是沒有實際意義或沒有實用價值的，也有可能是其不能準確反映數據的真實意義，甚至在某些情況下是與事實相反的，因此需要評估，確定哪些是有效的、有用的模式。

評估的一種辦法是直接使用原先建立的挖掘數據庫中的數據來進行檢驗，另一種辦法是另找一批數據并對其進行檢驗，再一種辦法是在實際運行的環境中取出新鮮數據進行檢驗。

2、常用數據挖掘技術

常用的數據挖掘技術包括關聯分析、序列分析、分類、預測、聚類分析及時間序列分析等。

（1）關聯分析

關聯分析主要用于發現不同事件之間的關聯性，即一個事件發生的同時，另一個事件也經常發生。

關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。其主要依據是事件發生的概率和條件概率應該符合一定的統計意義。

對于結構化的數據，以客戶的購買習慣數據為例，利用關聯分析，可以發現客戶的關聯購買需要。

例如，一個開設儲蓄賬戶的客戶很可能同時進行債券交易和股票交易，購買紙尿褲的男顧客經常同時購買啤酒等。利用這種知識可以采取積極的營銷策略，擴展客戶購買的產品范圍，吸引更多的客戶。通過調整商品的布局便于顧客買到經常同時購買的商品，或者通過降低一種商品的價格來促進另一種商品的銷售等。

對于非結構化的數據，以空間數據為例，利用關聯分析，可以發現地理位置的關聯性。

例如，85%的靠近高速公路的大城鎮與水相鄰，或者發現通常與高爾夫球場相鄰的對象等。

（2）序列分析

序列分析技術主要用于發現一定時間間隔內接連發生的事件。

這些事件構成一個序列，發現的序列應該具有普遍意義，其依據除了統計上的概率之外，還要加上時間的約束。

（3）分類分析

分類分析通過分析具有類別的樣本的特點，得到決定樣本屬于各種類別的規則或方法。

利用這些規則和方法對未知類別的樣本分類時應該具有一定的準確度。其主要方法有基于統計學的貝葉斯方法、神經網絡方法、決策樹方法及支持向量機（support vector machines）等。

利用分類技術，可以根據顧客的消費水平和基本特征對顧客進行分類，找出對商家有較大利益貢獻的重要客戶的特征，通過對其進行個性化服務，提高他們的忠誠度。

利用分類技術，可以將大量的半結構化的文本數據，如 WEB 頁面、電子郵件等進行分類。可以將圖片進行分類，例如，根據已有圖片的特點和類別，可以判定一幅圖片屬于何種類型的規則。

對于空間數據，也可以進行分類分析，例如，可以根據房屋的地理位置決定房屋的檔次。

（4）聚類分析

聚類分析是根據物以類聚的原理，將本身沒有類別的樣本聚集成不同的組，并且對每一個這樣的組進行描述的過程。

其主要依據是聚到同一個組中的樣本應該彼此相似，而屬于不同組的樣本應該足夠不相似。

仍以客戶關系管理為例，利用聚類技術，根據客戶的個人特征及消費數據，可以將客戶群體進行細分。

例如，可以得到這樣的一個消費群體：女性占 91%，全部無子女、年齡在 31 歲到 40 歲占 70%，高消費級別的占 64%，買過針織品的占 91%，買過廚房用品的占89%，買過園藝用品的占 79%。針對不同的客戶群，可以實施不同的營銷和服務方式，從而提高客戶的滿意度。

對于空間數據，根據地理位置及障礙物的存在情況可以自動進行區域劃分。

例如，根據分布在不同地理位置的 ATM 機的情況將居民進行區域劃分，根據這一信息，可以有效地進行 ATM 機的設置規劃，避免浪費，同時也避免失掉每一個商機。

對于文本數據，利用聚類技術可以根據文檔的內容自動劃分類別，從而便于文本的檢索。

（5）預測

預測與分類類似，但預測是根據樣本的已知特征估算某個連續類型的變量的取值的過程，而分類則只是用于判別樣本所屬的離散類別而已。預測常用的技術是回歸分析。

（6）時間序列

分析時間序列分析的是隨時間而變化的事件序列，目的是預測未來發展趨勢，或者尋找相似發展模式或者是發現周期性發展規律。

典型真題

試題分析

依據題目說明的情況，該做法是進行多維數據分析，而多維數據分析是OLAP的典型應用。數據挖掘一般用于挖掘數據之間的聯系，得到一些人類所未知的數據規律。

數據處理大致可以分成兩大類：聯機事務處理OLTP（on-line transaction processing）、聯機分析處理OLAP（On-Line Analytical Processing）。

OLTP是傳統的關系型數據庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。
OLAP是數據倉庫系統的主要應用，支持復雜的分析操作，側重決策支持，并且提供直觀易懂的查詢結果。

OLTP 系統強調數據庫內存效率，強調內存各種指標的命令率，強調綁定變量，強調并發操作；

OLAP 系統則強調數據分析，強調SQL執行市場，強調磁盤I/O，強調分區等。

ETL，是英文Extract-Transform-Load的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、加載（load）至目的端的過程。

試題答案：B

總結

以上是生活随笔為你收集整理的数据库基础考点笔记-3的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：游戏运营岗位介绍和面试题答案
下一篇： 5款国产ARM芯片(对标stm32f10

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

数据库

数据库基础考点笔记-3

一、反規范化——概念

1、增加冗余列

2、增加派生列

3、重新組表

4、分割表

（1）水平分割

（2）垂直分割

二、事務管理——概念

三、并發控制——概念

1、排他型封鎖（簡稱 X 封鎖）

2、共享型封鎖（簡稱 S 封鎖）

四、分布式數據庫——概念

1、分布式數據庫系統特點

（1）數據的分布性

（2）統一性

（3）透明性

2、分布式數據庫優點

五、故障恢復——概念

1、數據庫的故障分類

（1）事務故障

（2）系統故障

（3）介質故障

（4）計算機病毒

2、故障的恢復

（1）事務故障的恢復

（2）系統故障的恢復

（3）介質故障與病毒破壞的恢復

（4）具有檢查點的恢復技術

六、數據庫備份——概念

1、物理備份

（1）冷備份

（2）熱備份

（3）備份方式

七、數據倉庫——概念

1、數據倉庫的結構

（1）數據源

（2）數據的存儲與管理

（3）OLAP 服務器

（4）前端工具

2、數據倉庫的實現方法

（1）自頂向下法

（2）自底向上法

（3）混合法

八、數據挖掘——概念

1、數據挖掘的流程

（1）問題定義

（2）建立數據挖掘庫

（3）分析數據

（4）調整數據

（5）模型化

（6）評價和解釋

2、常用數據挖掘技術

（1）關聯分析

（2）序列分析

（3）分類分析

（4）聚類分析

（5）預測

（6）時間序列

總結