数据仓库、商业智能的体系结构
來源:http://ajava.org/readbook/db/dbgcsks/12413.html
?
16.2? 數(shù)據(jù)倉庫、商業(yè)智能的體系結(jié)構(gòu)
如圖16-5所示是數(shù)據(jù)倉庫/商業(yè)智能的完整的體系結(jié)構(gòu)圖,根據(jù)數(shù)據(jù)的不同形態(tài),整個體系被劃分為4個大的層面,并根據(jù)數(shù)據(jù)的處理和應(yīng)用過程再細分成7個環(huán)節(jié)。從數(shù)據(jù)源經(jīng)過抽取(Extra,E)、轉(zhuǎn)換(Transform,T)、裝載(Load,L)過程加載到中央數(shù)據(jù)倉庫,再從數(shù)據(jù)倉庫經(jīng)過分類加工放到數(shù)據(jù)集市(DM,Data Market),或者將數(shù)據(jù)集市中的數(shù)據(jù)進一步存放到多維數(shù)據(jù)庫(MDD,Multi-dimension Database)中,這都屬于數(shù)據(jù)組織的問題,從中間層到終端用戶或從多維數(shù)據(jù)庫到終端用戶可將其劃歸為前端應(yīng)用實現(xiàn)的問題。而貫穿整個體系數(shù)據(jù)處理環(huán)節(jié)的,是系統(tǒng)的流程調(diào)度控制和元數(shù)據(jù)管理。
圖16-5? 數(shù)據(jù)倉庫/商業(yè)智能體系結(jié)構(gòu)圖
16.2.1? 數(shù)據(jù)源
數(shù)據(jù)源可以是企業(yè)日常運作積累下來的各類的業(yè)務(wù)數(shù)據(jù),也可以是外部的數(shù)據(jù)。這些數(shù)據(jù)在存放方式、存放格式、存放地點上可能是多種多樣的,這就要求數(shù)據(jù)倉庫的體系結(jié)構(gòu)必須能處理由這種多樣性帶來的種種問題,如訪問多種技術(shù)平臺下,多種類型的DBMS內(nèi)的數(shù)據(jù),并解決由于數(shù)據(jù)遠程遷移所帶來的完整性和安全性問題。
16.2.2? 數(shù)據(jù)抽取、轉(zhuǎn)換和裝載
數(shù)據(jù)抽取、轉(zhuǎn)換和裝載完成如下任務(wù):從源數(shù)據(jù)抽取數(shù)據(jù)、進行一定的變換、裝載到數(shù)據(jù)倉庫。在上述過程中,需要進行如下數(shù)據(jù)處理。
l???????? 簡單變換:是數(shù)據(jù)變換最簡單的形式,一次只針對一個字段,而不是考慮相關(guān)字段的值。主要有數(shù)據(jù)類型的轉(zhuǎn)換、日期/時間的格式轉(zhuǎn)換、字段解碼等。
l???????? 清潔和刷洗:目的是為了保證前后一致地格式化和使用某一字段或相關(guān)的字段群。清潔和刷洗是兩個可以互換的術(shù)語,指的是比簡單變換更為復(fù)雜的一種變換。在這種變換中,要檢查的是字段和字段組中的實際內(nèi)容而不僅是存儲格式。一種檢查是檢查數(shù)據(jù)字段值的有效值,它指的是檢驗一個字段的有效值以保證它落在預(yù)期的范圍之內(nèi),通常是數(shù)字范圍和日期范圍。數(shù)據(jù)刷洗的另一主要類型是重新格式化某些類型的數(shù)據(jù),這種方法適用于可以用許多不同方式存儲在不同數(shù)據(jù)來源中的信息,必須在數(shù)據(jù)倉庫中把這類信息轉(zhuǎn)換成一種統(tǒng)一的表示方式。
l???????? 集成:要把從來源全然不同的數(shù)據(jù)結(jié)合在一起,真正的困難在于將其集成一個緊密結(jié)合的數(shù)據(jù)模型。這些數(shù)據(jù)來源往往遵守的不是同一套業(yè)務(wù)規(guī)則,在生成新數(shù)據(jù)時,必須考慮到這一差異。
l???????? 聚集和概括:大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實例的數(shù)目減少到易于駕馭的水平,也有助于預(yù)先計算出廣泛的概括數(shù)字,以使每個查詢不必計算它們。概括是指按照一個和幾個業(yè)務(wù)維將相近的數(shù)值加在一起,聚集是將不同業(yè)務(wù)元素加在一起或為一個公共總數(shù),在數(shù)據(jù)倉庫中它們是以相同的方式進行的。
16.2.3? 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的一個目的就是把企業(yè)的信息訪問基礎(chǔ),從一種非結(jié)構(gòu)化的或發(fā)展中的環(huán)境改變成一種結(jié)構(gòu)化或規(guī)劃良好的環(huán)境。
對于傳統(tǒng)的業(yè)務(wù)處理(OLTP)系統(tǒng),我們總是按照業(yè)務(wù)應(yīng)用來建立它的模型,換言之,業(yè)務(wù)處理系統(tǒng)是面向應(yīng)用來設(shè)計的,更準(zhǔn)確地說是面向交易來設(shè)計的。而數(shù)據(jù)倉庫則一般按照主題(Subject)來建模,它是面向主題的。何謂應(yīng)用? 何謂主題? 讓我們來看一個簡單的例子。在銀行中,一般都有對私(個人儲蓄)、對公(企業(yè)儲蓄)、信用卡等多種業(yè)務(wù)系統(tǒng)。它們都是面向相關(guān)業(yè)務(wù)應(yīng)用設(shè)計的交易處理系統(tǒng),主要任務(wù)是完成業(yè)務(wù)交易過程中的數(shù)據(jù)處理。數(shù)據(jù)庫在設(shè)計時圍繞性能和完整性方面,而每個交易涉及的數(shù)據(jù)往往只是記錄的層面,數(shù)據(jù)庫設(shè)計主要考慮并行更新方面,并不需要考慮為全表范圍的查詢做優(yōu)化,而系統(tǒng)本身所支持的交易類型簡單而且固定。由于歷史原因,這些系統(tǒng)設(shè)計的時候都是獨立進行的,所以可能運行在不同的平臺上,相互之間沒有什么關(guān)系,各系統(tǒng)之間對相同的業(yè)務(wù)信息還存在數(shù)據(jù)上的冗余。比如每個系統(tǒng)中都會有客戶的數(shù)據(jù),這種數(shù)據(jù)的零碎和冗余,使決策者很難從這些業(yè)務(wù)系統(tǒng)中直接獲取全面的信息。
為了克服這個弊病,建立數(shù)據(jù)倉庫應(yīng)用時, 要把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)從中抽取出來,轉(zhuǎn)換和清洗以消除數(shù)據(jù)的不一致性和冗余,加載到數(shù)據(jù)倉庫中來。這樣,數(shù)據(jù)倉庫中的數(shù)據(jù)就從整個銀行角度來看,其數(shù)據(jù)模型不再面向個別應(yīng)用,而是面向整個銀行的業(yè)務(wù)主題,比如客戶、產(chǎn)品、渠道等。因此,各個生產(chǎn)系統(tǒng)中與客戶、產(chǎn)品、渠道等相關(guān)的信息將分別轉(zhuǎn)換到數(shù)據(jù)倉庫中相應(yīng)的主題中,從而給銀行的決策者提供一個一致的完整的信息視圖。
1.數(shù)據(jù)倉庫的關(guān)鍵特征
按照 W.H.Inmon這位數(shù)據(jù)倉庫權(quán)威的說法:“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,它支持管理部門的決策過程”。這個簡短而又全面的定義指出了表明數(shù)據(jù)倉庫主要特征的4個關(guān)鍵詞:面向主題的、集成的、時變的、非易失的,將數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)(如關(guān)系數(shù)據(jù)庫系統(tǒng)、事務(wù)處理系統(tǒng)和文件系統(tǒng))區(qū)別開來。讓我們進一步看看這些關(guān)鍵特征。
l???????? 面向主題的(Subject-Oriented):數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫排除對決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
l???????? 集成的(Integrated):通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和連機事務(wù)處理記錄集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)和屬性度量等指標(biāo)的一致性。
l???????? 時變的(Time-Variant):數(shù)據(jù)存儲從歷史的角度(例如過去5~10年)提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時間元素。
l???????? 非易失的(Nonvolatile):數(shù)據(jù)倉庫的數(shù)據(jù)是有歷史保存意義的,數(shù)據(jù)倉庫的數(shù)據(jù)也只使用添加的方式(不用時間的數(shù)據(jù)用時間戳來區(qū)分),進入了數(shù)據(jù)倉庫的數(shù)據(jù)一般情況下是不需要更新的,這樣就保證了數(shù)據(jù)的穩(wěn)定性。通常,它只需要三種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入、數(shù)據(jù)的添加和數(shù)據(jù)查詢訪問。
概言之,數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲,它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實現(xiàn),并存放企業(yè)戰(zhàn)略決策所需的信息。數(shù)據(jù)倉庫通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化的和專門的查詢、分析報告和決策。
2.星形模式
邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán), 因為它能直接反映出決策者管理者的需求,同時對系統(tǒng)的物理實施有著重要的指導(dǎo)作用。目前較常用的兩種建模方法是所謂的第三范式(3NF,即 Third Normal Form)和星形模式(Star-Schema),3NF是數(shù)據(jù)庫設(shè)計的基礎(chǔ)理論,這里不再展開。
星形模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)我們就可以按照不同的維(事實表主鍵的部分或全部)來對這些事實數(shù)據(jù)進行求和(summary)、求平均(average)、計數(shù)(count)、百分比(percent)的聚集計算,甚至可以做20~80分析。這樣就可以從不同的角度數(shù)字來分析業(yè)務(wù)主題的情況,下面給出一個直觀的例子,如圖16-6所示。
圖16-6所示的是一個典型的銀行貸款分析的模型設(shè)計,其中加邊框的為主關(guān)鍵字(PK, Primary Key),貸款分析表是一個事實表,貸款授信金額/貸款余額是從各角度觀察的數(shù)據(jù)(事實),而觀察的角度是由區(qū)域、銀行、時間、質(zhì)量這4個方面組合的。這些分析角度的有機組合,可以對授信金額和貸款余額進行4×8×4×8種組合的數(shù)據(jù)統(tǒng)計分析,以此實現(xiàn)對貸款情況的多角度(維)多層次(數(shù)據(jù)不同的匯總程度)分析。貸款分析人員既可以宏觀地看到貸款業(yè)務(wù)的整體情況,又可以微觀地觀察到具體一家銀行一天一類貸款的細節(jié)信息。在進行多維分析的時候,維度選擇越多數(shù)據(jù)越細(劃分得更細了),維度選擇越少數(shù)據(jù)匯總越宏觀。
中間一個大表形成主表,周圍一組小表與主表相關(guān)聯(lián)的結(jié)構(gòu),其形態(tài)上呈星星和雪花的形狀,星形模型是數(shù)據(jù)倉庫的數(shù)據(jù)模型與其他數(shù)據(jù)庫應(yīng)用相區(qū)分的一個重要特征,如圖16-7所示。
?
??????????????? 圖16-6? 貸款分析星形模型?????????????????????圖16-7? 數(shù)據(jù)倉庫典型的星形和雪花型模型形狀
3.粒度
粒度是數(shù)據(jù)倉庫的重要概念。粒度可以分為兩種形式,第一種粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的匯總程度高低的一個度量,它既影響數(shù)據(jù)倉庫中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問信息的種類。在數(shù)據(jù)倉庫中,多維粒度是必不可少的。由于數(shù)據(jù)倉庫的主要作用是多維分析,因而絕大多數(shù)查詢都基于一定程度的匯總數(shù)據(jù)之上的,只有極少數(shù)查詢涉及細節(jié)。
還有一種粒度形式,即樣本數(shù)據(jù)庫。它根據(jù)給定的采樣率從細節(jié)數(shù)據(jù)庫中抽取出一個子集。這樣樣本數(shù)據(jù)庫中的粒度就不是根據(jù)匯總程度的不同來劃分的,而是由采樣率的高低來劃分。采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的數(shù)據(jù)匯總程度。
4.分割
分割是數(shù)據(jù)倉庫中的數(shù)據(jù)存儲的另外一個重要概念,它的目的在于提高效率。它是將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨立處理,以實現(xiàn)查詢操作的并行。有許多數(shù)據(jù)分割的標(biāo)準(zhǔn)可供參考,如時間、地域、業(yè)務(wù)領(lǐng)域等,也可以是其組合。一般而言,分割標(biāo)準(zhǔn)總應(yīng)包括一些能讓它十分自然而且分割均勻的項目,如時間項。
16.2.4? 數(shù)據(jù)集市
簡單地把數(shù)據(jù)集市(DM,Data Market)理解成數(shù)據(jù)倉庫的一部分是不對的,因為兩者雖然在數(shù)據(jù)上有非常密切的聯(lián)系,而定位上卻是不同的。數(shù)據(jù)倉庫所對應(yīng)的是整個企業(yè)的層面的整體信息視圖,體現(xiàn)決策信息在企業(yè)的共性需求。而對于企業(yè)內(nèi)同一個業(yè)務(wù)概念,由于業(yè)務(wù)觀點的不同導(dǎo)致大家對數(shù)據(jù)的理解和運用有不同的視角,缺乏針對性的單一模型并不能都滿足這種不同觀點的數(shù)據(jù)需求。例如客戶是現(xiàn)在企業(yè)非常重要的一個信息主題,從產(chǎn)品經(jīng)理的角度,可能關(guān)心的是客戶的消費喜好和消費行為,而從財務(wù)經(jīng)理的角度,更多地可能是關(guān)心客戶的成本和帶來的收益,這些不同的數(shù)據(jù)的使用觀點需要不同的數(shù)據(jù)模型來滿足。一般而言,數(shù)據(jù)倉庫可以理解為為企業(yè)決策信息平臺提供總數(shù)據(jù)支持的應(yīng)用需求,數(shù)據(jù)集市可以理解為為部門范圍級別的決策支持應(yīng)用而設(shè)計的,其數(shù)據(jù)模型設(shè)計和數(shù)據(jù)組織上更多地服務(wù)于一個部門的信息需求。
結(jié)合數(shù)據(jù)集市的數(shù)據(jù)來源,數(shù)據(jù)集市分為兩種,即獨立的數(shù)據(jù)集市(Independent Data Mart)和從屬的數(shù)據(jù)集市(Dependent Data Mart),如圖16-8所示。
圖16-8? 數(shù)據(jù)集市類型
從屬數(shù)據(jù)集市的數(shù)據(jù)直接來自于中央數(shù)據(jù)倉庫,這樣有利于保持?jǐn)?shù)據(jù)的一致性,因為來自同一數(shù)據(jù)源并且已經(jīng)經(jīng)過一致性處理和檢驗。從屬數(shù)據(jù)集市的作用在于,為一些部門建立數(shù)據(jù)集市,將需要的數(shù)據(jù)復(fù)制、加工到其中,這樣不僅可以提高此部門的訪問速度,同時也為能滿足該部門的一些特殊的分析需求。
獨立數(shù)據(jù)集市的數(shù)據(jù)直接來自于業(yè)務(wù)系統(tǒng),由于為各個部門都建立了各自的數(shù)據(jù)集市,而當(dāng)需要從整體上建立一個DW時,不同數(shù)據(jù)集市中的數(shù)據(jù)表達由于各部門的不同特殊需要而有所不同,將這種不一致的數(shù)據(jù)整合到一個中心DW時,可能會遇到一些困難,比如重新設(shè)計、各部門協(xié)調(diào)等。其優(yōu)點是建立迅速、價格相對低廉。因此建立獨立數(shù)據(jù)集市往往是由于投資方面的考慮或工期的緊迫,或解決某部門的迫切需要。然而需要注意的是,在設(shè)計其他部門的數(shù)據(jù)集市或中心DW時,要充分考慮現(xiàn)有數(shù)據(jù)集市的設(shè)計,以避免由于設(shè)計的不一致性而造成后期整合的困難及昂貴的費用。
表16-1是從屬數(shù)據(jù)集市與獨立數(shù)據(jù)對比。
表16-1? 從屬數(shù)據(jù)集市與獨立數(shù)據(jù)集市對比表
| 對??? 比 | 優(yōu)??? 點 | 缺??? 點 |
| 從屬數(shù)據(jù)集市 | 保證數(shù)據(jù)一致性 架構(gòu)比較理想,可擴展能力強 | 依賴與中心數(shù)據(jù)倉庫的實施 實施周期長 實施成本高 |
| 獨立數(shù)據(jù)集市 | 實施周期短 實施成本低 | 沒有消除信息分割 可擴展能力弱 后期整合困難 |
16.2.5? 操作型數(shù)據(jù)存儲區(qū)
操作型數(shù)據(jù)存儲區(qū)(ODS,Operational Data Store),是為了彌補業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間的數(shù)據(jù)同步差距而提出的,要解決的問題:“對一個特定的業(yè)務(wù)流程來說,怎么才能提供最新的、跨功能部門之間的信息”,例如對客戶服務(wù)人員,他需要銷售、庫存、市場和研發(fā)等各部門的最新數(shù)據(jù),而這些數(shù)據(jù)原來是分散在不同部門的不同應(yīng)用系統(tǒng)的;如果通過數(shù)據(jù)倉庫來實現(xiàn)數(shù)據(jù)集成,則實時性難以保證,或者建設(shè)成本很高。
ODS是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù),同數(shù)據(jù)倉庫類似,ODS也是面向主題的、集成的,但是其最大特點是數(shù)據(jù)是可更新的,甚至由業(yè)務(wù)系統(tǒng)通過觸發(fā)器直接更新。因此,ODS是業(yè)務(wù)系統(tǒng)和DW之間更偏向業(yè)務(wù)系統(tǒng)的數(shù)據(jù)存儲區(qū)域。
一般在帶有ODS的系統(tǒng)體系結(jié)構(gòu)中,ODS都設(shè)計為如下幾個作用。
1.在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層
一般的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)都具有非常復(fù)雜的數(shù)據(jù)來源,這些數(shù)據(jù)存放在不同的地理位置、不同的數(shù)據(jù)庫、不同的應(yīng)用之中。從這些業(yè)務(wù)系統(tǒng)對數(shù)據(jù)進行抽取并不是一件容易的事。因此,ODS用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致。因此在抽取過程中極大地降低了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性,而主要關(guān)注數(shù)據(jù)抽取的接口、數(shù)據(jù)量大小、抽取方式等方面的問題。
2.轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細節(jié)查詢的功能
在數(shù)據(jù)倉庫建立之前,大量的報表、分析是由業(yè)務(wù)系統(tǒng)直接支持的,在一些比較復(fù)雜的報表生成過程中,對業(yè)務(wù)系統(tǒng)的運行產(chǎn)生相當(dāng)大的壓力。ODS的數(shù)據(jù)從粒度、組織方式等各個方面都保持了與業(yè)務(wù)系統(tǒng)的一致,那么原來由業(yè)務(wù)系統(tǒng)產(chǎn)生的報表、細節(jié)數(shù)據(jù)的查詢自然能夠從ODS中進行,從而降低業(yè)務(wù)系統(tǒng)的查詢壓力。
3.完成數(shù)據(jù)倉庫中不能完成的一些功能
一般來說,在帶有ODS數(shù)據(jù)倉庫體系結(jié)構(gòu)中,DW層所存儲的數(shù)據(jù)都是匯總過的數(shù)據(jù),并不存儲每筆交易產(chǎn)生的細節(jié)數(shù)據(jù)。但是在某些特殊的應(yīng)用中,可能需要對交易細節(jié)數(shù)據(jù)進行查詢,這時就需要把細節(jié)數(shù)據(jù)查詢的功能轉(zhuǎn)移到ODS來完成,而且ODS的數(shù)據(jù)模型按照面向主題的方式進行存儲,可以方便地支持多維分析等查詢功能。
在一個沒有ODS層的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)體系結(jié)構(gòu)中,數(shù)據(jù)倉庫中存儲的數(shù)據(jù)粒度是根據(jù)需要而確定的,但一般來說,最為細節(jié)的業(yè)務(wù)數(shù)據(jù)也是需要保留的,實際上數(shù)據(jù)的內(nèi)容也就相當(dāng)于ODS。但與ODS所不同的是,這時的細節(jié)數(shù)據(jù)不是“當(dāng)前、不斷變化的”數(shù)據(jù),而是“歷史的,不再變化的”數(shù)據(jù)。ODS可以和DW形成互補的整體,構(gòu)成完整的戰(zhàn)術(shù)決策支持系統(tǒng)架構(gòu),然而需要注意的是,數(shù)據(jù)抽取,要么抽取到ODS中,要么抽取到DW中,不能同時都抽取;而DW會定時到ODS進行數(shù)據(jù)抽取,這就是一個關(guān)鍵的ETL設(shè)計準(zhǔn)則:即應(yīng)用“Single Source Population”(單源傳播),以保證數(shù)據(jù)在ETL過程中的一致性。
利用ODS+DW實現(xiàn)戰(zhàn)術(shù)決策支持有其非常直觀的優(yōu)勢:利用ODS實現(xiàn)實時或者準(zhǔn)實時的數(shù)據(jù)抽取,而且ODS的數(shù)據(jù)量不大,可以比較高效地進行數(shù)據(jù)的修改和更新,并且可以提高查詢的效率。而利用數(shù)據(jù)倉庫的海量存儲,可以實現(xiàn)歷史數(shù)據(jù)的查詢,實現(xiàn)戰(zhàn)略決策支持。
但是,這種方式也有很明顯的劣勢:由于ODS和DW的結(jié)構(gòu)和模型是不同的,這需要進行不同的系統(tǒng)和數(shù)據(jù)模型設(shè)計,也需要不同的系統(tǒng)維護過程,這就相應(yīng)地增加了系統(tǒng)的使用成本。
16.2.6? 元數(shù)據(jù)
往往一個數(shù)據(jù)倉庫需要包容和整合成千上萬的信息內(nèi)容,內(nèi)容的多樣性使數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)顯得異常龐大和復(fù)雜。因此,要簡單地用一種不需要言傳的方式來描述一個數(shù)據(jù)倉庫的內(nèi)容和結(jié)構(gòu)是不可能的事情,因而在從開發(fā)到運行維護的整個數(shù)據(jù)倉庫生命周期中,如何描述數(shù)據(jù)倉庫里面有的東西,并成了一件非常重要的事情。
元數(shù)據(jù)(Meta-Data)通常定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是描述和管理數(shù)據(jù)倉庫自身內(nèi)容對象、用來表示數(shù)據(jù)項的意義及其在系統(tǒng)各組成部件之間的關(guān)系的數(shù)據(jù)。實際上,數(shù)據(jù)倉庫所提供的“統(tǒng)一的企業(yè)級的信息視圖”能力,主要就是靠元數(shù)據(jù)來體現(xiàn)。但是從廣義上來講,用元數(shù)據(jù)來描述數(shù)據(jù)倉庫對象的任何東西——無論是一個表、一個列、一個查詢、一個商業(yè)規(guī)則,還是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。它在數(shù)據(jù)源的抽取、數(shù)據(jù)加工、訪問與使用等過程中都會存在。實現(xiàn)元數(shù)據(jù)管理的主要目標(biāo)就是使企業(yè)內(nèi)部元數(shù)據(jù)的定義標(biāo)準(zhǔn)化。數(shù)據(jù)倉庫的維護工具可以根據(jù)元數(shù)據(jù)完成數(shù)據(jù)的抽取、清洗和轉(zhuǎn)換,并做適度的匯總。數(shù)據(jù)倉庫的元數(shù)據(jù)包括如下內(nèi)容。
l???????? 數(shù)據(jù)資源:包括各個數(shù)據(jù)源的模型,描述源數(shù)據(jù)表字段屬性及業(yè)務(wù)含義,源數(shù)據(jù)到數(shù)據(jù)倉庫的映射關(guān)系。
l???????? 數(shù)據(jù)組織:數(shù)據(jù)倉庫、數(shù)據(jù)集市表的結(jié)構(gòu)、屬性及業(yè)務(wù)含義、多維結(jié)構(gòu)等。
l???????? 數(shù)據(jù)應(yīng)用:查詢與報表輸出格式描述、OLAP、數(shù)據(jù)挖掘等的數(shù)據(jù)模型的信息展現(xiàn)、商業(yè)術(shù)語。
l???????? 數(shù)據(jù)管理:這里包括數(shù)據(jù)倉庫過程,以及數(shù)據(jù)倉庫操作結(jié)果的模型,包括描述數(shù)據(jù)抽取和清洗規(guī)則、數(shù)據(jù)加載控制、臨時表結(jié)構(gòu)、用途和使用情況、數(shù)據(jù)匯總控制。
元數(shù)據(jù)貫穿整個數(shù)據(jù)倉庫項目,所有數(shù)據(jù)處理環(huán)節(jié)必須最大化地參照元數(shù)據(jù),這樣才能保證數(shù)據(jù)倉庫項目不會因為不斷增長的數(shù)據(jù)多樣性而失去秩序,特別是在現(xiàn)行應(yīng)用的異構(gòu)性與分布性越來越普遍的情況下,統(tǒng)一的元數(shù)據(jù)就愈發(fā)重要了。“信息孤島”曾經(jīng)是很多企業(yè)對其應(yīng)用現(xiàn)狀的一種抱怨和概括,而合理的元數(shù)據(jù)則會有效地描繪出信息的關(guān)聯(lián)性,從而大大降低數(shù)據(jù)倉庫后期的維護和運行成本。
按照元數(shù)據(jù)的使用情況和面向?qū)ο蟮牟煌?#xff0c;可以將元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)。
1.業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)用業(yè)務(wù)名稱、定義、描述和別名來表示數(shù)據(jù)倉庫和業(yè)務(wù)系統(tǒng)中的各種屬性,直接供最終用戶使用。業(yè)務(wù)元數(shù)據(jù)使最終用戶能夠更好地理解、使用數(shù)據(jù)倉庫,成為最終用戶在數(shù)據(jù)倉庫中的業(yè)務(wù)信息地圖。
業(yè)務(wù)元數(shù)據(jù)在系統(tǒng)的數(shù)據(jù)倉庫中的體現(xiàn)是全方位的,例如,最終用戶通過瀏覽元數(shù)據(jù)可以清晰地了解當(dāng)前指標(biāo)代表什么業(yè)務(wù)、如何計算得出的、以什么為單位等相關(guān)描述信息。
2.技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)描述了源系統(tǒng)、數(shù)據(jù)轉(zhuǎn)換、抽取過程、工作流、加載策略,以及目標(biāo)數(shù)據(jù)庫的定義等。技術(shù)元數(shù)據(jù)可供信息系統(tǒng)人員和一部分最終用戶使用,用來進行影響分析、變化管理、數(shù)據(jù)庫優(yōu)化、任務(wù)調(diào)度和安全管理等。
OLTP業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫分析系統(tǒng)之間存在復(fù)雜、多方面的區(qū)別,因此,數(shù)據(jù)在業(yè)務(wù)系統(tǒng)和分析系統(tǒng)之間的處理、加載也是復(fù)雜和涉及多方面的。技術(shù)元數(shù)據(jù)對數(shù)據(jù)在兩個系統(tǒng)間處理、加載的規(guī)則、過程、相關(guān)策略進行了描述。
3.操作元數(shù)據(jù)
操作元數(shù)據(jù)描述了目標(biāo)表中的信息,如粒度、創(chuàng)建目標(biāo)表和索引的信息、刷新時間、記錄數(shù)、按時執(zhí)行任務(wù)的設(shè)置,以及有權(quán)訪問數(shù)據(jù)的用戶。操作元數(shù)據(jù)用于數(shù)據(jù)倉庫的維護和分布。
雖然元數(shù)據(jù)依據(jù)具體應(yīng)用特點分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù),但是,在實際應(yīng)用中以上三類元數(shù)據(jù)是相互參照和關(guān)聯(lián)的。只有業(yè)務(wù)、技術(shù)、操作之間的協(xié)調(diào)和互補才能充分發(fā)揮數(shù)據(jù)倉庫的潛能,提高數(shù)據(jù)倉庫的利用效率。
4.元數(shù)據(jù)標(biāo)準(zhǔn)CWM
OMG于2001年頒布元數(shù)據(jù)標(biāo)準(zhǔn)CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定義一個描述數(shù)據(jù)源、數(shù)據(jù)目的、轉(zhuǎn)換、分析的元數(shù)據(jù)框架,以及定義建立和管理數(shù)據(jù)倉庫的過程和操作,提供使用信息的繼承。
目前宣布支持CWM的廠商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。
CWM基于3個工業(yè)標(biāo)準(zhǔn)。
l???????? UML - Unified Modeling Language,OMG建模標(biāo)準(zhǔn)。
l???????? MOF - Meta Object Facility,OMG建立元模型和模型庫的標(biāo)準(zhǔn),提供在異構(gòu)環(huán)境下的數(shù)據(jù)交換的接口。
l???????? XMI - XML Metadata Interchange,OMG元數(shù)據(jù)交換標(biāo)準(zhǔn)。
UML在CWM中得到充分的應(yīng)用,擔(dān)任3個不同的角色。
l???????? UML用來作為與MOF對應(yīng)的meta-metamodel。UML相當(dāng)于MOF Model,UML Notation和OCL(Object Constraint Language),被用來作為建模語言、圖形符號、約束語言,定義和描述CWM。
l???????? UML用來創(chuàng)建元模型。UML,特別是Object Model 包描述的子集,用來從其他元模型繼承等級和關(guān)聯(lián)以建立CWM。
l???????? UML作為面向?qū)ο笤P?#xff08;Object-Oriented Metamodel)。UML被用來描述面向?qū)ο蟮臄?shù)據(jù)。 CWM元模型包括大量的子元模型(Sub-Metamodel),這些子元模型描述了建立數(shù)據(jù)倉庫和商業(yè)智能的各個主要部分的通用數(shù)據(jù)倉庫元數(shù)據(jù)。
CWM元模型設(shè)計的目的是最大化地重用對象模型Object Model(UML的子集),盡可能地共享通用的模型構(gòu)建。最典型的是,CWM重用/依賴對象模型來描述面向?qū)ο蟮臄?shù)據(jù)資源;另外,其他類型的數(shù)據(jù)資源的主要Metamodel元素,在對象模型中都有相同的模型元素與之相對應(yīng)。
16.2.7? 前端應(yīng)用概述
數(shù)據(jù)倉庫的前端應(yīng)用是建立數(shù)據(jù)倉庫的目的,沒有前端應(yīng)用,數(shù)據(jù)倉庫就失去了意義。另一方面,由于最終用戶的要求多種多樣,不可能用同一個界面滿足所有用戶的信息查詢要求,必須根據(jù)用戶的特點提供不同的界面。最終用戶對數(shù)據(jù)倉庫的訪問方式包括:即席查詢、報表、連機分析處理(OLAP)、數(shù)據(jù)挖掘(DM,Data Mining),以及領(lǐng)導(dǎo)信息系統(tǒng)(EIS)等。用戶可以通過瀏覽器或其他前端工具(如Excel,Hyperion、BO、Cogno、SAS、 SPSS等廠商提供的前端分析工具)遠程或本地訪問數(shù)據(jù)倉庫的數(shù)據(jù)。
1.信息用戶類型
數(shù)據(jù)倉庫系統(tǒng)的服務(wù)對象是企業(yè)或組織機構(gòu)的決策人員、數(shù)據(jù)分析專家、中下級別經(jīng)理和一般業(yè)務(wù)人員。不同層次的用戶對數(shù)據(jù)倉庫的服務(wù)需求有著明顯的差異。
l???????? 高層決策者需要了解業(yè)務(wù)的總體情況和總的發(fā)展態(tài)勢,他們可能使用系統(tǒng)提供的分析工具自己發(fā)現(xiàn)問題,但更主要的是利用分析結(jié)果進行決策,高層決策者需要通曉業(yè)務(wù)的具體狀態(tài)和發(fā)展趨勢,包括業(yè)務(wù)的狀態(tài)和構(gòu)成(機構(gòu)構(gòu)成、時間構(gòu)成、產(chǎn)品構(gòu)成、客戶構(gòu)成等),以及各個指標(biāo)的發(fā)展趨勢和預(yù)測。
l???????? 數(shù)據(jù)分析專家需要更加深入地從數(shù)據(jù)倉庫中發(fā)現(xiàn)問題和市場機會及風(fēng)險,需要及時把發(fā)現(xiàn)的結(jié)果報告給高層決策者。
l?????????中下級經(jīng)理和業(yè)務(wù)人員通常僅僅關(guān)心與各自工作相關(guān)的內(nèi)容,他們或許對報表和固定的數(shù)據(jù)查詢更為習(xí)慣。
如圖16-9所示描述了商業(yè)智能系統(tǒng)中各種用戶角色對系統(tǒng)數(shù)據(jù)深度、廣度、分析復(fù)雜性、對目標(biāo)軟件易用性、對軟件的控制能力和客戶化程度的要求,以及對業(yè)務(wù)整體和局部信息需求程度的要求。
分析用戶類型是系統(tǒng)功能設(shè)定、分布的依據(jù)。圖 16-9中以色譜形式表示對信息服務(wù)深度的需求,從最淺顯的數(shù)據(jù)查詢到深度數(shù)據(jù)挖掘。8條坐標(biāo)線表示用戶對不同系統(tǒng)特性的需求。這些系統(tǒng)性能是:數(shù)據(jù)深度和廣度、分析復(fù)雜性、軟件易用性、靈活性和客戶化程度、對業(yè)務(wù)全局性和局部性信息的需求(戰(zhàn)略、戰(zhàn)術(shù)需求)。
商業(yè)智能的用戶類型、角色、需求、分析方法及所需的前端工具對照如表16-2所示。
表16-2? 商業(yè)智能用戶對照表
| 用 戶 類 型 | 角??? 色 | 需??? 求 | 分 析 方 法 | 前 端 工 具 |
| 中下級別經(jīng)理和業(yè)務(wù)人員 | 固定報表讀者 | 需要閱讀數(shù)據(jù)倉庫定時或按條件產(chǎn)生的固定報表 | 固定查詢、產(chǎn)生報表 | 固定報表工具 |
| 信息瀏覽者 | 根據(jù)不同的業(yè)務(wù)需求,通過建立簡單的查詢,進行分析,產(chǎn)生動態(tài)報表 | 自查詢、動態(tài)報表 | 即席查詢及報表工具 | |
| 高層決策者 | EIS使用者 | 根據(jù)不同的業(yè)務(wù)需求,通過EIS方式進行分析 | 根據(jù)需要進行趨勢分析、對比分析、排名分析、意外分析 | 利用各種軟件開發(fā)的EIS、OLAP分析工具 |
| 數(shù)據(jù)分析專家 | 數(shù)據(jù)分析用戶 | 根據(jù)不同的業(yè)務(wù)要求,建立自己的數(shù)據(jù)模型進行 隨機查詢 通過多維分析,進行各種高級查詢和報表 | 多維分析、趨勢分析、對比分析、排名分析、意外分析、原因影響分析、假設(shè)分析(What if) | 隨機查詢及報表工具、OLAP分析工具 |
(續(xù)表)
| 用 戶 類 型 | 角??? 色 | 需??? 求 | 分 析 方 法 | 前 端 工 具 |
| ? | 數(shù)據(jù)挖掘用戶 | 根據(jù)現(xiàn)有的數(shù)據(jù)情況,動態(tài)構(gòu)建或修改模型,進行預(yù)測分析、數(shù)據(jù)挖掘等深層次操作 | 統(tǒng)計分析(預(yù)測、假設(shè)檢驗等) 數(shù)據(jù)挖掘(估計、預(yù)測、分類、聚類分析等) | OLAP分析工具、數(shù)據(jù)挖掘工具 |
2.即席查詢和報表
即席查詢(Adhoc Query)和報表是商業(yè)智能系統(tǒng),提供給業(yè)務(wù)人員最基本的信息訪問能力,以滿足他們?nèi)粘蟊砗碗S時獲取業(yè)務(wù)信息的需要。不同的業(yè)務(wù)人員,如銷售、市場、財務(wù)等人員有著自己獨特的分析要求,且這種要求需根據(jù)業(yè)務(wù)的需要不斷變化。在傳統(tǒng)的技術(shù)條件下,由于種種理由,業(yè)務(wù)人員實質(zhì)上不能直接接觸到存儲在計算機內(nèi)的數(shù)據(jù),如果業(yè)務(wù)人員需要對一段時間的業(yè)務(wù)匯總數(shù)據(jù),往往只能提出要求,由IT人員編寫相應(yīng)的程序把數(shù)據(jù)庫中的數(shù)據(jù)讀出來生成報表,再通過批處理打印的方法將結(jié)果交給業(yè)務(wù)人員,這種方法已經(jīng)逐漸不能滿足業(yè)務(wù)人員對動態(tài)、及時及個性化信息的要求。同時,這種對IT人員過多的依賴會消耗太多的IT資源,增加了管理和運作的成本。因此必須在IT與業(yè)務(wù)用戶之間正確地劃分權(quán)限,既能方便用戶自助查詢,又能保證IT的統(tǒng)一管理的即席查詢和報表功能是商業(yè)智能系統(tǒng)必須具備的功能,如圖16-10所示。
圖16-10? 著名的即席查詢和報表工具Brio Query 的查詢請求界面
用戶界面的友好性一直以來都是商業(yè)智能的前端工具的一個著重點,用戶可通過簡單的鼠標(biāo)單擊、拖拉等操作就可以完成復(fù)雜的查詢功能,可以在一個文檔中包含來自多個數(shù)據(jù)源的數(shù)據(jù),可以完成各種統(tǒng)計、排序、分組、計算工作,可以通過限制字段的值對結(jié)果進行過濾,可以通過高亮度顯示突出特殊的結(jié)果集。而在傳統(tǒng)的方式下,構(gòu)造復(fù)雜的SQL查詢語句、各種復(fù)雜的統(tǒng)計和處理、結(jié)果的輸出等都需要編寫大量程序代碼來實現(xiàn),而報表用戶任何輕微的改動都會給IT人員帶來的繁復(fù)的編程工作。
可以說引入這些為最終用戶設(shè)計的數(shù)據(jù)查詢和報表工具,一方面讓最終用戶真正擁有了自由查詢自己需要信息的能力,另一方面,把信息的查詢直接還給最終用戶,IT人員就可以把更多的精力放在為滿足大的業(yè)務(wù)需求的數(shù)據(jù)后臺整合工作上,對于IT人員和業(yè)務(wù)人員來說是雙重的解放。
即席查詢和報表工具是集成查詢和報表的解決方案,具有易于使用和二次開發(fā)的特點。
3.OLAP分析
OLAP分析,又稱多維分析,使分析人員能夠從多個角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP也可以簡單定義成使用戶能夠以多維視圖分析數(shù)據(jù)的工具。
管理人員往往希望從不同的角度來審視業(yè)務(wù)情況,比如從時間、地域、產(chǎn)品、客戶等來看收入、利潤、支出等業(yè)務(wù)統(tǒng)計數(shù)字。每一個分析的角度可以叫做一個維,因此,我們把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張報表。在線多維分析工具的主要功能,是根據(jù)用戶常用的多種分析角度,事先計算好一些輔助結(jié)構(gòu),以便在查詢時能盡快訪問到所要的匯總數(shù)字,并快速地從一維轉(zhuǎn)變到另一維,將不同角度的信息以數(shù)字、直方圖、餅圖、曲線等方式展現(xiàn)在用戶面前,如圖16-11所示。
圖16-11? 信貸分析模型
如圖16-12所示直觀地表示了貸款分析模型,所能實現(xiàn)的所有的分析角度(維度)和層次(粒度)。
維度
| ?
| 貸 款 銀 行 | 區(qū)??? 域 | 貸 款 質(zhì) 量 | ||
| 年 | 商業(yè)銀行總行 | 省 | 正常/不良 | ||
| 季度 | 省級分行 | 市 | 五級分類 | ||
| 月 | 市分行 | ? | ? |
度量指標(biāo)(事實):授信金額、貸款余額
圖16-12? 貸款分析的角度和層次
很明顯,這個簡單的模型已經(jīng)可以實現(xiàn)8×8×4×4 = 1024 種不同角度不同層次對授信金額和貸款余額的統(tǒng)計分析了。
4.切片和切塊(Slice and Dice)
在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,可得到所需要的數(shù)據(jù)。如在“貸款銀行、貸款質(zhì)量、時間”三維立方體中進行切塊和切片,可得到各貸款銀行、各種貸款的統(tǒng)計情況。每次都是沿其中一維進行分割稱為分片,每次沿多維進行的分片稱為分塊,如圖16-13、圖16-14所示。
圖16-13? 切片一:2004年4月份所有貸款情況
圖16-14? 切片二:所有不良貸款情況
5.鉆取(Drill)
鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作, 鉆取的深度與維所劃分的層次相對應(yīng),如圖16-15所示。
圖16-15? 鉆取示意圖
6.旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)
通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù),如圖16-16所示。
圖16-16? 旋轉(zhuǎn)示意圖
7.領(lǐng)導(dǎo)信息系統(tǒng)(EIS,Executive Information System)
領(lǐng)導(dǎo)信息系統(tǒng)(EIS)是針對管理人員的需要,整合上述各種功能控制的前端應(yīng)用。通過EIS,將管理人員所需的決策信息按需集成到統(tǒng)一的界面中,幫助他們能夠快速、直接地訪問信息。與其他信息查詢方式相比,EIS更強調(diào)與用戶的交互能力,除了以多種形式展示數(shù)據(jù)內(nèi)容外,EIS還以下拉列表、按鈕、選項、圖標(biāo)等多種屏幕控件響應(yīng)用戶的操作,并能通過對界面的美工增強對用戶的親和力,如圖16-17所示。
圖16-17? 信貸分析的EIS示例
16.2.8? 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是采用數(shù)學(xué)、統(tǒng)計、人工智能和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的科學(xué)方法,從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,為商業(yè)智能系統(tǒng)服務(wù)的各業(yè)務(wù)領(lǐng)域提供預(yù)測性決策支持的方法、工具和過程。
數(shù)據(jù)挖掘前身是知識發(fā)現(xiàn)(KDD),屬于機器學(xué)習(xí)的范疇,所用技術(shù)和工具主要有統(tǒng)計分析(或數(shù)據(jù)分析)和知識發(fā)現(xiàn)。知識發(fā)現(xiàn)與數(shù)據(jù)挖掘是人工智能、機器學(xué)習(xí)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。機器學(xué)習(xí)(Machine? Learning)是用計算機模擬人類學(xué)習(xí)的一門科學(xué),由于在專家系統(tǒng)開發(fā)中存在知識獲取的瓶頸現(xiàn)象,所以采用機器學(xué)習(xí)來完成知識的自動獲取。
數(shù)據(jù)挖掘是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(Patterns)。1996年,Fayyad、Piatetsky-Shapiror和Smyth將KDD過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的;KDD是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的,并能被人理解的模式的處理過程,這種處理過程是一種高級的處理過程。數(shù)據(jù)挖掘則是按照既定的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,并進一步將其設(shè)計為先進的模型和有效的操作。
在日常的數(shù)據(jù)庫操作中,經(jīng)常使用的是從數(shù)據(jù)庫中抽取數(shù)據(jù)以生成一定格式的報表。KDD與數(shù)據(jù)庫報表工具的區(qū)別是:數(shù)據(jù)庫報表制作工具是將數(shù)據(jù)庫中的某些數(shù)據(jù)抽取出來,經(jīng)過一些數(shù)學(xué)運算,最終以特定的格式呈現(xiàn)給用戶;而KDD則是對數(shù)據(jù)背后隱藏的特征和趨勢進行分析,最終給出關(guān)于數(shù)據(jù)的總體特征和發(fā)展趨勢。報表工具能制作出形如“上學(xué)期考試未通過及成績優(yōu)秀的學(xué)生的有關(guān)情況”的表格;但它不能回答“考試未通過及成績優(yōu)秀的學(xué)生在某些方面有些什么不同的特征”的問題,而KDD就可以回答。
具體來說,數(shù)據(jù)挖掘針對商業(yè)智能系統(tǒng)的大量的數(shù)據(jù),運用記憶推理、聚類分析、關(guān)聯(lián)分析、決策樹、神經(jīng)網(wǎng)絡(luò)、基因算法等技術(shù),對商業(yè)智能系統(tǒng)數(shù)據(jù)進行描述,以發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,并通過這些模式建立面向主題的預(yù)測模型,再用這些模型來為商業(yè)智能系統(tǒng)運營的各個領(lǐng)域提供決策支持。
1.數(shù)據(jù)挖掘和知識發(fā)現(xiàn)系統(tǒng)的一般結(jié)構(gòu)和過程
數(shù)據(jù)挖掘和知識發(fā)現(xiàn)系統(tǒng)用于發(fā)現(xiàn)預(yù)先不具有的知識(即那些算法中沒隱含的知識,或者在其應(yīng)用知識領(lǐng)域中沒顯式表示的知識)。知識是一種描述規(guī)律的信息,表現(xiàn)為數(shù)據(jù)元素間的關(guān)系或模式,這些數(shù)據(jù)與特定的領(lǐng)域和任務(wù)相關(guān),并且是令人感興趣的和有用的。系統(tǒng)的邏輯結(jié)構(gòu)圖如圖16-18所示。
?
圖16-18? 數(shù)據(jù)挖掘系統(tǒng)邏輯結(jié)構(gòu)圖
l??????? 1)知識發(fā)現(xiàn)系統(tǒng)管理器
主要功能是控制并管理知識發(fā)現(xiàn)的過程,分析員錄入知識庫中的信息用于驅(qū)動數(shù)據(jù)選擇過程、抽取算法選擇及使用過程和發(fā)現(xiàn)評價過程。
l??????? 2)知識庫和分析員錄入
知識庫包含源多方面必需的信息。分析員可以將元數(shù)據(jù)輸入數(shù)據(jù)倉庫中來描述數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu),輸入關(guān)鍵數(shù)據(jù)字段、規(guī)則、數(shù)據(jù)層次等。
l??????? 3)數(shù)據(jù)倉庫的數(shù)據(jù)訪問接口
知識發(fā)現(xiàn)系統(tǒng)利用數(shù)據(jù)庫的查詢機制從數(shù)據(jù)倉庫中提取數(shù)據(jù),可使用SQL查詢語言,結(jié)合知識庫中的數(shù)據(jù)倉庫元數(shù)據(jù)指導(dǎo)從數(shù)據(jù)倉庫中提取需要的數(shù)據(jù)。
l??????? 4)數(shù)據(jù)選擇
確定從數(shù)據(jù)倉庫需要抽取的數(shù)據(jù)及數(shù)據(jù)結(jié)構(gòu)。知識庫指導(dǎo)選取要抽取的數(shù)據(jù)及抽取方式。
l??????? 5)知識發(fā)現(xiàn)引擎
將知識庫中的抽取算法提供給數(shù)據(jù)抽取的數(shù)據(jù),目的是要抽取數(shù)據(jù)元素間的模式和關(guān)系。抽取算法如:數(shù)據(jù)依賴、分類規(guī)則、聚簇、概括數(shù)據(jù)、偏差檢查、歸納和模糊推理等。
l??????? 6)發(fā)現(xiàn)評價
分析員要尋找關(guān)注性的數(shù)據(jù)模式,數(shù)據(jù)倉庫潛在地具有宿主模式,選出那些關(guān)注性信息。
l??????? 7)發(fā)現(xiàn)描述
提供兩種功能,一種是以發(fā)現(xiàn)評價輔助分析員在知識庫中保存所發(fā)現(xiàn)的關(guān)注性結(jié)果以備將來引用和使用,另一種是保持發(fā)現(xiàn)與決策者的通信。
l??????? 8)KDD的一般過程
l???????? 學(xué)習(xí)某個應(yīng)用領(lǐng)域:包括應(yīng)用中的預(yù)先知識和目標(biāo)。
l???????? 建立一個目標(biāo)數(shù)據(jù)集:選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
l???????? 數(shù)據(jù)清理和預(yù)處理:去除噪聲或無關(guān)數(shù)據(jù)、考慮時間順序和數(shù)據(jù)變化等。
l???????? 數(shù)據(jù)換算和投影:找到數(shù)據(jù)的特征表示、用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。
l???????? 選定數(shù)據(jù)挖掘功能:決定數(shù)據(jù)挖掘的目的。
l???????? 選定某個數(shù)據(jù)挖掘算法:用KDD過程中的準(zhǔn)則,選擇某個特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等),用于搜索數(shù)據(jù)中的模式,該算法可以是近似的。
l???????? 數(shù)據(jù)挖掘:搜索或產(chǎn)生一個特定的感興趣的模式或數(shù)據(jù)集。
l???????? 解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換成某個有用的模式,以使用戶明白。
l???????? 發(fā)現(xiàn)知識:把這些知識結(jié)合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識,用預(yù)先、可信的知識檢查和解決知識中可能的矛盾。
2.數(shù)據(jù)挖掘的方法和技術(shù)
知識發(fā)現(xiàn)中的關(guān)鍵技術(shù)是進行模式和關(guān)系識別的算法。下面介紹幾種數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的方法和技術(shù),它們分別從不同的角度進行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
l??????? 1)決策樹方法
利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個節(jié)點,再根據(jù)字段的不同取值建立樹的分支;在每個分支子集中重復(fù)建樹的下層節(jié)點和分支的過程,即可建立決策樹。國際上最有影響和最早的決策樹方法是Quiulan研制的ID3方法,它對越大的數(shù)據(jù)庫效果越好。在ID3方法的基礎(chǔ)上,又演化為能處理連續(xù)屬性的 C4.5。有名的決策樹方法還有CART和Assistant。
決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉或多叉樹。二叉樹的內(nèi)部節(jié)點(非葉子節(jié)點)一般表示為一個邏輯判斷,如形式為(ai = vi )的邏輯判斷。其中ai 是屬性,vi是該屬性的某個屬性值;樹的邊是邏輯判斷的分支結(jié)果。多叉樹(ID3)的內(nèi)部節(jié)點是屬性,邊是該屬性的所有取值,有幾個屬性值,就有幾條邊。樹的葉子節(jié)點都是類別標(biāo)記。構(gòu)造決策樹的方法是采用自上而下的遞歸構(gòu)造。以多叉樹為例,它的構(gòu)造思路是,如果訓(xùn)練例子集合中的所有例子是同類的,則將其作為葉子節(jié)點,節(jié)點內(nèi)容即是該類別標(biāo)記。否則,根據(jù)某種策略選擇一個屬性,按照屬性的各個取值,把例子集合劃分為若干子集合,使得每個子集上的所有例子在該屬性上具有同樣的屬性值。然后再依次遞歸處理各個子集。這種思路實際上就是“分而治之”(Divide-and-Conquer)的道理。二叉樹同理,差別僅在于要選擇一個好的邏輯判斷。
l??????? 2)分類方法
分類在數(shù)據(jù)挖掘中是一項非常重要的任務(wù)。該算法將數(shù)據(jù)按含義劃分成組,可用此算法生成感興趣的側(cè)面,可用于自動發(fā)現(xiàn)類,如模式識別、側(cè)面生成、線性聚簇和概念聚簇等。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也稱做分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類和回歸都可用于預(yù)測。預(yù)測的目的是,從利用歷史數(shù)據(jù)記錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。與回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)數(shù)值,如圖16-19所示為分類方法示例。
圖16-19? 分類方法示例
要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,除了這些外,訓(xùn)練樣本還有一個類別標(biāo)記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。分類器的構(gòu)造方法有統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。統(tǒng)計方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí):Instance-based learning, IBL),對應(yīng)的知識表示則為判別函數(shù)和原型事例。機器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前者對應(yīng)地表示為決策樹或判別樹,后者則有兩種:決策表(Decision List)和(平行)產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點和代表連接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)。
l??????? 3)粗糙集方法
粗糙集(Rough Set)的研究主要基于分類。分類和概念(concept)同義,一種類別對應(yīng)于一個概念(類別一般表示為外延即集合,而概念常以內(nèi)涵的形式表示,如規(guī)則描述)。知識由概念組成,如果某知識中含有不精確概念,則該知識不精確。粗糙集對不精確概念的描述方法是:通過上近似概念和下近似概念這兩個精確概念來表示。一個概念(或集合)的下近似(Lower Approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。在數(shù)據(jù)庫中,將行元素看成對象,列元素看成屬性(分為條件屬性和決策屬性)。等價關(guān)系R定義為不同對象在某個(或幾個)屬性上取值相同,這些滿足等價關(guān)系的對象組成的集合稱為該等價關(guān)系R的等價類。條件屬性上的等價類E 與決策屬性上的等價類Y之間有3種情況:(1)下近似:Y包含E;(2)上近似:Y和E的交非空;(3)無關(guān):Y和E的交為空。對下近似建立確定性規(guī)則,對上近似建立不確定性規(guī)則(含可信度),對無關(guān)情況不存在規(guī)則。
粗糙集方法為KDD提供了一種新的方法和工具。第一,KDD 研究的實施對象多為關(guān)系型數(shù)據(jù)庫。關(guān)系表可被看做為粗糙集理論中的決策表,這給粗糙集方法的應(yīng)用帶來極大的方便。第二,現(xiàn)實世界中的規(guī)則有確定性的,也有不確定性的,從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地。第三,從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識發(fā)現(xiàn)過程中的噪聲干擾也是粗糙集方法的特長。第四,運用粗糙集方法得到的知識發(fā)現(xiàn)算法有利于并行執(zhí)行,這可極大地提高發(fā)現(xiàn)效率。對于大規(guī)模數(shù)據(jù)庫中的知識發(fā)現(xiàn)來說,這正是求之不得的。第五,KDD中采用的其他技術(shù),如神經(jīng)網(wǎng)絡(luò)的方法,不能自動地選擇合適的屬性集,而利用粗糙集方法進行預(yù)處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率。第六,粗糙集方法比模糊集方法或神經(jīng)網(wǎng)絡(luò)方法在得到的決策規(guī)則和推理過程方面更易于被證實和檢測。
l??????? 4)神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型,它可對隱式類型進行分析,適用于模型化非線性的、復(fù)雜的或高噪聲的數(shù)據(jù)。它模擬人腦神經(jīng)元結(jié)構(gòu),由“神經(jīng)元”互聯(lián),或按層組織的節(jié)點構(gòu)成。通常,神經(jīng)模型由3個層次組成:輸入層、中間層和輸出層。每個神經(jīng)元求得輸入值,再計算總輸入值,由過濾機制(如閥值)比較總輸入,然后確定它自己的輸出值。可通過連接一組神經(jīng)元來模型化復(fù)雜行為。當(dāng)修改連接層的“連接度”或參數(shù)時,神經(jīng)網(wǎng)絡(luò)就進行了學(xué)習(xí)或“訓(xùn)練”。神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個分布式矩陣結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上(包括反復(fù)迭代或累加計算)。以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了3大類多種神經(jīng)網(wǎng)絡(luò)模型。①前饋式網(wǎng)絡(luò):它以感知機、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方面。②反饋式網(wǎng)絡(luò):它以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計算。③自組織網(wǎng)絡(luò):它以ART模型、Koholon模型為代表,用于聚類。
神經(jīng)網(wǎng)絡(luò)可按管理模式或非管理模式來學(xué)習(xí),在管理模式中,神經(jīng)網(wǎng)絡(luò)要預(yù)測現(xiàn)有示例可能帶來的結(jié)果,它將預(yù)測結(jié)果與目標(biāo)答案相比較并從錯誤中進行學(xué)習(xí)。管理模式的神經(jīng)網(wǎng)絡(luò)可用于預(yù)測、分類和時間序列模型。非管理模式的學(xué)習(xí)在描述數(shù)據(jù)時很有效,但卻不用于預(yù)測結(jié)果。非管理模式的神經(jīng)網(wǎng)絡(luò)創(chuàng)建自己的類描述、合法性驗證和操作,它與數(shù)據(jù)模式無關(guān)。
l??????? 5)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則:“在購買面包和黃油的顧客中,有90%的人同時買了牛奶”(面包+黃油 => 牛奶)。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù),其中針對的應(yīng)用則是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個事務(wù)一般由如下幾個部分組成:事務(wù)處理時間,一組顧客購買的物品,有時也有顧客標(biāo)識號。關(guān)聯(lián)規(guī)則就是指搜索業(yè)務(wù)系統(tǒng)中的所有細節(jié)和事務(wù),從中找出重復(fù)出現(xiàn)概率很高的模式,它以大的事務(wù)數(shù)據(jù)庫為基礎(chǔ),其中每個事務(wù)都被定義為一系列相關(guān)數(shù)據(jù)項。用關(guān)聯(lián)找出所有能把一組事件或數(shù)據(jù)項與另一套事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則。對關(guān)系數(shù)據(jù)集可以使用這種處理,此類數(shù)據(jù)是用標(biāo)準(zhǔn)SQL謂詞邏輯定義的。關(guān)聯(lián)算法的目的是成為SQL的擴充,這樣這種算法就可以通過規(guī)范的查詢技術(shù)應(yīng)用于受限的關(guān)系數(shù)據(jù)集。這些算法必須有高度的適應(yīng)性和動態(tài)性。為了找到關(guān)系模式,要查看的數(shù)據(jù)集會有所變化,關(guān)聯(lián)發(fā)生的最小百分比規(guī)則會發(fā)生變化。
l??????? 6)概念樹方法
對數(shù)據(jù)庫中記錄的屬性字段按歸類方式進行抽象,建立起來的層次結(jié)構(gòu)稱為概念樹。如“型號”概念樹的最下層是具體武器裝備(如54手槍、59式100高射炮等),它的直接上層是裝備小類(如手槍、高射炮等),裝備小類的直接上層是裝備大類(如輕武器、火炮等),再上層是軍械裝備。利用概念樹提升的方法可以大大濃縮數(shù)據(jù)庫中的記錄。對多個屬性字段的概念樹進行提升,將得到高度概括的知識基表,然后再將它轉(zhuǎn)換成規(guī)則。
l??????? 7)遺傳算法
它是模擬生物進化過程的算法,由3個基本算子組成。①繁殖(選擇):是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程。②交叉(重組):選擇兩個不同個體(染色體)的部分(基因)進行交換,形成新個體。③變異(突變):對某些個體的某些基因進行變異(1變0、0變1)。這種遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。這些后代需滿足適應(yīng)值,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。遺傳算法已在優(yōu)化計算和分類機器學(xué)習(xí)方面發(fā)揮了顯著作用。
l??????? 8)依賴性分析
該算法在數(shù)據(jù)倉庫的條目或?qū)ο箝g抽取依賴性,它展示了數(shù)據(jù)間未知的依賴關(guān)系,并有可能描述成關(guān)注性數(shù)據(jù)項間的因果關(guān)系,可以用該分析方法從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息,依賴性是一個帶有置信度因子的可能值。
l??????? 9)公式發(fā)現(xiàn)
在工程和科學(xué)數(shù)據(jù)庫(由試驗數(shù)據(jù)組成)中,對若干數(shù)據(jù)項(變量)進行一定的數(shù)學(xué)運算,求得相應(yīng)的數(shù)學(xué)公式。比較典型的BACON發(fā)現(xiàn)系統(tǒng)完成了對物理學(xué)中大量定律的重新發(fā)現(xiàn)。其基本思想是,對數(shù)據(jù)項進行初等數(shù)學(xué)運算(加、減、乘、除等),形成組合數(shù)據(jù)項,若它的值為常數(shù)項,就得到了組合數(shù)據(jù)項等于常數(shù)的公式。
l??????? 10)統(tǒng)計分析方法
在數(shù)據(jù)庫字段項之間存在兩種關(guān)系。①函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系);②相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定關(guān)系)。對它們的分析采用如下方法,即回歸分析、相關(guān)分析、主成分分析。
l??????? 11)模糊論方法
利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊性是客觀存在的。系統(tǒng)的復(fù)雜性越高,精確化能力就越低,即模糊性越強。這是模糊理論創(chuàng)始人Zadeh 總結(jié)出的互克性原理。
l??????? 12)可視化技術(shù)
可視化分析可給出帶有多變量的圖形化分析數(shù)據(jù),幫助分析員進行分析,它可使分析員同時顯示多個變量間的關(guān)系。可視化數(shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。例如,把數(shù)據(jù)庫中的多維數(shù)據(jù)變成多種圖形,這對揭示數(shù)據(jù)的狀況、內(nèi)在本質(zhì)及規(guī)律性起了很大作用。
16.2.9? 信息門戶
數(shù)據(jù)倉庫的信息和前端應(yīng)用的多樣性帶來了使用的復(fù)雜性,如果不把多種多樣的應(yīng)用界面做一個良好的整合,必然由于操作繁雜令用戶產(chǎn)生畏懼心理,因此限制了商業(yè)智能的推廣和應(yīng)用效果,企業(yè)信息門戶為使數(shù)據(jù)倉庫的使用者可以根據(jù)自己的需要獲得想要的信息,需要從界面、應(yīng)用系統(tǒng)交互等角度進行門戶的建設(shè)規(guī)劃,如果將這些功能模型進行抽象,可以歸結(jié)為以下的功能層次。
l???????? 集成:包括3個層次的集成,即信息的集成、人的集成、流程的集成。即將現(xiàn)有及待建的各種信息資源通過多種技術(shù)手段實現(xiàn)整合,形成一個整體的企業(yè)信息資源集成平臺,并向外提供標(biāo)準(zhǔn)的信息訪問接口。
l???????? 內(nèi)容管理:對現(xiàn)有信息實現(xiàn)統(tǒng)一的目錄分類管理(Categorization)。包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化信息的分類、編目、摘要、審核和發(fā)布。
l???????? 搜索:分類和搜索是組織和獲取信息的緊密聯(lián)系的兩個方面。
l???????? 以人為本的核心安全架構(gòu):支持統(tǒng)一面向自然人的用戶身份認證(Authentication),統(tǒng)一用戶的訪問權(quán)限控制(Authorization)和統(tǒng)一用戶資源管理(Administration),實現(xiàn)單次登錄就可以訪問所有相關(guān)信息資源也是門戶的一個重要功能。
l???????? 個性化:即信息門戶的數(shù)據(jù)和應(yīng)用可以根據(jù)每一個人的要求來配置,為用戶提供個性化的應(yīng)用界面,提高了員工的工作效率,增強了對用戶的親和力和吸引力。
l???????? 可訪問性:在門戶中,用戶可以在安全機制的保護下,在任何時間任何地點方便地訪問企業(yè)的信息和應(yīng)用,完成對信息和數(shù)據(jù)的處理和提交,保證企業(yè)的業(yè)務(wù)運轉(zhuǎn)永不停頓。
l???????? 協(xié)作與共享受:提供同事間、部門間、企業(yè)間、客戶和廠商間的協(xié)作和交互。
l???????? 管理和調(diào)度:可以實現(xiàn)日常性的信息采集和分送的調(diào)度和管理維護。
如圖16-20所示是一個銀行信息門戶的界面,在該基于瀏覽器的用戶界面內(nèi),集成了銀行領(lǐng)導(dǎo)日常工作中的公文批閱、緊急事件通知、業(yè)務(wù)數(shù)據(jù)查詢、業(yè)務(wù)報表等內(nèi)容,并結(jié)合商業(yè)智能技術(shù),實現(xiàn)信息多層次分析挖掘等功能的OLAP分析界面,關(guān)鍵性的信息以直觀的儀表板的方式提供,大大地提高了行長決策工作的效率和深度廣度。這個門戶集成了商業(yè)智能應(yīng)用,也集成了包括傳統(tǒng)的OA系統(tǒng)、信貸管理系統(tǒng)等業(yè)務(wù)處理系統(tǒng),另外還提供了信息的多種檢索功能等。這些信息資源原本存在于不同技術(shù)平臺、不同結(jié)構(gòu)、互不共享的業(yè)務(wù)系統(tǒng)。
在實施信息門戶之前,該行的員工訪問業(yè)務(wù)信息,要在不同的業(yè)務(wù)系統(tǒng)的操作界面中之間來回切換,甚至穿梭于各個不同操作系統(tǒng)的平臺之間。而門戶實施后,便把員工日常需要的各個應(yīng)用和信息集中展現(xiàn)在員工的桌面。只要在統(tǒng)一的信息訪問入口進行一次登錄的身份驗證,便可“一覽眾山小”地將一天的工作和需要了解的信息掌握,真正地實現(xiàn)信息一站式服務(wù)。
圖16-20? 某銀行信息門戶界面
總結(jié)
以上是生活随笔為你收集整理的数据仓库、商业智能的体系结构的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3Dmax合并模型材质发生明暗变化如何解
- 下一篇: tomcat 、jsp、 servlet