【转】BI 入门: 体系架构及相关技术
(1) 老板,你要這么多數(shù)據(jù)做什么?????
??? 假如你是一個(gè)商品零售公司的老板。
??? 你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫(kù)中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。
??? 這時(shí)如果我問(wèn)你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲(chǔ)成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?”
??? 你會(huì)從容的接受我這個(gè)建議嗎?
??? 那么老板,你要這么多數(shù)據(jù)做什么?
??? 是的,和我一樣,你也已經(jīng)隱約認(rèn)識(shí)到數(shù)據(jù)的價(jià)值,這就是我們割舍不下歷史數(shù)據(jù)的原因,就像任何一個(gè)現(xiàn)代化企業(yè),甚至就像任何一個(gè)傳統(tǒng)的票號(hào),如百年老店般虔誠(chéng)地保存著古老的數(shù)據(jù),因?yàn)槲覀冇兄庇X(jué),我們的直覺(jué)告訴我們:這些數(shù)據(jù)有用!
??? 但這僅僅是一種直覺(jué),到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者?
??? 這中間似乎缺少了某些環(huán)節(jié)。
(2) Business Intelligence - 連接數(shù)據(jù)與決策者?????
??? BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。
??? 讓我們振臂高呼三遍:決策支持,決策支持,決策支持!
??? BI 是一個(gè)工廠:
??????? >> BI 的原材料是海量的數(shù)據(jù);
??????? >> BI 的產(chǎn)品是由數(shù)據(jù)加工而來(lái)的信息和知識(shí);
??????? >> BI 將這些產(chǎn)品推送給企業(yè)決策者;
??????? >> 企業(yè)決策者利用 BI 工廠的產(chǎn)品做出正確的決策,促進(jìn)企業(yè)的發(fā)展;
??? 這就是 Business Intelligence,即商業(yè)智能——連接數(shù)據(jù)與決策者,變數(shù)據(jù)為價(jià)值。
??? BI 應(yīng)用的兩大類別是信息類應(yīng)用 和 知識(shí)類應(yīng)用,其特征如下表所示:
信息類 BI 應(yīng)用
???? 指由原始數(shù)據(jù)加工而來(lái)的數(shù)據(jù)查詢、報(bào)表圖表、多維分析、數(shù)據(jù)可視化等應(yīng)用,這些應(yīng)用的共同特點(diǎn)是:將數(shù)據(jù)轉(zhuǎn)換為決策者可接受的信息,展現(xiàn)給決策者。
??? 例如將銀行交易數(shù)據(jù)加工為銀行財(cái)務(wù)報(bào)表。
???? 僅負(fù)責(zé)提供信息,而不會(huì)主動(dòng)去分析數(shù)據(jù)。
???? 例如,銀行財(cái)務(wù)報(bào)表工具沒(méi)有深入分析客戶流失和銀行利率之間關(guān)系的能力,而只能靠決策者結(jié)合信息,通過(guò)人的思考,得出知識(shí)。
知識(shí)類 BI 應(yīng)用
???? 指通過(guò)數(shù)據(jù)挖掘技術(shù)和工具,將數(shù)據(jù)中隱含的關(guān)系發(fā)掘出來(lái),利用計(jì)算機(jī)直接將數(shù)據(jù)加工為知識(shí),展現(xiàn)給決策者。
???? 會(huì)主動(dòng)去數(shù)據(jù)中探查數(shù)據(jù)關(guān)聯(lián)關(guān)系,發(fā)掘那些決策者人腦無(wú)法迅速發(fā)掘的隱含知識(shí),并將其以可理解的形式呈現(xiàn)在決策者面前。
(3) BI 初級(jí)應(yīng)用模式概覽——數(shù)據(jù)查詢(Querying)???
??? 數(shù)據(jù)查詢是最簡(jiǎn)單的 BI 應(yīng)用,屬于 MIS 系統(tǒng)遺產(chǎn),雖然出身比較老土,但是目前仍然是決策者獲取信息的最直接的方法。
??? 如今,數(shù)據(jù)查詢界面已經(jīng)徹底擺脫了傳統(tǒng) SQL 命令行,大量的下拉菜單、輸入框、列表框等元素甚至是鼠標(biāo)拖拽界面將后臺(tái)干苦力的 SQL 語(yǔ)句包裝成一個(gè)妖艷無(wú)比的數(shù)據(jù)獲取系統(tǒng),而本質(zhì)仍然沒(méi)有離開(kāi)數(shù)據(jù)查詢的幾大要素:
?? >> 查什么
?? >> 從哪兒查
?? >> 過(guò)濾條件
?? >> 展示方法
??? 目前國(guó)外比較流行的數(shù)據(jù)查詢應(yīng)用已經(jīng)完全釋放了數(shù)據(jù)查詢的靈活性,如右圖所示的是 Cognos ReportNet 的數(shù)據(jù)查詢界面 Query Studio,允許用戶通過(guò)純?yōu)g覽器界面,以鼠標(biāo)拖拽操作定義數(shù)據(jù)查詢要素,并以報(bào)表和圖表等多種方式展現(xiàn)數(shù)據(jù)。
(4) BI 初級(jí)應(yīng)用模式概覽——報(bào)表(Reporting)??
??? 報(bào)表是國(guó)內(nèi)最熱衷的 BI 應(yīng)用之一,這與報(bào)表在我國(guó)企事業(yè)單位中的歷史地位是分不開(kāi)的。我國(guó)的報(bào)表以其格式詭異、數(shù)據(jù)集中、規(guī)則古怪等特征著稱于世,曾經(jīng)讓無(wú)數(shù)國(guó)外報(bào)表工具和 BI 工具捶胸頓足。
??? 報(bào)表的兩大要素是數(shù)據(jù)和格式,如果沒(méi)有格式,則報(bào)表應(yīng)用幾乎等同于數(shù)據(jù)查詢應(yīng)用。可以說(shuō),報(bào)表就是將查詢出來(lái)的數(shù)據(jù)按照指定的格式展現(xiàn)。
??? 報(bào)表應(yīng)用包含了報(bào)表展現(xiàn)和報(bào)表制作兩大模塊。報(bào)表展現(xiàn)就是讓決策者看到報(bào)表,并允許決策者通過(guò)條件定義來(lái)選擇報(bào)表數(shù)據(jù),例如選擇報(bào)表年度、部門、機(jī)構(gòu)等等;報(bào)表制作面向報(bào)表的開(kāi)發(fā)人員,其格式定義靈活性、數(shù)據(jù)映射靈活性、計(jì)算方法的豐富程度等均影響了 BI 報(bào)表應(yīng)用的質(zhì)量。
??? 需要澄清一下的是,Microsoft Excel 不算是一個(gè) BI 報(bào)表工具,因?yàn)?Excel 沒(méi)有連接數(shù)據(jù)源的能力,充其量是一個(gè) Spread Sheet。但是 Excel 強(qiáng)大的格式功能讓報(bào)表制作人員竟折腰,乃至到后來(lái),幾乎所有 BI 廠商都提供了面向 Microsoft Excel 的插件,通過(guò)插件,Excel 可以連接到 BI 的數(shù)據(jù)源上,搖身一變?yōu)?BI 報(bào)表工具,丑小鴨變天鵝。
5) BI 高級(jí)應(yīng)用模式概覽——在線分析(OnLine Analytical Processing,OLAP)????
??? OLAP ,即聯(lián)機(jī)分析處理,是 BI 帶來(lái)的一種全新的數(shù)據(jù)觀察方式,是 BI 的核心技術(shù)之一。
??? 我們知道,數(shù)據(jù)在數(shù)據(jù)庫(kù)中是以數(shù)據(jù)表來(lái)存儲(chǔ)的,比如某商店的銷售數(shù)據(jù)存儲(chǔ)在如下所示的一張數(shù)據(jù)表中:
銷售時(shí)間
銷售地點(diǎn)
產(chǎn)品
銷售數(shù)量
銷售金額
2004-11-1
北京
肥皂
10
342.00
2004-11-6
廣州
桔子
30
123.00
2004-12-3
北京
香蕉
20
12.00
2004-12-13
上海
桔子
50
189.00
2005-1-8
北京
肥皂
10
342.00
2005-1-23
上海
牙刷
30
150.00
2005-2-4
廣州
牙刷
20
100.00
決策者希望知道的往往是分布、占比、趨勢(shì)之類的宏觀信息,比如下列問(wèn)題:
??????? >> 北京地區(qū)的銷售數(shù)量雖時(shí)間的變化趨勢(shì)?
??????? >> 哪種產(chǎn)品在 2005 年銷售比 2004 年銷售增幅最大?
??????? >> 2004 年各產(chǎn)品銷售額的比例分布? ……
??? 面對(duì)這種需求,必須用 SQL 語(yǔ)句進(jìn)行大量的 SUM 操作,每得出一個(gè)問(wèn)題的結(jié)果,就需要 SQL SUM。面對(duì)上面的 7 條記錄,我們可以很容易的得出結(jié)果,但是當(dāng)我們面對(duì)百萬(wàn)級(jí)甚至億級(jí)的記錄條數(shù)時(shí),例如移動(dòng)公司通話數(shù)據(jù),每次 SQL SUM 都需要消耗大量的時(shí)間來(lái)計(jì)算,決策者經(jīng)常是在第一天提出分析需求,等到第二天才能拿到計(jì)算結(jié)果,這種分析方式是“脫機(jī)分析”,效率很低。
??? 為了提高數(shù)據(jù)分析效率,OLAP 技術(shù)徹底打破以記錄為單位的數(shù)據(jù)瀏覽方式,而將數(shù)據(jù)分離為“維度(Dimension)”和“度量(Measure)”:
??????? >> 維度是觀察數(shù)據(jù)的角度,例如上面示例中的“銷售時(shí)間”、“銷售地點(diǎn)”、“產(chǎn)品”;
??????? >> 度量是具體考察的數(shù)量值,例如上例中的“銷售數(shù)量”和“銷售金額”;
??? 這樣一來(lái),我們就可以將上面這張平版的數(shù)據(jù)列表轉(zhuǎn)換為一個(gè)擁有三個(gè)維度的數(shù)據(jù)立方體( Cube ):
而探查數(shù)據(jù)的過(guò)程,就是在這個(gè)立方體中確定一個(gè)點(diǎn),然后觀察這個(gè)點(diǎn)的度量值:
當(dāng)然,數(shù)據(jù)立方體并不局限于三個(gè)維度,這里采用三個(gè)維度來(lái)說(shuō)明問(wèn)題,只是因?yàn)橥ㄟ^(guò)圖形可以表現(xiàn)出來(lái)的極限就是三個(gè)維度。
??? 維度可以劃分層次,例如時(shí)間上可以從日向上匯總為月和年,產(chǎn)品可以向上匯總為食品和日用品,地點(diǎn)可以向上匯總為華北和華南,用戶可以沿著維度的層次任意向下鉆取(Drill Down)和向上匯總(Roll Up):
通過(guò)這種方式,我們就可以擺脫 SQL SUM 對(duì)速度的制約,快速定位符合不同條件的細(xì)節(jié)數(shù)據(jù),更可以迅速得到某一層次的匯總數(shù)據(jù)。OLAP 技術(shù)為決策者提供了多角度、多層次、高效率的數(shù)據(jù)探查方式,決策者的思維不再被固定的下拉菜單、查詢條件所束縛,而是由決策者的思維帶領(lǐng)數(shù)據(jù)的獲取,任意組合分析角度和分析目標(biāo),這種打破傳統(tǒng)的互動(dòng)性分析和高效率使 OLAP 成為 BI 系統(tǒng)的核心應(yīng)用。
(*) 第四噴:BI 高級(jí)應(yīng)用模式 —— 數(shù)據(jù)可視化與數(shù)據(jù)挖掘
???
(6) BI 應(yīng)用模式概覽——數(shù)據(jù)可視化(Visualization)
數(shù)據(jù)可視化應(yīng)用致力于將信息以盡可能多的形式展現(xiàn)出來(lái),目的是使決策者通過(guò)圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如趨勢(shì)、分布、密度等要素。???? 值得一提的是,以 MapInfo 公司為代表的 GIS 軟件商,目前也正在努力結(jié)合 BI 應(yīng)用。MapInfo 率先提出了 Location Intelligence 概念,依托于地理信息系統(tǒng),展現(xiàn)各地區(qū)的屬性值,例如人口密度,工業(yè)產(chǎn)值,人均醫(yī)院數(shù)量等等,這種可視化應(yīng)用部分與 BI 數(shù)據(jù)可視化應(yīng)用重合,并形成有力補(bǔ)充,有時(shí)可以在一個(gè)項(xiàng)目中互相搭配。
??
??? 上圖所示的是 Cognos Visualizer 產(chǎn)品,這家伙用幾近嘩眾取寵的豐富形式展現(xiàn)數(shù)據(jù)和信息,包含了地圖、餅圖、瀑布圖等近五十種展現(xiàn)圖形,并提供了二維和三維兩種展現(xiàn)方式。所有的圖形元素都是可活動(dòng)的,例如用戶可以通過(guò)點(diǎn)擊地圖上的某一個(gè)省,鉆取到這個(gè)省各個(gè)城市的信息,這種可交互性是 BI 與普通圖片生成軟件的顯著差異。
(7) BI 應(yīng)用模式概覽——數(shù)據(jù)挖掘(Data Mining)????
???? 數(shù)據(jù)挖掘是最高級(jí)的 BI 應(yīng)用,因?yàn)樗艽娌糠秩四X功能。
??? 數(shù)據(jù)挖掘隸屬于知識(shí)發(fā)現(xiàn)(Knowledge Discovery)在結(jié)構(gòu)化數(shù)據(jù)中的特例。
??? 數(shù)據(jù)挖掘的目的是通過(guò)計(jì)算機(jī)對(duì)大量數(shù)據(jù)進(jìn)行分析,找出數(shù)據(jù)之間潛藏的規(guī)律和知識(shí),并以可理解的方式展現(xiàn)給用戶。
???? 數(shù)據(jù)挖掘的三大要素是:
???????? >> 技術(shù)和算法:目前常用的數(shù)據(jù)挖掘技術(shù)包括——
???????????????? 自動(dòng)類別偵測(cè)(Auto Cluster Detection)
???????????????? 決策樹(shù)(Decision Trees)
???????????????? 神經(jīng)網(wǎng)絡(luò)(Neural Networks)
???????? >> 數(shù)據(jù):由于數(shù)據(jù)挖掘是一個(gè)在已知中挖掘未知的過(guò)程,
???????????????? 因此需要大量數(shù)據(jù)的積累作為數(shù)據(jù)源,數(shù)據(jù)積累
???????????????? 量越大,數(shù)據(jù)挖掘工具就會(huì)有更多的參考點(diǎn)。
???????? >> 預(yù)測(cè)模型:也就是將需要進(jìn)行數(shù)據(jù)挖掘的業(yè)務(wù)邏輯由
???????????????? 計(jì)算機(jī)模擬出來(lái),這也是數(shù)據(jù)挖掘的主要任務(wù)。
??? 與信息類 BI 應(yīng)用相比,以數(shù)據(jù)挖掘?yàn)榇淼闹R(shí)類 BI 應(yīng)用目前還不成熟,但是從另一個(gè)角度來(lái)看,數(shù)據(jù)挖掘可發(fā)展的空間還很大,是今后 BI 發(fā)展的重點(diǎn)方向,SAS,SPSS 等知識(shí)類 BI 應(yīng)用廠商形象逐漸高大,悄悄占據(jù)了新的利潤(rùn)增長(zhǎng)點(diǎn)。
上圖中是著名的 IBM Intelligent Miner 在分析客戶的消費(fèi)行為。它能對(duì)大量的客戶數(shù)據(jù)進(jìn)行分析,然后自動(dòng)將客戶劃分為若干群體(自動(dòng)類別偵測(cè)),并將每個(gè)群體的消費(fèi)特征顯示出來(lái),這樣決策者就能一目了然的針對(duì)不同客戶的消費(fèi)習(xí)慣,制定促銷計(jì)劃或廣告計(jì)劃。
??
???? 上述功能如果單靠信息類 BI 應(yīng)用來(lái)實(shí)現(xiàn),則需要決策者根據(jù)經(jīng)驗(yàn)進(jìn)行大量的 OLAP 分析、數(shù)據(jù)查詢工作,而且還不一定能發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律。例如上述客戶分類,對(duì)于一個(gè)擁有 400 萬(wàn)用戶的銀行來(lái)說(shuō),如果沒(méi)有數(shù)據(jù)挖掘工具,會(huì)把人活活累死的。
(8) BI 底座——數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(Data Warehouse)????
??? 在開(kāi)始噴這個(gè)主題之前,讓我們先看看數(shù)據(jù)倉(cāng)庫(kù)的官方定義:
??? 數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。以上是數(shù)據(jù)倉(cāng)庫(kù)的官方定義。
??? “操作型數(shù)據(jù)庫(kù)”如銀行里記賬系統(tǒng)數(shù)據(jù)庫(kù),每一次業(yè)務(wù)操作(比如你存了5元錢),都會(huì)立刻記錄到這個(gè)數(shù)據(jù)庫(kù)中,長(zhǎng)此以往,滿肚子積累的都是零碎的數(shù)據(jù),這種干臟活累活還不得閑的數(shù)據(jù)庫(kù)就叫“操作型數(shù)據(jù)庫(kù)”,面向的是業(yè)務(wù)操作。
??? “數(shù)據(jù)倉(cāng)庫(kù)”用于決策支持,面向分析型數(shù)據(jù)處理,不同于操作型數(shù)據(jù)庫(kù);另外,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。
??? 操作型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)之間的關(guān)系,就像 C:、D: 與硬盤之間的關(guān)系一樣,數(shù)據(jù)庫(kù)是硬盤,操作型數(shù)據(jù)庫(kù)是 C:,數(shù)據(jù)倉(cāng)庫(kù)是 D:,操作型數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)都存儲(chǔ)在數(shù)據(jù)庫(kù)里,只不過(guò)表結(jié)構(gòu)的設(shè)計(jì)模式和用途不同。
那么為什么要在操作型數(shù)據(jù)庫(kù)和 BI 之間加這么一層“數(shù)據(jù)倉(cāng)庫(kù)”呢?
??? 一是因?yàn)椴僮餍蛿?shù)據(jù)庫(kù)日夜奔忙,以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),根本沒(méi)精力伺候 BI 這邊的數(shù)據(jù)需求,而且 BI 這邊的數(shù)據(jù)需求通常是匯總型的,一個(gè) select sum(xx) group by xx 就能讓操作型數(shù)據(jù)庫(kù)耗費(fèi)大量資源,業(yè)務(wù)處理跟不上趟,麻煩就大了,比如你存了 5000 元錢,發(fā)現(xiàn)十分鐘后錢還沒(méi)到賬,作何感想?一定是該銀行的領(lǐng)導(dǎo)在看餅圖?
二是因?yàn)槠髽I(yè)中一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)著多個(gè)操作型數(shù)據(jù)庫(kù),比如人力資源庫(kù)、財(cái)務(wù)庫(kù)、銷售單據(jù)庫(kù)、庫(kù)存貨品庫(kù)等等,BI 為了提供全景的數(shù)據(jù)視圖,就必須將這些分散的數(shù)據(jù)綜合起來(lái),例如為了實(shí)現(xiàn)一個(gè)融合銷售和庫(kù)存信息的 OLAP 分析,BI 工具必須能夠高效的取得兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),這時(shí)最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉(cāng)庫(kù)中,而 BI 應(yīng)用統(tǒng)一從數(shù)據(jù)倉(cāng)庫(kù)里取數(shù)。
將分散的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)整合到數(shù)據(jù)倉(cāng)庫(kù)中是一門大學(xué)問(wèn),催生了數(shù)據(jù)整合軟件的市場(chǎng)。這種整合并不是簡(jiǎn)單的將表疊加在一起,而是必須提取出每個(gè)操作型數(shù)據(jù)庫(kù)的維度,將共同的維度設(shè)定為共用維度,然后將包含具體度量值的數(shù)據(jù)庫(kù)表按照主題統(tǒng)一成若干張大表(術(shù)語(yǔ)“事實(shí)表”,Fact Tables),按照維度-度量模型建立數(shù)據(jù)倉(cāng)庫(kù)表結(jié)構(gòu),然后進(jìn)行數(shù)據(jù)抽取轉(zhuǎn)換。后續(xù)的抽取一般是在操作性數(shù)據(jù)庫(kù)負(fù)載比較小的時(shí)候(如凌晨),對(duì)新數(shù)據(jù)進(jìn)行增量抽取,這樣數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就會(huì)形成積累。
大多數(shù) BI 應(yīng)用并不要求獲取實(shí)時(shí)的數(shù)據(jù),比如決策者,只需要在每周一看到上周的周報(bào)就可以了,95% 的 BI 應(yīng)用都不要 求實(shí)時(shí)性,允許數(shù)據(jù)有 1 小時(shí)至 1 個(gè)月不等的滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作的時(shí)間。當(dāng)然,BI 應(yīng)用中通常還將包含極少的對(duì)實(shí)時(shí)數(shù)據(jù)的要求,這時(shí)僅需針對(duì)這些特殊需求,將 BI Querying 軟件直接連接在業(yè)務(wù)數(shù)據(jù)庫(kù)上就可以了,但是必須限制負(fù)載,禁止做復(fù)雜查詢。
??? 目前的數(shù)據(jù)庫(kù)產(chǎn)品都對(duì)數(shù)據(jù)倉(cāng)庫(kù)提供有專門優(yōu)化,例如在安裝 MySQL 的高版本時(shí),安裝成序會(huì)詢問(wèn)你是想讓數(shù)據(jù)庫(kù)實(shí)例作為 Transaction-Oriented ,還是 Decision Support ,前者就是操作型數(shù)據(jù)庫(kù),后者就是數(shù)據(jù)倉(cāng)庫(kù)(決策支持么,再振臂高呼一遍),針對(duì)這兩種形式,數(shù)據(jù)庫(kù)將提供針對(duì)性的優(yōu)化。
(9) BI 花邊????
??? BI 的相關(guān)知識(shí)大致就是這樣了,寫(xiě)一些花邊作為結(jié)束語(yǔ)吧。
??? BI 要害:BI 無(wú)法處理非結(jié)構(gòu)化數(shù)據(jù),只能處理數(shù)字信息,但是在企業(yè)中,還存在有大量像文本、流媒體、圖片等非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)同樣蘊(yùn)藏有大量?jī)r(jià)值,但是面對(duì)這些數(shù)據(jù),目前的 BI 工具無(wú)能為力。比較靠譜的是 IBM Intelligent Miner for Text,但是它在處理中文方面似乎十分薄弱。
??? BI 廠商和產(chǎn)品:
首先讓我們認(rèn)識(shí)一下國(guó)外大人物!數(shù)據(jù)倉(cāng)庫(kù)方面,有 IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;BI 應(yīng)用方面,有 Cognos,Business Objects,MicroStrategy,Hyperion,IBM 等等;數(shù)據(jù)挖掘方面,有 IBM,SAS,SPSS 等等。巨無(wú)霸 Microsoft 也在 BI 領(lǐng)域插了一腿,推出了 SQL Server Analysis Server、Reporting Services 等 BI 相關(guān)產(chǎn)品搶占山頭!
我們往往容量只把眼光放在國(guó)外的BI大佬們而忽略國(guó)內(nèi)漸漸突起的BI新軍,如今國(guó)內(nèi)比較出名的BI有奧威智動(dòng)的Power-BI,尚南的BlueQuery 及潤(rùn)乾報(bào)表等,特別值得一提的是奧威智動(dòng)的Power-BI是一款標(biāo)準(zhǔn)化BI,在國(guó)內(nèi)已經(jīng)具有一定的市場(chǎng)占有率。
??? 中國(guó)的 BI 市場(chǎng)發(fā)展:
時(shí)間段
國(guó)內(nèi) BI 應(yīng)用情況
2002 年以前
???? 大量 BI 軟件被看作是能從多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù)的報(bào)表工作,滿眼全是報(bào)表。
??? 一開(kāi)始,公司的銷售在推銷產(chǎn)品時(shí)都向用戶介紹:“我們是 BI 領(lǐng)域最強(qiáng)的……”效果不好;后來(lái)那些銷售終于找到了竅門,上來(lái)就說(shuō):“我們什么報(bào)表都能做!”然后訂單不斷。
2002-2003
???? OLAP 的價(jià)值終于被某些慧眼發(fā)現(xiàn),一些競(jìng)爭(zhēng)壓力大的企業(yè)為了提高競(jìng)爭(zhēng)力,迫切需要從歷史數(shù)據(jù)中挖掘價(jià)值,迅速發(fā)現(xiàn)了 OLAP 的優(yōu)勢(shì),這時(shí)銷售終于不用再說(shuō)“我們什么報(bào)表都能做”了。但是國(guó)家機(jī)關(guān)、壟斷型企業(yè),仍舊是報(bào)表,并且以為 BI 就是報(bào)表。
2004
???? 隨著越來(lái)越多成功 BI 項(xiàng)目的實(shí)施,OLAP 終于得以見(jiàn)天日,這時(shí)國(guó)內(nèi)才形成數(shù)據(jù)查詢+報(bào)表展示+OLAP分析的合理 BI 應(yīng)用結(jié)構(gòu)。一些數(shù)據(jù)可視化的需求也時(shí)常被用戶提出,在一些競(jìng)爭(zhēng)激烈、數(shù)據(jù)量大的企業(yè),已經(jīng)出現(xiàn)了數(shù)據(jù)挖掘應(yīng)用。
2005
???? 信息提供已經(jīng)無(wú)法滿足很多企業(yè)的要求,特別是銀行、通信、證券等競(jìng)爭(zhēng)激烈、風(fēng)險(xiǎn)密集的行業(yè),大量涌現(xiàn)對(duì)數(shù)據(jù)挖掘的需求,BI 應(yīng)用終于形成信息+知識(shí)的整體。
BI 工具在中國(guó)遇到的難題:
* 復(fù)雜表樣:中國(guó)是世界上報(bào)表最復(fù)雜的國(guó)家。中國(guó)的表樣設(shè)計(jì)思想與西方不同,西方報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了中國(guó)報(bào)表的復(fù)雜格式和詭異風(fēng)格。
* 大數(shù)據(jù)量:中國(guó)是世界上人口最多的國(guó)家。以中國(guó)移動(dòng)公司為例,僅我國(guó)一個(gè)省的用戶數(shù)量,就相當(dāng)于歐洲一個(gè)中等國(guó)家的人口,是真正的海量數(shù)據(jù)!國(guó)外數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和 BI 應(yīng)用軟件,都在中國(guó)經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。對(duì)于美國(guó),可能一個(gè)客戶分析應(yīng)用兩秒鐘就能出結(jié)果,但是在中國(guó)這樣的數(shù)據(jù)量下,可就不是兩秒鐘的問(wèn)題了。
* 數(shù)據(jù)回寫(xiě):中國(guó)是世界上對(duì) BI 系統(tǒng)要求最奇特的國(guó)家。本來(lái) BI 系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個(gè)原則在中國(guó)遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求,“報(bào)表里數(shù)字不好看,就要能改啊,而且有時(shí)候也需要調(diào)整啊,這樣上級(jí)領(lǐng)導(dǎo)看著就好嘛! ”一個(gè)領(lǐng)導(dǎo)如是說(shuō)。目前能滿足此要求的 BI 產(chǎn)品,僅有 Microsoft 和 MicroStrategy 兩家。微軟對(duì)中國(guó)市場(chǎng)算是吃透了。
BI的體系架構(gòu)及相關(guān)技術(shù)
一個(gè)BI系統(tǒng)為了滿足企業(yè)管理者的要求,從浩如煙海的資料中找出其關(guān)心的數(shù)據(jù),必須要做到以下幾步:
1)為了整合各種格式的數(shù)據(jù),清除原有數(shù)據(jù)中的錯(cuò)誤記錄——數(shù)據(jù)預(yù)處理的要求。
2)對(duì)預(yù)處理過(guò)數(shù)據(jù),應(yīng)該統(tǒng)一集中起來(lái)——元數(shù)據(jù)(Meta Data)、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的要求;
3)最后,對(duì)于集中起來(lái)的龐大的數(shù)據(jù)集,還應(yīng)進(jìn)行相應(yīng)的專業(yè)統(tǒng)計(jì),從中發(fā)掘出對(duì)企業(yè)決策有價(jià)值的新的機(jī)會(huì)——OLAP(聯(lián)機(jī)事務(wù)分析)和數(shù)據(jù)挖掘(Data Mining)的要求。
所以,一個(gè)典型的BI體系架構(gòu)應(yīng)該包含這3步所涉及的相關(guān)要求。 圖 3 BI的體系架構(gòu) 整個(gè)體系架構(gòu)中包括:終端用戶查詢和報(bào)告工具、OLAP工具、數(shù)據(jù)挖掘(Data Mining)軟件、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)和數(shù)據(jù)集市(Data Mart)產(chǎn)品、聯(lián)機(jī)分析處理 (OLAP) 等工具。
1)、終端用戶查詢和報(bào)告工具。
專門用來(lái)支持初級(jí)用戶的原始數(shù)據(jù)訪問(wèn),不包括適應(yīng)于專業(yè)人士的成品報(bào)告生成工具。
2)、數(shù)據(jù)預(yù)處理(STL-數(shù)據(jù)抽取、轉(zhuǎn)換、裝載)
從許多來(lái)自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過(guò)抽取(Extraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過(guò)程,合并到一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖。
3)、OLAP工具。
提供多維數(shù)據(jù)管理環(huán)境,其典型的應(yīng)用是對(duì)商業(yè)問(wèn)題的建模與商業(yè)數(shù)據(jù)分析。OLAP也被稱為多維分析。
4)、數(shù)據(jù)挖掘(Data Mining)軟件。
使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來(lái)發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。
5)、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)和數(shù)據(jù)集市(Data Mart)產(chǎn)品。
包括數(shù)據(jù)轉(zhuǎn)換、管理和存取等方面的預(yù)配置軟件,通常還包括一些業(yè)務(wù)模型,如財(cái)務(wù)分析模型。
6)、聯(lián)機(jī)分析處理 (OLAP) 。
OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
其中核心技術(shù)在于數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)的建立(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析處理(OLAP)三個(gè)部分。接下來(lái),我們對(duì)這幾個(gè)核心部分進(jìn)行詳細(xì)說(shuō)明:
數(shù)據(jù)預(yù)處理:
當(dāng)早期大型的在線事務(wù)處理系統(tǒng)(OLTP)問(wèn)世后不久,就出現(xiàn)了一種用于“抽取”處理的簡(jiǎn)單程序,其作用是搜索整個(gè)文件和數(shù)據(jù)庫(kù),使用某些標(biāo)準(zhǔn)選擇合乎要求的數(shù)據(jù),將其復(fù)制拷貝出來(lái),用于總體分析。因?yàn)檫@樣做不會(huì)影響正在使用的在線事務(wù)處理系統(tǒng),降低其性能,同時(shí),用戶可以自行控制抽取出來(lái)的數(shù)據(jù)。但是,現(xiàn)在情況發(fā)生了巨大的變化,企業(yè)同時(shí)采用了多個(gè)在線事務(wù)處理系統(tǒng),而這些系統(tǒng)之間的數(shù)據(jù)定義格式不盡相同,即使采用同一軟件廠商提供的不同軟件產(chǎn)品,或者僅僅是產(chǎn)品版本不同,之間的數(shù)據(jù)定義格式也有少許差距。由此,我們必須先定義一個(gè)統(tǒng)一的數(shù)據(jù)格式,然后把各個(gè)來(lái)源的數(shù)據(jù)按新的統(tǒng)一的格式進(jìn)行轉(zhuǎn)換,然后集中裝載入數(shù)據(jù)倉(cāng)庫(kù)中。
其中,尤其要注意的一點(diǎn)時(shí),并不是各個(gè)來(lái)源的不同格式的所有數(shù)據(jù)都能被新的統(tǒng)一格式包容,我們也不應(yīng)強(qiáng)求非要把所有數(shù)據(jù)源的數(shù)據(jù)全部集中起來(lái)。Why?原因很多。有可能原來(lái)錄入的數(shù)據(jù)中,少量的記錄使用了錯(cuò)誤的數(shù)據(jù),這類數(shù)據(jù)如果無(wú)法校正,應(yīng)該被舍去。某些數(shù)據(jù)記錄是非結(jié)構(gòu)化的,很難將其轉(zhuǎn)化成新定義的統(tǒng)一格式,而且從中抽取信息必須讀取整個(gè)文件,效率極低,如大容量的二進(jìn)制數(shù)據(jù)文件,多媒體文件等,這類數(shù)據(jù)如果對(duì)企業(yè)決策不大,可以舍去。
目前已有一部分軟件廠商開(kāi)發(fā)出專門的ETL工具,其中包括:
Ardent DataStage
Evolutionary Technologies,Inc. (ETI) Extract
Information Powermart
Sagent Solution
SAS Institute
Oracle Warehouse Builder
MSSQL Server2000 DTS
數(shù)據(jù)倉(cāng)庫(kù):
數(shù)據(jù)倉(cāng)庫(kù)概念是由號(hào)稱“數(shù)據(jù)倉(cāng)庫(kù)之父”William H.Inmon在上世紀(jì)80年代中期撰寫(xiě)的《建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中首次提出,“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失性的,隨時(shí)間變化的用來(lái)支持管理人員決策的數(shù)據(jù)集合”。
面向主題是數(shù)據(jù)倉(cāng)庫(kù)第一個(gè)顯著特點(diǎn),就是指在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)按照不同的主題進(jìn)行組織,每一個(gè)主題中的數(shù)據(jù)都是從各操作數(shù)據(jù)庫(kù)中抽取出來(lái)匯集而成,這些與該主題相關(guān)的所有歷史數(shù)據(jù)就形成了相應(yīng)的主題域。
數(shù)據(jù)倉(cāng)庫(kù)的第二個(gè)顯著特點(diǎn)是集成。數(shù)據(jù)來(lái)源于不同的數(shù)據(jù)源,通過(guò)相應(yīng)的規(guī)則進(jìn)行一致性轉(zhuǎn)換,最終集成為一體。
數(shù)據(jù)倉(cāng)庫(kù)的第三個(gè)特點(diǎn)是非易失性。一旦數(shù)據(jù)被加載到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)的值不會(huì)再發(fā)生變化,盡管運(yùn)行系統(tǒng)中對(duì)數(shù)據(jù)進(jìn)行增、刪、改等操作,但對(duì)這些數(shù)據(jù)的操作將會(huì)作為新的快照記錄到數(shù)據(jù)倉(cāng)庫(kù)中,從而不會(huì)影響到已經(jīng)進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)最后一個(gè)特點(diǎn)是它隨時(shí)間變化。數(shù)據(jù)倉(cāng)庫(kù)中每一個(gè)數(shù)據(jù)都是在特定時(shí)間的記錄,每個(gè)記錄都有著相應(yīng)的時(shí)間戳。 圖 4 數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)對(duì)外部數(shù)據(jù)源和操作型數(shù)據(jù)源的元數(shù)據(jù),按照數(shù)據(jù)倉(cāng)庫(kù)模式設(shè)計(jì)要求進(jìn)行歸類,并建成元數(shù)據(jù)庫(kù),相對(duì)應(yīng)的數(shù)據(jù)經(jīng)過(guò)ETL后加載到數(shù)據(jù)倉(cāng)庫(kù)中;當(dāng)信息客戶需要查詢數(shù)據(jù)時(shí)先通過(guò)信息展現(xiàn)系統(tǒng)了解元數(shù)據(jù)或者直接瀏覽元數(shù)據(jù)庫(kù),再發(fā)起數(shù)據(jù)查詢請(qǐng)求得到所需數(shù)據(jù)。
一個(gè)典型的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),通常包含數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)的訪問(wèn)三個(gè)部分。 圖 5 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 數(shù)據(jù)源:是指企業(yè)操作型數(shù)據(jù)庫(kù)中的各種生產(chǎn)運(yùn)營(yíng)數(shù)據(jù)、辦公管理數(shù)據(jù)等內(nèi)部數(shù)據(jù)和一些調(diào)查數(shù)據(jù)、市場(chǎng)信息等來(lái)自外環(huán)境的數(shù)據(jù)總稱。這些數(shù)據(jù)是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ)是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。
數(shù)據(jù)的存儲(chǔ)與管理:數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)主要由元數(shù)據(jù)的存儲(chǔ)及數(shù)據(jù)的存儲(chǔ)兩部分組成。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。各操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照元數(shù)據(jù)庫(kù)中定義的規(guī)則,經(jīng)過(guò)抽取、清理、轉(zhuǎn)換、集成,按照主題重新組織,依照相應(yīng)的存儲(chǔ)結(jié)構(gòu)進(jìn)行存儲(chǔ)。也可以面向應(yīng)用建立一些數(shù)據(jù)集市,數(shù)據(jù)集市可以看作是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)的訪問(wèn):由OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘、統(tǒng)計(jì)報(bào)表、即席查詢等幾部分組成。例如OLAP:針對(duì)特定的分析主題,設(shè)計(jì)多種可能的觀察形式,設(shè)計(jì)相應(yīng)的分析主題結(jié)構(gòu)(即進(jìn)行事實(shí)表和維表的設(shè)計(jì)),使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快速、穩(wěn)定和交互性的訪問(wèn),并進(jìn)行各種復(fù)雜的分析和預(yù)測(cè)工作。按照存儲(chǔ)方式來(lái)分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫(kù)中。分析主題的數(shù)據(jù)可以形成一個(gè)或多個(gè)多維立方體。ROLAP (Relational OLAP)將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫(kù)中。分析主題的數(shù)據(jù)以“事實(shí)表-維表”的星型模式組織。
數(shù)據(jù)挖掘:
數(shù)據(jù)挖掘的定義非常模糊,對(duì)它的定義取決于定義者的觀點(diǎn)和背景。如下是一些DM文獻(xiàn)中的定義:
數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過(guò)程。
數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫(kù)中提取以前未知的,可理解的,可執(zhí)行的信息并用它來(lái)進(jìn)行關(guān)鍵的商業(yè)決策的過(guò)程。
數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過(guò)程,來(lái)辯識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過(guò)程。
數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過(guò)程。
雖然數(shù)據(jù)挖掘的這些定義有點(diǎn)不可觸摸,但在目前它已經(jīng)成為一種商業(yè)事業(yè)。如同在過(guò)去的歷次淘金熱中一樣,目標(biāo)是`開(kāi)發(fā)礦工`。利潤(rùn)最大的是賣工具給礦工,而不是干實(shí)際的開(kāi)發(fā)。
目前業(yè)內(nèi)已有很多成熟的數(shù)據(jù)挖掘方法論,為實(shí)際應(yīng)用提供了理想的指導(dǎo)模型。其中,標(biāo)準(zhǔn)化的主要有三個(gè):CRISP-DM;PMML;OLE DB for DM。
CRISP-DM(Cross-Industry Standard Process for Data Mining)是目前公認(rèn)的、較有影響的方法論之一。CRISP-DM強(qiáng)調(diào),DM不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過(guò)程。CRISP-DM將整個(gè)挖掘過(guò)程分為以下六個(gè)階段:商業(yè)理解(Business Understanding),數(shù)據(jù)理解(Data Understanding),數(shù)據(jù)準(zhǔn)備(Data Preparation),建模(Modeling),評(píng)估(Evaluation)和發(fā)布(Deployment)。其框架圖如下: 圖 6 CRISP-DM模型框架圖 從技術(shù)層來(lái)看,數(shù)據(jù)挖掘技術(shù)可分為描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測(cè)型數(shù)據(jù)挖掘包括分類、回歸及時(shí)間序列分析等。
1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、聚類:是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細(xì)分。在開(kāi)始細(xì)分之前不知道要把用戶分成幾類,因此通過(guò)聚類分析可以找出客戶特性相似的群體,如客戶消費(fèi)特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對(duì)不同客戶群體的營(yíng)銷方案。
3、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性;序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌的分析等。
4、分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示類別。
5、回歸:是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)。一般同一個(gè)模型既可用于回歸也可用于分類。常見(jiàn)的算法有邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等。
6、時(shí)間序列:時(shí)間序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。
數(shù)據(jù)挖掘(Data Mining)軟件。使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來(lái)發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。 圖 7 數(shù)據(jù)挖掘系統(tǒng) 以下是一些當(dāng)前的數(shù)據(jù)挖掘產(chǎn)品:
IBM: Intelligent Miner 智能礦工
Tandem: Relational Data Miner 關(guān)系數(shù)據(jù)礦工
AngossSoftware: KnowledgeSEEDER 知識(shí)搜索者
Thinking Machines Corporation: DarwinTM
NeoVista Software: ASIC
ISL Decision Systems,Inc.: Clementine
DataMind Corporation: DataMind Data Cruncher
Silicon Graphics: MineSet
California Scientific Software: BrainMaker
WizSoft Corporation: WizWhy
Lockheed Corporation: Recon
SAS Corporation: SAS Enterprise Miner
聯(lián)機(jī)分析處理(OLAP):
OLAP的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,他同時(shí)提出了關(guān)于OLAP的12條準(zhǔn)則。 OLAP的提出引起了很大的反響,OLAP作為一類產(chǎn)品同聯(lián)機(jī)事務(wù)處理 (OLTP) 明顯區(qū)分開(kāi)來(lái)。
當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(On-Line Transaction Processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核心是"維"這個(gè)概念。
“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(DImension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。
OLAP的基本多維分析操作有鉆取(Roll Up和Drill Down)、切片(Slice)和切塊(Dice)、以及旋轉(zhuǎn)(Pivot)、Drill Across、Drill Through等。
鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取(Roll Up)和向下鉆取(Drill Down)。Roll Up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill Down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。
切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊。
旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲(chǔ)數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。
ROLAP表示基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)(Relational OLAP)。以關(guān)系數(shù)據(jù)庫(kù)為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲(chǔ)。ROLAP將多維數(shù)據(jù)庫(kù)的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對(duì)每個(gè)維至少使用一個(gè)表來(lái)存放維的層次、成員類別等維的描述信息。維表和事實(shí)表通過(guò)主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成了“星型模式”。對(duì)于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過(guò)大的存儲(chǔ)空間,可以使用多個(gè)表來(lái)描述,這種星型模式的擴(kuò)展稱為“雪花模式”。
MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(Multidimensional OLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說(shuō),MOLAP使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。多維數(shù)據(jù)在存儲(chǔ)中將形成“立方塊(Cube)”的結(jié)構(gòu),在MOLAP中對(duì)“立方塊”的“旋轉(zhuǎn)”、“切塊”、“切片”是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)。
HOLAP表示基于混合數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(Hybrid OLAP)。如低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。
還有其他的一些實(shí)現(xiàn)OLAP的方法,如提供一個(gè)專用的SQL Server,對(duì)某些存儲(chǔ)模式(如星型、雪片型)提供對(duì)SQL查詢的特殊支持。
OLAP工具是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)與分析。它通過(guò)多維的方式對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。維是人們觀察數(shù)據(jù)的特定角度。例如,一個(gè)企業(yè)在考慮產(chǎn)品的銷售情況時(shí),通常從時(shí)間、地區(qū)和產(chǎn)品的不同角度來(lái)深入觀察產(chǎn)品的銷售情況。這里的時(shí)間、地區(qū)和產(chǎn)品就是維。而這些維的不同組合和所考察的度量指標(biāo)構(gòu)成的多維數(shù)組則是OLAP分析的基礎(chǔ),可形式化表示為(維1,維2,……,維n,度量指標(biāo)),如(地區(qū)、時(shí)間、產(chǎn)品、銷售額)。多維分析是指對(duì)以多維形式組織起來(lái)的數(shù)據(jù)采取切片(Slice)、切塊(Dice)、鉆取(Drill Down和Roll Up)、旋轉(zhuǎn)(Pivot)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入理解包含在數(shù)據(jù)中的信息。
根據(jù)綜合性數(shù)據(jù)的組織方式的不同,目前常見(jiàn)的OLAP主要有基于多維數(shù)據(jù)庫(kù)的MOLAP及基于關(guān)系數(shù)據(jù)庫(kù)的ROLAP兩種。MOLAP是以多維的方式組織和存儲(chǔ)數(shù)據(jù),ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)模擬多維數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,OLAP應(yīng)用一般是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的前端工具,同時(shí)OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,增強(qiáng)決策分析功能。
轉(zhuǎn)載于:https://www.cnblogs.com/xuq22/archive/2011/06/03/3769370.html
總結(jié)
以上是生活随笔為你收集整理的【转】BI 入门: 体系架构及相关技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: MySQL 当记录不存在时insert,
- 下一篇: Linux下进程的建立