什么是BI?
什么是BI
(1) 老板,你要這么多數(shù)據(jù)做什么?
假如你是一個(gè)商品零售公司的老板。
你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷(xiāo)售單據(jù)都保存在數(shù)據(jù)庫(kù)中,日積月累,已經(jīng)保存了十余年的銷(xiāo)售數(shù)據(jù),上億條銷(xiāo)售記錄。
這時(shí)如果我問(wèn)你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲(chǔ)成本,索性把它們?nèi)珓h掉吧,這樣不用買(mǎi)硬盤(pán)就能容納新數(shù)據(jù),如何?”
你會(huì)從容的接受我這個(gè)建議嗎?
那么老板,你要這么多數(shù)據(jù)做什么?
是的,和我一樣,你也已經(jīng)隱約認(rèn)識(shí)到數(shù)據(jù)的價(jià)值,這就是我們割舍不下歷史數(shù)據(jù)的原因,就像任何一個(gè)現(xiàn)代化企業(yè),甚至就像任何一個(gè)傳統(tǒng)的票號(hào),如百年老店般虔誠(chéng)地保存著古老的數(shù)據(jù),因?yàn)槲覀冇兄庇X(jué),我們的直覺(jué)告訴我們:這些數(shù)據(jù)有用!
但這僅僅是一種直覺(jué),到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者?
這中間似乎缺少了某些環(huán)節(jié)。
(2) Business Intelligence - 連接數(shù)據(jù)與決策者
BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。
讓我們振臂高呼三遍:決策支持,決策支持,決策支持!
BI 是一個(gè)工廠:
>> BI 的原材料是海量的數(shù)據(jù);
>> BI 的產(chǎn)品是由數(shù)據(jù)加工而來(lái)的信息和知識(shí);
>> BI 將這些產(chǎn)品推送給企業(yè)決策者;
>> 企業(yè)決策者利用 BI 工廠的產(chǎn)品做出正確的決策,促進(jìn)企業(yè)的發(fā)展;
這就是 Business Intelligence,即商業(yè)智能——連接數(shù)據(jù)與決策者,變數(shù)據(jù)為價(jià)值。
BI 應(yīng)用的兩大類(lèi)別是信息類(lèi)應(yīng)用 和 知識(shí)類(lèi)應(yīng)用,其特征如下表所示:
|
信息類(lèi) BI 應(yīng)用 |
指由原始數(shù)據(jù)加工而來(lái)的數(shù)據(jù)查詢(xún)、報(bào)表圖表、多維分析、數(shù)據(jù)可視化等應(yīng)用,這些應(yīng)用的共同特點(diǎn)是:將數(shù)據(jù)轉(zhuǎn)換為決策者可接受的信息,展現(xiàn)給決策者。 |
僅負(fù)責(zé)提供信息,而不會(huì)主動(dòng)去分析數(shù)據(jù)。 |
|
|
知識(shí)類(lèi) BI 應(yīng)用 |
指通過(guò)數(shù)據(jù)挖掘技術(shù)和工具,將數(shù)據(jù)中隱含的關(guān)系發(fā)掘出來(lái),利用計(jì)算機(jī)直接將數(shù)據(jù)加工為知識(shí),展現(xiàn)給決策者。 |
會(huì)主動(dòng)去數(shù)據(jù)中探查數(shù)據(jù)關(guān)聯(lián)關(guān)系,發(fā)掘那些決策者人腦無(wú)法迅速發(fā)掘的隱含知識(shí),并將其以可理解的形式呈現(xiàn)在決策者面前。 |
|
(3) BI 初級(jí)應(yīng)用模式概覽——數(shù)據(jù)查詢(xún)(Querying)
數(shù)據(jù)查詢(xún)是最簡(jiǎn)單的 BI 應(yīng)用,屬于 MIS 系統(tǒng)遺產(chǎn),雖然出身比較老土,但是目前仍然是決策者獲取信息的最直接的方法。
如今,數(shù)據(jù)查詢(xún)界面已經(jīng)徹底擺脫了傳統(tǒng) SQL 命令行,大量的下拉菜單、輸入框、列表框等元素甚至是鼠標(biāo)拖拽界面將后臺(tái)干苦力的 SQL 語(yǔ)句包裝成一個(gè)妖艷無(wú)比的數(shù)據(jù)獲取系統(tǒng),而本質(zhì)仍然沒(méi)有離開(kāi)數(shù)據(jù)查詢(xún)的幾大要素:
>> 查什么
>> 從哪兒查
>> 過(guò)濾條件
>> 展示方法
目前國(guó)外比較流行的數(shù)據(jù)查詢(xún)應(yīng)用已經(jīng)完全釋放了數(shù)據(jù)查詢(xún)的靈活性,如右圖所示的是 Cognos ReportNet 的數(shù)據(jù)查詢(xún)界面 Query Studio,允許用戶(hù)通過(guò)純?yōu)g覽器界面,以鼠標(biāo)拖拽操作定義數(shù)據(jù)查詢(xún)要素,并以報(bào)表和圖表等多種方式展現(xiàn)數(shù)據(jù)。
(4) BI 初級(jí)應(yīng)用模式概覽——報(bào)表(Reporting)
報(bào)表是國(guó)內(nèi)最熱衷的 BI 應(yīng)用之一,這與報(bào)表在我國(guó)企事業(yè)單位中的歷史地位是分不開(kāi)的。我國(guó)的報(bào)表以其格式詭異、數(shù)據(jù)集中、規(guī)則古怪等特征著稱(chēng)于世,曾經(jīng)讓無(wú)數(shù)國(guó)外報(bào)表工具和 BI 工具捶胸頓足。
報(bào)表的兩大要素是數(shù)據(jù)和格式,如果沒(méi)有格式,則報(bào)表應(yīng)用幾乎等同于數(shù)據(jù)查詢(xún)應(yīng)用??梢哉f(shuō),報(bào)表就是將查詢(xún)出來(lái)的數(shù)據(jù)按照指定的格式展現(xiàn)。
報(bào)表應(yīng)用包含了報(bào)表展現(xiàn)和報(bào)表制作兩大模塊。報(bào)表展現(xiàn)就是讓決策者看到報(bào)表,并允許決策者通過(guò)條件定義來(lái)選擇報(bào)表數(shù)據(jù),例如選擇報(bào)表年度、部門(mén)、機(jī)構(gòu)等等;報(bào)表制作面向報(bào)表的開(kāi)發(fā)人員,其格式定義靈活性、數(shù)據(jù)映射靈活性、計(jì)算方法的豐富程度等均影響了 BI 報(bào)表應(yīng)用的質(zhì)量。
需要澄清一下的是,Microsoft Excel 不算是一個(gè) BI 報(bào)表工具,因?yàn)?Excel 沒(méi)有連接數(shù)據(jù)源的能力,充其量是一個(gè) Spread Sheet。但是 Excel 強(qiáng)大的格式功能讓報(bào)表制作人員竟折腰,乃至到后來(lái),幾乎所有 BI 廠商都提供了面向 Microsoft Excel 的插件,通過(guò)插件,Excel 可以連接到 BI 的數(shù)據(jù)源上,搖身一變?yōu)?BI 報(bào)表工具,丑小鴨變天鵝。
(5) BI 高級(jí)應(yīng)用模式概覽——在線分析(OnLine Analytical Processing,OLAP)
OLAP ,即聯(lián)機(jī)分析處理,是 BI 帶來(lái)的一種全新的數(shù)據(jù)觀察方式,是 BI 的核心技術(shù)之一。
我們知道,數(shù)據(jù)在數(shù)據(jù)庫(kù)中是以數(shù)據(jù)表來(lái)存儲(chǔ)的,比如某商店的銷(xiāo)售數(shù)據(jù)存儲(chǔ)在如下所示的一張數(shù)據(jù)表中:
|
銷(xiāo)售時(shí)間 |
銷(xiāo)售地點(diǎn) |
產(chǎn)品 |
銷(xiāo)售數(shù)量 |
銷(xiāo)售金額 |
|
2004-11-1 |
北京 |
肥皂 |
10 |
342.00 |
|
2004-11-6 |
廣州 |
桔子 |
30 |
123.00 |
|
2004-12-3 |
北京 |
香蕉 |
20 |
12.00 |
|
2004-12-13 |
上海 |
桔子 |
50 |
189.00 |
|
2005-1-8 |
北京 |
肥皂 |
10 |
342.00 |
|
2005-1-23 |
上海 |
牙刷 |
30 |
150.00 |
|
2005-2-4 |
廣州 |
牙刷 |
20 |
100.00 |
決策者希望知道的往往是分布、占比、趨勢(shì)之類(lèi)的宏觀信息,比如下列問(wèn)題:
>> 北京地區(qū)的銷(xiāo)售數(shù)量雖時(shí)間的變化趨勢(shì)?
>> 哪種產(chǎn)品在 2005 年銷(xiāo)售比 2004 年銷(xiāo)售增幅最大?
>> 2004 年各產(chǎn)品銷(xiāo)售額的比例分布? ……
面對(duì)這種需求,必須用 SQL 語(yǔ)句進(jìn)行大量的 SUM 操作,每得出一個(gè)問(wèn)題的結(jié)果,就需要 SQL SUM。面對(duì)上面的 7 條記錄,我們可以很容易的得出結(jié)果,但是當(dāng)我們面對(duì)百萬(wàn)級(jí)甚至億級(jí)的記錄條數(shù)時(shí),例如移動(dòng)公司通話(huà)數(shù)據(jù),每次 SQL SUM 都需要消耗大量的時(shí)間來(lái)計(jì)算,決策者經(jīng)常是在第一天提出分析需求,等到第二天才能拿到計(jì)算結(jié)果,這種分析方式是“脫機(jī)分析”,效率很低。
為了提高數(shù)據(jù)分析效率,OLAP 技術(shù)徹底打破以記錄為單位的數(shù)據(jù)瀏覽方式,而將數(shù)據(jù)分離為“維度(Dimension)”和“度量(Measure)”:
>> 維度是觀察數(shù)據(jù)的角度,例如上面示例中的“銷(xiāo)售時(shí)間”、“銷(xiāo)售地點(diǎn)”、“產(chǎn)品”;
>> 度量是具體考察的數(shù)量值,例如上例中的“銷(xiāo)售數(shù)量”和“銷(xiāo)售金額”;
這樣一來(lái),我們就可以將上面這張平版的數(shù)據(jù)列表轉(zhuǎn)換為一個(gè)擁有三個(gè)維度的數(shù)據(jù)立方體( Cube ):
而探查數(shù)據(jù)的過(guò)程,就是在這個(gè)立方體中確定一個(gè)點(diǎn),然后觀察這個(gè)點(diǎn)的度量值:
當(dāng)然,數(shù)據(jù)立方體并不局限于三個(gè)維度,這里采用三個(gè)維度來(lái)說(shuō)明問(wèn)題,只是因?yàn)橥ㄟ^(guò)圖形可以表現(xiàn)出來(lái)的極限就是三個(gè)維度。
維度可以劃分層次,例如時(shí)間上可以從日向上匯總為月和年,產(chǎn)品可以向上匯總為食品和日用品,地點(diǎn)可以向上匯總為華北和華南,用戶(hù)可以沿著維度的層次任意向下鉆取(Drill Down)和向上匯總(Roll Up):
通過(guò)這種方式,我們就可以擺脫 SQL SUM 對(duì)速度的制約,快速定位符合不同條件的細(xì)節(jié)數(shù)據(jù),更可以迅速得到某一層次的匯總數(shù)據(jù)。OLAP 技術(shù)為決策者提供了多角度、多層次、高效率的數(shù)據(jù)探查方式,決策者的思維不再被固定的下拉菜單、查詢(xún)條件所束縛,而是由決策者的思維帶領(lǐng)數(shù)據(jù)的獲取,任意組合分析角度和分析目標(biāo),這種打破傳統(tǒng)的互動(dòng)性分析和高效率使 OLAP 成為 BI 系統(tǒng)的核心應(yīng)用。
(*) 第四噴:BI 高級(jí)應(yīng)用模式 —— 數(shù)據(jù)可視化與數(shù)據(jù)挖掘
(6) BI 應(yīng)用模式概覽——數(shù)據(jù)可視化(Visualization)
數(shù)據(jù)可視化應(yīng)用致力于將信息以盡可能多的形式展現(xiàn)出來(lái),目的是使決策者通過(guò)圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如趨勢(shì)、分布、密度等要素。 值得一提的是,以 MapInfo 公司為代表的 GIS 軟件商,目前也正在努力結(jié)合 BI 應(yīng)用。MapInfo 率先提出了 Location Intelligence 概念,依托于地理信息系統(tǒng),展現(xiàn)各地區(qū)的屬性值,例如人口密度,工業(yè)產(chǎn)值,人均醫(yī)院數(shù)量等等,這種可視化應(yīng)用部分與 BI 數(shù)據(jù)可視化應(yīng)用重合,并形成有力補(bǔ)充,有時(shí)可以在一個(gè)項(xiàng)目中互相搭配。
上圖所示的是 Cognos Visualizer 產(chǎn)品,這家伙用幾近嘩眾取寵的豐富形式展現(xiàn)數(shù)據(jù)和信息,包含了地圖、餅圖、瀑布圖等近五十種展現(xiàn)圖形,并提供了二維和三維兩種展現(xiàn)方式。所有的圖形元素都是可活動(dòng)的,例如用戶(hù)可以通過(guò)點(diǎn)擊地圖上的某一個(gè)省,鉆取到這個(gè)省各個(gè)城市的信息,這種可交互性是 BI 與普通圖片生成軟件的顯著差異。
(7) BI 應(yīng)用模式概覽——數(shù)據(jù)挖掘(Data Mining)
數(shù)據(jù)挖掘是最高級(jí)的 BI 應(yīng)用,因?yàn)樗艽娌糠秩四X功能。
數(shù)據(jù)挖掘隸屬于知識(shí)發(fā)現(xiàn)(Knowledge Discovery)在結(jié)構(gòu)化數(shù)據(jù)中的特例。
數(shù)據(jù)挖掘的目的是通過(guò)計(jì)算機(jī)對(duì)大量數(shù)據(jù)進(jìn)行分析,找出數(shù)據(jù)之間潛藏的規(guī)律和知識(shí),并以可理解的方式展現(xiàn)給用戶(hù)。
數(shù)據(jù)挖掘的三大要素是:
>> 技術(shù)和算法:目前常用的數(shù)據(jù)挖掘技術(shù)包括——
自動(dòng)類(lèi)別偵測(cè)(Auto Cluster Detection)
決策樹(shù)(Decision Trees)
神經(jīng)網(wǎng)絡(luò)(Neural Networks)
>> 數(shù)據(jù):由于數(shù)據(jù)挖掘是一個(gè)在已知中挖掘未知的過(guò)程,
因此需要大量數(shù)據(jù)的積累作為數(shù)據(jù)源,數(shù)據(jù)積累
量越大,數(shù)據(jù)挖掘工具就會(huì)有更多的參考點(diǎn)。
>> 預(yù)測(cè)模型:也就是將需要進(jìn)行數(shù)據(jù)挖掘的業(yè)務(wù)邏輯由
計(jì)算機(jī)模擬出來(lái),這也是數(shù)據(jù)挖掘的主要任務(wù)。
與信息類(lèi) BI 應(yīng)用相比,以數(shù)據(jù)挖掘?yàn)榇淼闹R(shí)類(lèi) BI 應(yīng)用目前還不成熟,但是從另一個(gè)角度來(lái)看,數(shù)據(jù)挖掘可發(fā)展的空間還很大,是今后 BI 發(fā)展的重點(diǎn)方向,SAS,SPSS 等知識(shí)類(lèi) BI 應(yīng)用廠商形象逐漸高大,悄悄占據(jù)了新的利潤(rùn)增長(zhǎng)點(diǎn)。
上圖中是著名的 IBM Intelligent Miner 在分析客戶(hù)的消費(fèi)行為。它能對(duì)大量的客戶(hù)數(shù)據(jù)進(jìn)行分析,然后自動(dòng)將客戶(hù)劃分為若干群體(自動(dòng)類(lèi)別偵測(cè)),并將每個(gè)群體的消費(fèi)特征顯示出來(lái),這樣決策者就能一目了然的針對(duì)不同客戶(hù)的消費(fèi)習(xí)慣,制定促銷(xiāo)計(jì)劃或廣告計(jì)劃。
上述功能如果單靠信息類(lèi) BI 應(yīng)用來(lái)實(shí)現(xiàn),則需要決策者根據(jù)經(jīng)驗(yàn)進(jìn)行大量的 OLAP 分析、數(shù)據(jù)查詢(xún)工作,而且還不一定能發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律。例如上述客戶(hù)分類(lèi),對(duì)于一個(gè)擁有 400 萬(wàn)用戶(hù)的銀行來(lái)說(shuō),如果沒(méi)有數(shù)據(jù)挖掘工具,會(huì)把人活活累死的。
(8) BI 底座——數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(Data Warehouse)
在開(kāi)始噴這個(gè)主題之前,讓我們先看看數(shù)據(jù)倉(cāng)庫(kù)的官方定義:
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。以上是數(shù)據(jù)倉(cāng)庫(kù)的官方定義。
“操作型數(shù)據(jù)庫(kù)”如銀行里記賬系統(tǒng)數(shù)據(jù)庫(kù),每一次業(yè)務(wù)操作(比如你存了5元錢(qián)),都會(huì)立刻記錄到這個(gè)數(shù)據(jù)庫(kù)中,長(zhǎng)此以往,滿(mǎn)肚子積累的都是零碎的數(shù)據(jù),這種干臟活累活還不得閑的數(shù)據(jù)庫(kù)就叫“操作型數(shù)據(jù)庫(kù)”,面向的是業(yè)務(wù)操作。
“數(shù)據(jù)倉(cāng)庫(kù)”用于決策支持,面向分析型數(shù)據(jù)處理,不同于操作型數(shù)據(jù)庫(kù);另外,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。
操作型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)之間的關(guān)系,就像 C:、D: 與硬盤(pán)之間的關(guān)系一樣,數(shù)據(jù)庫(kù)是硬盤(pán),操作型數(shù)據(jù)庫(kù)是 C:,數(shù)據(jù)倉(cāng)庫(kù)是 D:,操作型數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)都存儲(chǔ)在數(shù)據(jù)庫(kù)里,只不過(guò)表結(jié)構(gòu)的設(shè)計(jì)模式和用途不同。
那么為什么要在操作型數(shù)據(jù)庫(kù)和 BI 之間加這么一層“數(shù)據(jù)倉(cāng)庫(kù)”呢?
一是因?yàn)椴僮餍蛿?shù)據(jù)庫(kù)日夜奔忙,以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),根本沒(méi)精力伺候 BI 這邊的數(shù)據(jù)需求,而且 BI 這邊的數(shù)據(jù)需求通常是匯總型的,一個(gè) select sum(xx) group by xx 就能讓操作型數(shù)據(jù)庫(kù)耗費(fèi)大量資源,業(yè)務(wù)處理跟不上趟,麻煩就大了,比如你存了 5000 元錢(qián),發(fā)現(xiàn)十分鐘后錢(qián)還沒(méi)到賬,作何感想?一定是該銀行的領(lǐng)導(dǎo)在看餅圖?
二是因?yàn)槠髽I(yè)中一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)著多個(gè)操作型數(shù)據(jù)庫(kù),比如人力資源庫(kù)、財(cái)務(wù)庫(kù)、銷(xiāo)售單據(jù)庫(kù)、庫(kù)存貨品庫(kù)等等,BI 為了提供全景的數(shù)據(jù)視圖,就必須將這些分散的數(shù)據(jù)綜合起來(lái),例如為了實(shí)現(xiàn)一個(gè)融合銷(xiāo)售和庫(kù)存信息的 OLAP 分析,BI 工具必須能夠高效的取得兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),這時(shí)最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉(cāng)庫(kù)中,而 BI 應(yīng)用統(tǒng)一從數(shù)據(jù)倉(cāng)庫(kù)里取數(shù)。
將分散的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)整合到數(shù)據(jù)倉(cāng)庫(kù)中是一門(mén)大學(xué)問(wèn),催生了數(shù)據(jù)整合軟件的市場(chǎng)。這種整合并不是簡(jiǎn)單的將表疊加在一起,而是必須提取出每個(gè)操作型數(shù)據(jù)庫(kù)的維度,將共同的維度設(shè)定為共用維度,然后將包含具體度量值的數(shù)據(jù)庫(kù)表按照主題統(tǒng)一成若干張大表(術(shù)語(yǔ)“事實(shí)表”,F(xiàn)act Tables),按照維度-度量模型建立數(shù)據(jù)倉(cāng)庫(kù)表結(jié)構(gòu),然后進(jìn)行數(shù)據(jù)抽取轉(zhuǎn)換。后續(xù)的抽取一般是在操作性數(shù)據(jù)庫(kù)負(fù)載比較小的時(shí)候(如凌晨),對(duì)新數(shù)據(jù)進(jìn)行增量抽取,這樣數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就會(huì)形成積累。
大多數(shù) BI 應(yīng)用并不要求獲取實(shí)時(shí)的數(shù)據(jù),比如決策者,只需要在每周一看到上周的周報(bào)就可以了,95% 的 BI 應(yīng)用都不要求實(shí)時(shí)性,允許數(shù)據(jù)有 1 小時(shí)至 1 個(gè)月不等的滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作的時(shí)間。當(dāng)然,BI 應(yīng)用中通常還將包含極少的對(duì)實(shí)時(shí)數(shù)據(jù)的要求,這時(shí)僅需針對(duì)這些特殊需求,將 BI Querying 軟件直接連接在業(yè)務(wù)數(shù)據(jù)庫(kù)上就可以了,但是必須限制負(fù)載,禁止做復(fù)雜查詢(xún)。
目前的數(shù)據(jù)庫(kù)產(chǎn)品都對(duì)數(shù)據(jù)倉(cāng)庫(kù)提供有專(zhuān)門(mén)優(yōu)化,例如在安裝 MySQL 的高版本時(shí),安裝成序會(huì)詢(xún)問(wèn)你是想讓數(shù)據(jù)庫(kù)實(shí)例作為 Transaction-Oriented ,還是 Decision Support ,前者就是操作型數(shù)據(jù)庫(kù),后者就是數(shù)據(jù)倉(cāng)庫(kù)(決策支持么,再振臂高呼一遍),針對(duì)這兩種形式,數(shù)據(jù)庫(kù)將提供針對(duì)性的優(yōu)化。
(9) BI 花邊
BI 的相關(guān)知識(shí)大致就是這樣了,寫(xiě)一些花邊作為結(jié)束語(yǔ)吧。
BI 要害:BI 無(wú)法處理非結(jié)構(gòu)化數(shù)據(jù),只能處理數(shù)字信息,但是在企業(yè)中,還存在有大量像文本、流媒體、圖片等非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)同樣蘊(yùn)藏有大量?jī)r(jià)值,但是面對(duì)這些數(shù)據(jù),目前的 BI 工具無(wú)能為力。比較靠譜的是 IBM Intelligent Miner for Text,但是它在處理中文方面似乎十分薄弱。
BI 廠商和產(chǎn)品:
首先讓我們認(rèn)識(shí)一下國(guó)外大人物!數(shù)據(jù)倉(cāng)庫(kù)方面,有 IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;BI 應(yīng)用方面,有 Cognos,Business Objects,MicroStrategy,Hyperion,IBM 等等;數(shù)據(jù)挖掘方面,有 IBM,SAS,SPSS 等等。巨無(wú)霸 Microsoft 也在 BI 領(lǐng)域插了一腿,推出了 SQL Server Analysis Server、Reporting Services 等 BI 相關(guān)產(chǎn)品搶占山頭!
我們往往容量只把眼光放在國(guó)外的BI大佬們而忽略國(guó)內(nèi)漸漸突起的BI新軍,如今國(guó)內(nèi)比較出名的BI有奧威智動(dòng)的Power-BI,尚南的BlueQuery 及潤(rùn)乾報(bào)表等,特別值得一提的是奧威智動(dòng)的Power-BI是一款標(biāo)準(zhǔn)化BI,在國(guó)內(nèi)已經(jīng)具有一定的市場(chǎng)占有率。
中國(guó)的 BI 市場(chǎng)發(fā)展:
|
時(shí)間段 |
國(guó)內(nèi) BI 應(yīng)用情況 |
|
2002 年以前 |
大量 BI 軟件被看作是能從多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù)的報(bào)表工作,滿(mǎn)眼全是報(bào)表。 |
|
2002-2003 |
OLAP 的價(jià)值終于被某些慧眼發(fā)現(xiàn),一些競(jìng)爭(zhēng)壓力大的企業(yè)為了提高競(jìng)爭(zhēng)力,迫切需要從歷史數(shù)據(jù)中挖掘價(jià)值,迅速發(fā)現(xiàn)了 OLAP 的優(yōu)勢(shì),這時(shí)銷(xiāo)售終于不用再說(shuō)“我們什么報(bào)表都能做”了。但是國(guó)家機(jī)關(guān)、壟斷型企業(yè),仍舊是報(bào)表,并且以為 BI 就是報(bào)表。 |
|
2004 |
隨著越來(lái)越多成功 BI 項(xiàng)目的實(shí)施,OLAP 終于得以見(jiàn)天日,這時(shí)國(guó)內(nèi)才形成數(shù)據(jù)查詢(xún)+報(bào)表展示+OLAP分析的合理 BI 應(yīng)用結(jié)構(gòu)。一些數(shù)據(jù)可視化的需求也時(shí)常被用戶(hù)提出,在一些競(jìng)爭(zhēng)激烈、數(shù)據(jù)量大的企業(yè),已經(jīng)出現(xiàn)了數(shù)據(jù)挖掘應(yīng)用。 |
|
2005 |
信息提供已經(jīng)無(wú)法滿(mǎn)足很多企業(yè)的要求,特別是銀行、通信、證券等競(jìng)爭(zhēng)激烈、風(fēng)險(xiǎn)密集的行業(yè),大量涌現(xiàn)對(duì)數(shù)據(jù)挖掘的需求,BI 應(yīng)用終于形成信息+知識(shí)的整體。 |
BI 工具在中國(guó)遇到的難題:
* 復(fù)雜表樣:中國(guó)是世界上報(bào)表最復(fù)雜的國(guó)家。中國(guó)的表樣設(shè)計(jì)思想與西方不同,西方報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了中國(guó)報(bào)表的復(fù)雜格式和詭異風(fēng)格。
* 大數(shù)據(jù)量:中國(guó)是世界上人口最多的國(guó)家。以中國(guó)移動(dòng)公司為例,僅我國(guó)一個(gè)省的用戶(hù)數(shù)量,就相當(dāng)于歐洲一個(gè)中等國(guó)家的人口,是真正的海量數(shù)據(jù)!國(guó)外數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和 BI 應(yīng)用軟件,都在中國(guó)經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。對(duì)于美國(guó),可能一個(gè)客戶(hù)分析應(yīng)用兩秒鐘就能出結(jié)果,但是在中國(guó)這樣的數(shù)據(jù)量下,可就不是兩秒鐘的問(wèn)題了。
* 數(shù)據(jù)回寫(xiě):中國(guó)是世界上對(duì) BI 系統(tǒng)要求最奇特的國(guó)家。本來(lái) BI 系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個(gè)原則在中國(guó)遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求,“報(bào)表里數(shù)字不好看,就要能改啊,而且有時(shí)候也需要調(diào)整啊,這樣上級(jí)領(lǐng)導(dǎo)看著就好嘛! ”一個(gè)領(lǐng)導(dǎo)如是說(shuō)。目前能滿(mǎn)足此要求的 BI 產(chǎn)品,僅有 Microsoft 和 MicroStrategy 兩家。微軟對(duì)中國(guó)市場(chǎng)算是吃透了。
總結(jié)
- 上一篇: js 数组的交集、补集、并集
- 下一篇: Spotify模式并非“敏捷涅磐”