BI(商务智能)系统简介
生活随笔
收集整理的這篇文章主要介紹了
BI(商务智能)系统简介
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
無論是商業企業、科研機構或者政府部門,在過去若干年的時間里都積累了海量的、以不同形式存儲的數據資料。但當面對越來越多迅速膨脹的超級數據庫時,人們卻無從著手去理解數據中包含的信息,更難以獲得有價值的知識。然而這些信息數據記載著企業的生命軌跡,蘊含著企業的發展方向,由于采用普通的聯機事物處理技術(OLTP)的信息系統無法同時滿足高效作業和決策支持的兩項需求,造成了海量數據與信息“孤島”的并存。好在人們已經感受到了危險的降臨,商務智能軟件已悄然而生并越來越受到世人的重視。
1.商務智能的定義
商務智能(Business Intelligence)的定義眾說紛紜,Gartner Group認為“商務智能是將數據轉換成信息的過程,然后通過發現將信息轉化為知識”;商務智能大師利奧托德認為“商務智能是將存儲于各種商業信息系統中的數據轉換成有用信息的技術,它允許用戶查詢和分析數據庫,可以得出影響商業活動的關鍵因素,最終幫助用戶做出更好更合理的決策”。
筆者在總結了商務智能的相關定義之后,將商務智能定義為:商務智能是指利用現代信息技術收集、管理和分析存儲于各種商業信息系統中的數據,使之轉換成有用信息,并以可視化的形式加以表現,使企業的各級決策者獲得知識和洞察力,促使他們做出對企業更有利的決策的技術。
目前,各個行業都面對著激烈的競爭,及時、準確的決策已成為企業生存與發展的生命線。隨著信息技術在企業中的普遍應用,企業產生了大量富有價值的電子數據。但這些數據大都存儲于不同的系統中,數據的定義和格式也不統一,商務智能系統能從不同的數據源搜集的數據中提取有用的數據,并對這些數據進行清洗,以確保數據的正確性,在對數據進行轉換、重構等操作后,將其存入數據倉庫或數據集市中;再運用適合的查詢分析工具、數據挖掘工具、OLAP工具等管理分析工具對信息進行處理,使信息變為輔助決策的知識,并將知識以適當的方式展示在決策者面前,供決策者運籌帷幄。
2.商務智能系統的基本架構
美國數據倉庫研究院把商務智能比作“數據煉油廠”,它將商務智能的應用過程描述為“數據一信息一知識一計劃一行動”的過程。
根據對商務智能的理解,借鑒美國數據倉庫研究院的“數據煉油廠”,給出商務智能系統的架構。
1)數據源層——商務智能系統的數據來源,它 存儲著系統所需的最原始的數據以及數據之間的關系,保持著歷史的真實性。
2)數據整合層——商務智能系統的根本要求,它將來自不同數據源的信息合并為相同的信息結構,消除重復、無效和界外的數據,提取、凈化和傳遞數據到為數據倉庫設立的文件中。
3)數據倉庫層——商務智能系統的基礎,是數據分析的源數據,保存著大量的、面向主題的、集成的數據。
4)數據分析層——體現系統智能的關鍵,它一般采用OLAP技術和數據挖掘技術對數據進行分析和處理。
對商務智能系統的架構進行分析可以看出,商務智能系統對數據實行分析管理的關鍵技術如下:
3.1 數據倉庫技術
數據倉庫之父w.H.Inmon博士對數據倉庫的定義得到了大多數學者和工程人員的接受:“數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,它用以支持經營管理中的決策制定過程。”由此定義可以看出,數據倉庫具有如下特性:
(1)面向主題性
面向主題性是數據倉庫中數據組織的基本原則,數據倉庫中的所有數據都是圍繞著某一主題組織和展開的,每個主題對應一個客觀分析領域。
(2)數據集成性
數據倉庫的集成性是指根據決策分析的要求,將分散于各處的源數據進行抽取、篩選、清理、綜合等,使數據倉庫中的數據具有集成性。
(3)數據的穩定性
數據的穩定性說明數據倉庫中的數據不會像業務處理系統中的數據庫那樣進行日常的添加、修改、刪除等操作,而是很少發生更新處理,表現出相當程度的穩定性。
(4)數據的時變性
數據倉庫的時變性,即數據倉庫中的數據應該隨著時間的推移而發生變化。數據倉庫要能夠捕捉業務系統中的數據變化,定期將變化的數據追加到數據倉庫中來,還要將達到一定年限或規定時間的歷史數據進行刪除。
(5)數據的集合性
數據的集合性是指數據倉庫必須以某種數據集合的形式存儲起來,數據倉庫采用的數據集合方式主要有以多維數據庫方式存儲的多維模式、以關系數據庫方式存儲的關系模式,以及多維模式和關系模式混合的模式。
(6)決策支持作用
決策支持作用是數據倉庫一個核心的應用,建立數據倉庫的目的是將企業多年來收集到的數據按照一個統一的規則組織存儲,然后通過對海量的數據進行分析提供決策支持,幫助企業及時、準確地把握機會,以在激烈的市場競爭中取得最大的利潤。
數據倉庫技術是信息技術飛速發展的結果,它與傳統的面向操作的數據庫技術相比有很大的不同,從結構上看,數據倉庫主要包括:數據源、數據準備區、數據倉庫數據庫、數據集市/知識挖掘庫、管理工具和應用工具等部分。
數據源——數據倉庫的數據來源。
數據準備區——數據源中的數據經抽取、轉換最終成為數據倉庫所需要的數據。
數據倉庫數據庫——負責存儲用于分析、決策的數據,包含對元數據的管理。
數據集市/知識挖掘庫——局部數據倉庫或部門數據倉庫,為指定的應用提供數據。
管理工具和應用工具——包括各種對數據倉庫的數據分析和數據訪問,如利用OLAP進行數據分析,數據倉庫應用程序等。
3.2 OLAP分析技術
OLAP是獨立于數據倉庫的一種技術概念,其基本思想是使得企業的管理決策人員能夠靈活地操縱企業的數據,以多維的形式從多方面和多角度觀察企業的狀態和變化趨勢。
OLAP最早是由E.F.Codd于1993年提出的,當時,Codd認為聯機事務處理(OLTP)已經不能滿足終端用戶對數據庫查詢分析的需要,SQL對大數據庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此Codd提出了多維數據庫和多維分析的概念,即OLAP。它是針對特定問題的聯機數據訪問和分析。通過對多維數據的多種可能的觀察形式進行快速、穩定、一致和交互性的存取,允許管理決策人員對數據進行深入觀察。
OLAP的多維分析是指對多維數據集中的數據用切片(二維)、切塊(三維)、鉆取(向下鉆取和向上鉆取,鉆取的深度與維所劃分的層次相對應)、旋轉(通過旋轉可以得到不同視角的數據)等方式分析數據,使用戶從多個角度、多個側面去觀察數據倉庫中的數據。通過這種方法能夠使分析人員深入的了解數據倉庫中數據所蘊含的信息,從而挖掘隱藏在數據背后的商業模式。
在BI的建設過程中,數據倉庫和數據集市都是數據的存儲區域。都在為數據的在線分析和挖掘提供數據源。數據倉庫和數據集市主要是范圍的不同。數據倉庫面向企業的所有部門,所以它的需求是全企業范圍的,一般情況下,它的數據按照第三范式組織。數據集市是面向企業的某一個部門的,需求比較集中,以多維方式的形式管理數據。
3.3 數據挖掘技術
W.J.Frawley,G.PiatetskyShapiro等人指出,數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識,這螳知識是隱含的、事先未知的、潛在有用的信息,提取的知識可表示為概念、規則、規律、模式等形式。
3.3.1 數據挖掘研究的主要內容
數據挖掘所發現的知識最常見的有以下四類。
(1)廣義知識
廣義知識指類別特征為概括性描述的知識,是根據數據的微觀特性發現其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多,如數據立方體、面向屬性的歸約等。
(2)關聯知識
關聯知識是指反映一個事件和其他事件之間信賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規則發現方法是R.Agrawal提出來的Apriori算法。
(3)分類知識
分類知識是反映同類事物共同性質的特征型和不同事物之間的差異特征型知識。最為典型的分類方法是基于決策樹的分類方法,還有統計、粗糙集(Rough Set)、神經網絡等方法。
(4)預測型知識
預測型知識根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為它是以時間為關鍵屬性的關聯知識。目前,時問序列預測方法有經典的統計方法、神經網絡和機器學習等。
此外,還可以發現其他類型的知識,如偏差型知識,它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
3.3.2 數據挖掘的常用技術
(1)神經網絡:它從結構上模仿生物神經元結構,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特征采掘等多種挖掘任務。
(2)決策樹:代表著決策集的樹形結構。
(3)規則推導:從統計意義上對數據中的“如果-那么”規則進行尋找和推導。
(4)遺傳算法:基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法的優化技術。
(5)近鄰算法:將數據集合中每一記錄進行分類的方法。這種技術通過K個與之最相近的歷史記錄的組合來辨別新的記錄。
3.4 數據倉庫和OLAP與數據挖掘的關系
數據挖掘不是必須基于數據倉庫的,數據挖掘能夠通過數據抽取、數據預處理和轉換等操作自己完成數據挖掘前的準備工作,繼而進行數據挖掘。然而這部分的工作需要耗費大量的時間和精力,而進行數據挖掘又無法避開這些操作,因此將數據挖掘工作基于數據倉庫技術來進行,能夠省去數據的前期準備等工作,大大提高數據挖掘效率。因為數據倉庫在建立的時候,已經完成了數據的抽取、轉換和加載等操作。
OLAP作為數據倉庫中的關鍵技術,其可以在使用多維數據模型的數據倉庫或數據集市上進行,充分發揮OLAP的聯機分析的功能和特性。將OLAP與數據挖掘進行結合,能夠為數據挖掘提供基礎數據支持,提高數據挖掘的效率,而且還可以實現聯機分析數據挖掘的功能。用戶常常希望穿越數據庫,選擇相關數據,在不同的粒度上進行分析,并以不同的形式顯示結果。聯機分析數據挖掘提供了在不同的數據子集和不同的抽象層上進行數據挖掘的工具,在數據立方體和挖掘的中間結果數據上進行下鉆、上卷、旋轉、切片、切塊等操作,提高數據挖掘探測性的數據分析的能力和靈活性。
采用數據挖掘與數據倉庫和OLAP技術有機結合的方式,可以使數據挖掘具有更高的實用性和高效性。
4.結 語
隨著市場競爭的日益加劇,國內外眾多商務智能軟件公司開發了數據分析和數據挖掘軟件來分析海量數據,幫助管理者穿越數據迷霧,賦予數據第二次生命,相信在不久的將來,人們在面對大量的數據時不再感到迷茫,而是能夠以用戶需要的方式重新組織這些數據,并通過對這些數據的分析,挖掘出潛在的模式,有效地預測市場的行為,做出正確的決策。
原文鏈接:http://soft.chinabyte.com/485/8665485.shtml
1.商務智能的定義
商務智能(Business Intelligence)的定義眾說紛紜,Gartner Group認為“商務智能是將數據轉換成信息的過程,然后通過發現將信息轉化為知識”;商務智能大師利奧托德認為“商務智能是將存儲于各種商業信息系統中的數據轉換成有用信息的技術,它允許用戶查詢和分析數據庫,可以得出影響商業活動的關鍵因素,最終幫助用戶做出更好更合理的決策”。
筆者在總結了商務智能的相關定義之后,將商務智能定義為:商務智能是指利用現代信息技術收集、管理和分析存儲于各種商業信息系統中的數據,使之轉換成有用信息,并以可視化的形式加以表現,使企業的各級決策者獲得知識和洞察力,促使他們做出對企業更有利的決策的技術。
目前,各個行業都面對著激烈的競爭,及時、準確的決策已成為企業生存與發展的生命線。隨著信息技術在企業中的普遍應用,企業產生了大量富有價值的電子數據。但這些數據大都存儲于不同的系統中,數據的定義和格式也不統一,商務智能系統能從不同的數據源搜集的數據中提取有用的數據,并對這些數據進行清洗,以確保數據的正確性,在對數據進行轉換、重構等操作后,將其存入數據倉庫或數據集市中;再運用適合的查詢分析工具、數據挖掘工具、OLAP工具等管理分析工具對信息進行處理,使信息變為輔助決策的知識,并將知識以適當的方式展示在決策者面前,供決策者運籌帷幄。
2.商務智能系統的基本架構
美國數據倉庫研究院把商務智能比作“數據煉油廠”,它將商務智能的應用過程描述為“數據一信息一知識一計劃一行動”的過程。
根據對商務智能的理解,借鑒美國數據倉庫研究院的“數據煉油廠”,給出商務智能系統的架構。
1)數據源層——商務智能系統的數據來源,它 存儲著系統所需的最原始的數據以及數據之間的關系,保持著歷史的真實性。
2)數據整合層——商務智能系統的根本要求,它將來自不同數據源的信息合并為相同的信息結構,消除重復、無效和界外的數據,提取、凈化和傳遞數據到為數據倉庫設立的文件中。
3)數據倉庫層——商務智能系統的基礎,是數據分析的源數據,保存著大量的、面向主題的、集成的數據。
4)數據分析層——體現系統智能的關鍵,它一般采用OLAP技術和數據挖掘技術對數據進行分析和處理。
5)數據展現層——它向商務智能環境的收益者提供實際的分析結果,同時保證系統分析結果的可視化,形式有報表、圖表、數據表等。
對商務智能系統的架構進行分析可以看出,商務智能系統對數據實行分析管理的關鍵技術如下:
3.1 數據倉庫技術
數據倉庫之父w.H.Inmon博士對數據倉庫的定義得到了大多數學者和工程人員的接受:“數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,它用以支持經營管理中的決策制定過程。”由此定義可以看出,數據倉庫具有如下特性:
(1)面向主題性
面向主題性是數據倉庫中數據組織的基本原則,數據倉庫中的所有數據都是圍繞著某一主題組織和展開的,每個主題對應一個客觀分析領域。
(2)數據集成性
數據倉庫的集成性是指根據決策分析的要求,將分散于各處的源數據進行抽取、篩選、清理、綜合等,使數據倉庫中的數據具有集成性。
(3)數據的穩定性
數據的穩定性說明數據倉庫中的數據不會像業務處理系統中的數據庫那樣進行日常的添加、修改、刪除等操作,而是很少發生更新處理,表現出相當程度的穩定性。
(4)數據的時變性
數據倉庫的時變性,即數據倉庫中的數據應該隨著時間的推移而發生變化。數據倉庫要能夠捕捉業務系統中的數據變化,定期將變化的數據追加到數據倉庫中來,還要將達到一定年限或規定時間的歷史數據進行刪除。
(5)數據的集合性
數據的集合性是指數據倉庫必須以某種數據集合的形式存儲起來,數據倉庫采用的數據集合方式主要有以多維數據庫方式存儲的多維模式、以關系數據庫方式存儲的關系模式,以及多維模式和關系模式混合的模式。
(6)決策支持作用
決策支持作用是數據倉庫一個核心的應用,建立數據倉庫的目的是將企業多年來收集到的數據按照一個統一的規則組織存儲,然后通過對海量的數據進行分析提供決策支持,幫助企業及時、準確地把握機會,以在激烈的市場競爭中取得最大的利潤。
數據倉庫技術是信息技術飛速發展的結果,它與傳統的面向操作的數據庫技術相比有很大的不同,從結構上看,數據倉庫主要包括:數據源、數據準備區、數據倉庫數據庫、數據集市/知識挖掘庫、管理工具和應用工具等部分。
數據源——數據倉庫的數據來源。
數據準備區——數據源中的數據經抽取、轉換最終成為數據倉庫所需要的數據。
數據倉庫數據庫——負責存儲用于分析、決策的數據,包含對元數據的管理。
數據集市/知識挖掘庫——局部數據倉庫或部門數據倉庫,為指定的應用提供數據。
管理工具和應用工具——包括各種對數據倉庫的數據分析和數據訪問,如利用OLAP進行數據分析,數據倉庫應用程序等。
3.2 OLAP分析技術
OLAP是獨立于數據倉庫的一種技術概念,其基本思想是使得企業的管理決策人員能夠靈活地操縱企業的數據,以多維的形式從多方面和多角度觀察企業的狀態和變化趨勢。
OLAP最早是由E.F.Codd于1993年提出的,當時,Codd認為聯機事務處理(OLTP)已經不能滿足終端用戶對數據庫查詢分析的需要,SQL對大數據庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此Codd提出了多維數據庫和多維分析的概念,即OLAP。它是針對特定問題的聯機數據訪問和分析。通過對多維數據的多種可能的觀察形式進行快速、穩定、一致和交互性的存取,允許管理決策人員對數據進行深入觀察。
OLAP的多維分析是指對多維數據集中的數據用切片(二維)、切塊(三維)、鉆取(向下鉆取和向上鉆取,鉆取的深度與維所劃分的層次相對應)、旋轉(通過旋轉可以得到不同視角的數據)等方式分析數據,使用戶從多個角度、多個側面去觀察數據倉庫中的數據。通過這種方法能夠使分析人員深入的了解數據倉庫中數據所蘊含的信息,從而挖掘隱藏在數據背后的商業模式。
在BI的建設過程中,數據倉庫和數據集市都是數據的存儲區域。都在為數據的在線分析和挖掘提供數據源。數據倉庫和數據集市主要是范圍的不同。數據倉庫面向企業的所有部門,所以它的需求是全企業范圍的,一般情況下,它的數據按照第三范式組織。數據集市是面向企業的某一個部門的,需求比較集中,以多維方式的形式管理數據。
3.3 數據挖掘技術
W.J.Frawley,G.PiatetskyShapiro等人指出,數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識,這螳知識是隱含的、事先未知的、潛在有用的信息,提取的知識可表示為概念、規則、規律、模式等形式。
3.3.1 數據挖掘研究的主要內容
數據挖掘所發現的知識最常見的有以下四類。
(1)廣義知識
廣義知識指類別特征為概括性描述的知識,是根據數據的微觀特性發現其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。廣義知識的發現方法和實現技術有很多,如數據立方體、面向屬性的歸約等。
(2)關聯知識
關聯知識是指反映一個事件和其他事件之間信賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規則發現方法是R.Agrawal提出來的Apriori算法。
(3)分類知識
分類知識是反映同類事物共同性質的特征型和不同事物之間的差異特征型知識。最為典型的分類方法是基于決策樹的分類方法,還有統計、粗糙集(Rough Set)、神經網絡等方法。
(4)預測型知識
預測型知識根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為它是以時間為關鍵屬性的關聯知識。目前,時問序列預測方法有經典的統計方法、神經網絡和機器學習等。
此外,還可以發現其他類型的知識,如偏差型知識,它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
3.3.2 數據挖掘的常用技術
(1)神經網絡:它從結構上模仿生物神經元結構,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特征采掘等多種挖掘任務。
(2)決策樹:代表著決策集的樹形結構。
(3)規則推導:從統計意義上對數據中的“如果-那么”規則進行尋找和推導。
(4)遺傳算法:基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法的優化技術。
(5)近鄰算法:將數據集合中每一記錄進行分類的方法。這種技術通過K個與之最相近的歷史記錄的組合來辨別新的記錄。
3.4 數據倉庫和OLAP與數據挖掘的關系
數據挖掘不是必須基于數據倉庫的,數據挖掘能夠通過數據抽取、數據預處理和轉換等操作自己完成數據挖掘前的準備工作,繼而進行數據挖掘。然而這部分的工作需要耗費大量的時間和精力,而進行數據挖掘又無法避開這些操作,因此將數據挖掘工作基于數據倉庫技術來進行,能夠省去數據的前期準備等工作,大大提高數據挖掘效率。因為數據倉庫在建立的時候,已經完成了數據的抽取、轉換和加載等操作。
OLAP作為數據倉庫中的關鍵技術,其可以在使用多維數據模型的數據倉庫或數據集市上進行,充分發揮OLAP的聯機分析的功能和特性。將OLAP與數據挖掘進行結合,能夠為數據挖掘提供基礎數據支持,提高數據挖掘的效率,而且還可以實現聯機分析數據挖掘的功能。用戶常常希望穿越數據庫,選擇相關數據,在不同的粒度上進行分析,并以不同的形式顯示結果。聯機分析數據挖掘提供了在不同的數據子集和不同的抽象層上進行數據挖掘的工具,在數據立方體和挖掘的中間結果數據上進行下鉆、上卷、旋轉、切片、切塊等操作,提高數據挖掘探測性的數據分析的能力和靈活性。
采用數據挖掘與數據倉庫和OLAP技術有機結合的方式,可以使數據挖掘具有更高的實用性和高效性。
4.結 語
隨著市場競爭的日益加劇,國內外眾多商務智能軟件公司開發了數據分析和數據挖掘軟件來分析海量數據,幫助管理者穿越數據迷霧,賦予數據第二次生命,相信在不久的將來,人們在面對大量的數據時不再感到迷茫,而是能夠以用戶需要的方式重新組織這些數據,并通過對這些數據的分析,挖掘出潛在的模式,有效地預測市場的行為,做出正確的決策。
原文鏈接:http://soft.chinabyte.com/485/8665485.shtml
總結
以上是生活随笔為你收集整理的BI(商务智能)系统简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 构建一个可行的BI系统的造价是多少,实施
- 下一篇: linux进程退出没有log,Linux