【转】一文读懂数据分析平台的架构与设计
生活随笔
收集整理的這篇文章主要介紹了
【转】一文读懂数据分析平台的架构与设计
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
數(shù)據(jù)分析平臺的搭建從規(guī)模上分類,確定企業(yè)規(guī)模,明確合作點,非常重要。
以服裝行業(yè)為例,大型企業(yè)如波司登,本身的大數(shù)據(jù)系統(tǒng)架構(gòu)已經(jīng)完善,數(shù)據(jù)分析平臺(報表/商業(yè)智能軟件)在整個系統(tǒng)架構(gòu)下的角色定位為“工具”更合適,發(fā)揮工具易用、高效開發(fā)、交互性強,穩(wěn)定等優(yōu)點。
中小型企業(yè)從成本上考慮,并沒有成熟的架構(gòu)以及大量的投入。對于整合數(shù)據(jù),構(gòu)建數(shù)據(jù)中心報表系統(tǒng),我們可以進(jìn)行合理規(guī)劃,控制整個項目建設(shè)和運維成本,從而能夠達(dá)成更好的合作。
在時尚業(yè)行業(yè)中,對于各個分店的有效管理,如何構(gòu)建合理高效的報表中心變得非常關(guān)鍵。這里從兩方面講述,系統(tǒng)架構(gòu)和技術(shù)實現(xiàn)方式,主要是鞋服行業(yè),其他行業(yè)僅供借鑒。
首先是系統(tǒng)架構(gòu),從架構(gòu)上分為分店管理系統(tǒng)(ERP和POS)及數(shù)據(jù)庫、服務(wù)器和應(yīng)用層客戶端。系統(tǒng)架構(gòu)如圖:
(1)分店管理系統(tǒng)及數(shù)據(jù)庫。分店使用管理系統(tǒng)管理本店進(jìn)銷存業(yè)務(wù)及相關(guān)管理工作,并定期按需將各個分店數(shù)據(jù)上傳至云端服務(wù)器。
(2)服務(wù)器。構(gòu)建服務(wù)器集群。數(shù)據(jù)分散在不同的服務(wù)器主機上可以并行存取,提高了數(shù)據(jù)的存取速度。服務(wù)器負(fù)責(zé)存儲分店采集的各種數(shù)據(jù),并以這些數(shù)據(jù)為基礎(chǔ)構(gòu)建數(shù)據(jù)倉庫。再部署帆軟數(shù)據(jù)分析平臺,將處理結(jié)果給返回客戶端,供業(yè)務(wù)層和決策層使用。
(3)應(yīng)用層客戶端。應(yīng)用層客戶端分為決策和統(tǒng)籌管理兩部分。決策層根據(jù)所獲得的報表、圖形和走勢圖等來支持其決策。設(shè)置一個統(tǒng)籌管理的職能部門,統(tǒng)籌各分店統(tǒng)一促銷,暢銷商品管理和會員行為分析。企業(yè)通過云改變了以前處理數(shù)據(jù)和接入數(shù)據(jù)的方式,數(shù)據(jù)更集中,數(shù)據(jù)一致性更強,數(shù)據(jù)質(zhì)量提高,分店之間的聯(lián)系更緊密更便捷,在這種環(huán)境下,企業(yè)的決策依據(jù)將更準(zhǔn)確。
(4)服務(wù)器的構(gòu)建。架構(gòu)如圖,ETL工具通過遠(yuǎn)程訪問。各個分店的服務(wù)器完成數(shù)據(jù)收集的任務(wù),收集的數(shù)據(jù)是最原始的數(shù)據(jù)不做處理,先存儲在數(shù)據(jù)中心。數(shù)據(jù)中心為基礎(chǔ)數(shù)據(jù)庫,數(shù)據(jù)中心集中了所有分店的數(shù)據(jù)。數(shù)據(jù)上傳完成后繼續(xù)對數(shù)據(jù)進(jìn)行ETL處理,并將處理后的數(shù)據(jù)存入到數(shù)據(jù)倉庫。數(shù)據(jù)分析應(yīng)用程序根據(jù)客戶端的請求調(diào)用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行處理,并將結(jié)果返回給請求客戶端,同時將常用的分析按計劃定期自動分析并將結(jié)果保存到預(yù)定義分析結(jié)果模塊中。每個分店和總部的管理層都有接入云的權(quán)限,云端數(shù)據(jù)共享。作為總部,可以監(jiān)控各個分店的運營情況,作為分店可以及時了解其他分店的運行情況,借鑒經(jīng)驗并制定銷售策略。
其次是技術(shù)實現(xiàn)方式,包含數(shù)據(jù)倉庫、ETL、數(shù)據(jù)分析平臺。
數(shù)據(jù)倉庫(DataWarehouse,DW)是一個收集、組織、存儲和共享歷史數(shù)據(jù)的系統(tǒng),其中數(shù)據(jù)ETL工具(選開源工具的話,可以用Kettle)。支持多種類型的數(shù)據(jù)源,還可以將數(shù)據(jù)庫文件下載到本地進(jìn)行ETL工作。PDI分為兩個步驟,一個叫Transformation,另一個叫job,可以設(shè)定這些轉(zhuǎn)換的執(zhí)行時間和頻率,這一點對于數(shù)據(jù)倉庫的自動化更新是很有幫助。
下面聊一聊數(shù)據(jù)采集與分析。
每個分店有各自的分店管理系統(tǒng)及數(shù)據(jù)庫,根據(jù)中央服務(wù)器要求將需要的數(shù)據(jù)進(jìn)行上傳。對于零售業(yè)來說,需要上傳的數(shù)據(jù)主要包括銷售數(shù)據(jù)、會員數(shù)據(jù)、商品數(shù)據(jù)、庫存數(shù)據(jù)、調(diào)研數(shù)據(jù)等。需要預(yù)定義所需采集的數(shù)據(jù),包括數(shù)據(jù)的類型、數(shù)據(jù)結(jié)構(gòu)。對于數(shù)據(jù)庫的數(shù)據(jù),數(shù)據(jù)庫名稱、表名稱、表字段都采取統(tǒng)一格式和名稱。對于文本型數(shù)據(jù)也要統(tǒng)一格式,或以xml方式存儲。服務(wù)器收集各個分店管理數(shù)據(jù)庫的數(shù)據(jù)并對每個分店的數(shù)據(jù)標(biāo)記以區(qū)分。統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)可很大程度地提高數(shù)據(jù)采集的質(zhì)量和后續(xù)處理效率。
對于除了分店以外的數(shù)據(jù)源,如商業(yè)共享數(shù)據(jù)平臺等,需要根據(jù)實際情況設(shè)計相應(yīng)接口和采集方法,帆軟數(shù)據(jù)分析平臺內(nèi)置采集數(shù)據(jù)功能,可以非常方便根據(jù)業(yè)務(wù)情況定制數(shù)據(jù)采集模塊。 數(shù)據(jù)的分析工作在按照數(shù)據(jù)倉庫對數(shù)據(jù)的要求并選擇合適的工具對不同類型的數(shù)據(jù)進(jìn)行處理,然后保存到數(shù)據(jù)倉庫中。隨著時間的推移,數(shù)據(jù)中心的數(shù)據(jù)量會不斷增加,運用大數(shù)據(jù)工具是非常有必要的。大數(shù)據(jù)工具的主要特點是通過服務(wù)器集群中的主機并行處理數(shù)據(jù),將一個龐大的任務(wù)分解為小任務(wù)處理。
應(yīng)用程序部署到云端以后,客戶端通過瀏覽器調(diào)用相應(yīng)的功能,只需將結(jié)果返回給客戶端,在客戶端進(jìn)行數(shù)據(jù)分析結(jié)果的展現(xiàn)。針對時尚業(yè)的數(shù)據(jù)分析可以包括多個方面,比如:銷量分析、客戶購買偏好分析、商品關(guān)聯(lián)分析、精準(zhǔn)推送服務(wù)等。
以服裝行業(yè)為例,大型企業(yè)如波司登,本身的大數(shù)據(jù)系統(tǒng)架構(gòu)已經(jīng)完善,數(shù)據(jù)分析平臺(報表/商業(yè)智能軟件)在整個系統(tǒng)架構(gòu)下的角色定位為“工具”更合適,發(fā)揮工具易用、高效開發(fā)、交互性強,穩(wěn)定等優(yōu)點。
中小型企業(yè)從成本上考慮,并沒有成熟的架構(gòu)以及大量的投入。對于整合數(shù)據(jù),構(gòu)建數(shù)據(jù)中心報表系統(tǒng),我們可以進(jìn)行合理規(guī)劃,控制整個項目建設(shè)和運維成本,從而能夠達(dá)成更好的合作。
在時尚業(yè)行業(yè)中,對于各個分店的有效管理,如何構(gòu)建合理高效的報表中心變得非常關(guān)鍵。這里從兩方面講述,系統(tǒng)架構(gòu)和技術(shù)實現(xiàn)方式,主要是鞋服行業(yè),其他行業(yè)僅供借鑒。
首先是系統(tǒng)架構(gòu),從架構(gòu)上分為分店管理系統(tǒng)(ERP和POS)及數(shù)據(jù)庫、服務(wù)器和應(yīng)用層客戶端。系統(tǒng)架構(gòu)如圖:
(1)分店管理系統(tǒng)及數(shù)據(jù)庫。分店使用管理系統(tǒng)管理本店進(jìn)銷存業(yè)務(wù)及相關(guān)管理工作,并定期按需將各個分店數(shù)據(jù)上傳至云端服務(wù)器。
(2)服務(wù)器。構(gòu)建服務(wù)器集群。數(shù)據(jù)分散在不同的服務(wù)器主機上可以并行存取,提高了數(shù)據(jù)的存取速度。服務(wù)器負(fù)責(zé)存儲分店采集的各種數(shù)據(jù),并以這些數(shù)據(jù)為基礎(chǔ)構(gòu)建數(shù)據(jù)倉庫。再部署帆軟數(shù)據(jù)分析平臺,將處理結(jié)果給返回客戶端,供業(yè)務(wù)層和決策層使用。
(3)應(yīng)用層客戶端。應(yīng)用層客戶端分為決策和統(tǒng)籌管理兩部分。決策層根據(jù)所獲得的報表、圖形和走勢圖等來支持其決策。設(shè)置一個統(tǒng)籌管理的職能部門,統(tǒng)籌各分店統(tǒng)一促銷,暢銷商品管理和會員行為分析。企業(yè)通過云改變了以前處理數(shù)據(jù)和接入數(shù)據(jù)的方式,數(shù)據(jù)更集中,數(shù)據(jù)一致性更強,數(shù)據(jù)質(zhì)量提高,分店之間的聯(lián)系更緊密更便捷,在這種環(huán)境下,企業(yè)的決策依據(jù)將更準(zhǔn)確。
(4)服務(wù)器的構(gòu)建。架構(gòu)如圖,ETL工具通過遠(yuǎn)程訪問。各個分店的服務(wù)器完成數(shù)據(jù)收集的任務(wù),收集的數(shù)據(jù)是最原始的數(shù)據(jù)不做處理,先存儲在數(shù)據(jù)中心。數(shù)據(jù)中心為基礎(chǔ)數(shù)據(jù)庫,數(shù)據(jù)中心集中了所有分店的數(shù)據(jù)。數(shù)據(jù)上傳完成后繼續(xù)對數(shù)據(jù)進(jìn)行ETL處理,并將處理后的數(shù)據(jù)存入到數(shù)據(jù)倉庫。數(shù)據(jù)分析應(yīng)用程序根據(jù)客戶端的請求調(diào)用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行處理,并將結(jié)果返回給請求客戶端,同時將常用的分析按計劃定期自動分析并將結(jié)果保存到預(yù)定義分析結(jié)果模塊中。每個分店和總部的管理層都有接入云的權(quán)限,云端數(shù)據(jù)共享。作為總部,可以監(jiān)控各個分店的運營情況,作為分店可以及時了解其他分店的運行情況,借鑒經(jīng)驗并制定銷售策略。
其次是技術(shù)實現(xiàn)方式,包含數(shù)據(jù)倉庫、ETL、數(shù)據(jù)分析平臺。
數(shù)據(jù)倉庫(DataWarehouse,DW)是一個收集、組織、存儲和共享歷史數(shù)據(jù)的系統(tǒng),其中數(shù)據(jù)ETL工具(選開源工具的話,可以用Kettle)。支持多種類型的數(shù)據(jù)源,還可以將數(shù)據(jù)庫文件下載到本地進(jìn)行ETL工作。PDI分為兩個步驟,一個叫Transformation,另一個叫job,可以設(shè)定這些轉(zhuǎn)換的執(zhí)行時間和頻率,這一點對于數(shù)據(jù)倉庫的自動化更新是很有幫助。
下面聊一聊數(shù)據(jù)采集與分析。
每個分店有各自的分店管理系統(tǒng)及數(shù)據(jù)庫,根據(jù)中央服務(wù)器要求將需要的數(shù)據(jù)進(jìn)行上傳。對于零售業(yè)來說,需要上傳的數(shù)據(jù)主要包括銷售數(shù)據(jù)、會員數(shù)據(jù)、商品數(shù)據(jù)、庫存數(shù)據(jù)、調(diào)研數(shù)據(jù)等。需要預(yù)定義所需采集的數(shù)據(jù),包括數(shù)據(jù)的類型、數(shù)據(jù)結(jié)構(gòu)。對于數(shù)據(jù)庫的數(shù)據(jù),數(shù)據(jù)庫名稱、表名稱、表字段都采取統(tǒng)一格式和名稱。對于文本型數(shù)據(jù)也要統(tǒng)一格式,或以xml方式存儲。服務(wù)器收集各個分店管理數(shù)據(jù)庫的數(shù)據(jù)并對每個分店的數(shù)據(jù)標(biāo)記以區(qū)分。統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)可很大程度地提高數(shù)據(jù)采集的質(zhì)量和后續(xù)處理效率。
對于除了分店以外的數(shù)據(jù)源,如商業(yè)共享數(shù)據(jù)平臺等,需要根據(jù)實際情況設(shè)計相應(yīng)接口和采集方法,帆軟數(shù)據(jù)分析平臺內(nèi)置采集數(shù)據(jù)功能,可以非常方便根據(jù)業(yè)務(wù)情況定制數(shù)據(jù)采集模塊。 數(shù)據(jù)的分析工作在按照數(shù)據(jù)倉庫對數(shù)據(jù)的要求并選擇合適的工具對不同類型的數(shù)據(jù)進(jìn)行處理,然后保存到數(shù)據(jù)倉庫中。隨著時間的推移,數(shù)據(jù)中心的數(shù)據(jù)量會不斷增加,運用大數(shù)據(jù)工具是非常有必要的。大數(shù)據(jù)工具的主要特點是通過服務(wù)器集群中的主機并行處理數(shù)據(jù),將一個龐大的任務(wù)分解為小任務(wù)處理。
應(yīng)用程序部署到云端以后,客戶端通過瀏覽器調(diào)用相應(yīng)的功能,只需將結(jié)果返回給客戶端,在客戶端進(jìn)行數(shù)據(jù)分析結(jié)果的展現(xiàn)。針對時尚業(yè)的數(shù)據(jù)分析可以包括多個方面,比如:銷量分析、客戶購買偏好分析、商品關(guān)聯(lián)分析、精準(zhǔn)推送服務(wù)等。
總結(jié)
以上是生活随笔為你收集整理的【转】一文读懂数据分析平台的架构与设计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP ABAP SQL查询分析器
- 下一篇: 获取SAP HR模块中员工照片及照片UR