史上最全企业数据产品选型对比(含数仓、报表、BI、中台、数据治理)
前言
這個從上至下都在強調數字化轉型的時代,越來越多公司重視數據,也越來越多的企業有數據建設的需求。
企業無論做任何數據工作,必然要有一定的信息化基礎,也要有數據化建設的基礎,少不了數據平臺、數據應用工具,數據管理工具等
關于企業數據建設這塊,本人從事了近7年,從技術到項目管理,做過乙方也做過甲方,也有多年和各乙方廠商打交道的經驗,遂來分享選型“內幕”。
涉及到的產品有:數倉、大數據平臺、報表、BI、數據中臺、數據治理等。
?
數倉
數據倉庫算是一個解決方案,視企業需求有不同架構(傳統數倉、數據集市、大數據平臺等),架構下有很多分層和組件,比起工具更需要架構師能力,具體原理就不講了。關于數倉的選型主要涉及:數據存儲方案、ETL、還有前端應用。
底層的數據倉庫服務器通常是一個關系數據庫系統,常用的方案有Oracle、db2、還有greenplum、teredata等數據倉庫專業解決方案。
傳統的關系型數據庫有:oracle、mysql、DB2。
大規模并行處理數據庫:Vertica、Teradata(商業)、Greenplum (開源)。
Teradata老江湖了,銀行業使用較多,但成本也是真的貴,目前我們做項目較多的是用Greenplum,算是業界最快和最高性價比的高端數據倉庫解決方案,Greenplum是基于PostgreSQL的,于2015年開源。我知道的國內四大行有3家在用,5大物流公司有4家在用,不少公司在從Teradata遷移到GP。
大數據平臺主流的是:Hadoop+Hive。這套方案有多通用不用多說了,后面說到的大數據平臺廠商也大多基于這個來設計平臺產品。
ETL工具,kettle、Tablend和Penthao用的較多。
Talend:基于Eclipse,具有很好的擴展性、穩定性以及可定制化(可以自己開發eclipse插件),并且服從Eclipse標準(如文件目錄結構都是程序員熟悉的結構)。Talend具有很好的嵌入性,因為它生成的是Java代碼,這些代碼可以很好的和其他系統結合在一起,這就要求使用者會java。
Penthao是一個老牌工具,2001年就發布了第一個版本,Kettle是Penthao整個解決方案的一個組件,用來進行數據集成。它也是基于java開發的,但是它不要求用戶會java,將底層實現細節都隱藏了。主要的缺點是和talend相比,它的擴展性較差。由于它很難擴展,所以在社區中可用的組件就比較少。
前端應用工具主要就是報表、BI和數據挖掘,前兩者的選型后面會細講。
?
?
大數據平臺
2013年左右,Hadoop體系的不斷完善,標志著大數據應用場景可以被滿足了。這時候就有前沿的一些企業開始做大數據平臺,廠商特別多,主流的就說3個吧,華為、星環還有新華三。
這幾年這些廠商也開始往“數據中臺”的概念上走。但是畢竟是傳統軟件廠商,有點搞不太懂互聯網公司提的“數據中臺”到底是啥,貌似跟他們做的大數據平臺沒啥區別。
其實所有大數據平臺都已經具備了“數據中臺”的基礎能力,你拿大數據平臺和數據中臺的產品對一下,其實各種底層架構和功能大體都一樣,對于大部分企業來講,中臺那一套還是適合互聯網運營商銀行的“有錢主”,“數據巨無霸”,真的中臺更強調數據服務化,但普通企業有幾家真的達到這個痛點,還是老老實實做好數據化管理吧。
如果你的公司有龐雜的業務系統,數據量達到PB級,海量數據的存儲、計算的需求,三個里面選型吧,對比下方案。
?
?
報表
現在還在做報表的廠商已經很少了,國內主流的就帆軟finereport和潤乾,起初很火的水晶報表最近也見的少了,還有開源的工具jaspereport也用的挺多。
選型方面,普通小公司,1~2個數據工作者,建議采購一個報表平臺就行了,不用急著上BI。
帆軟finereport功能齊全,生態和服務很好,招報表工程師也比較好招,價格比其他廠商略貴,品牌和服務溢價也能理解,畢竟國內top1。
潤乾已被帆軟打壓的走低價,號稱一套萬把塊錢,應該還會按并發抬價,還不算服務和項目實施,乙方可以考慮。
?
?
BI平臺
BI在零幾年的時候都是國外市場的天下,BO、Brio、Cognos、MSTR等,都是老牌BI廠商,我做純技術的時候就大量使用他們的產品。東西都不便宜,而且是按產品+用戶雙重收費,不太劃算。架構也是真的復雜,上手難度對比現在互聯網時代產品的使用風格,也是確實難。
早期國內市場只有報表,但凡BI相關的大單都被國外廠商壟斷,但是后面BI的需求越來越明顯,就和當初信息化產業發展類似,中小型企業的需求逐漸顯露。于是國內也就開始發展BI了,比如帆軟BI、BDP等。東西也不差,價格比國外的美麗多了,而且基本都只是限定服務器,不限定用戶數,怎么用都OK。再到后來,tableau、powerBI這倆工具型產品火了起來,有很多擁護的個人使用者,上手確實好用,但是在企業級應用場景,要看性能和并發成本,就見仁見智了。
不過用BI,就不是2、3個人的事情了,必須得建數倉,然后再做各種可視化、多維分析等。所以就得有數倉工程師、ETL工程師、BI工程師等崗位。當然,你要是牛,一個人全兼了也沒問題,很多單位招人也確實要兼做。
中大型公司,有好幾個業務系統的,建議采購BI系統,什么數倉、指標體系、固定報表、多維分析、數據可視化就都有了。建設期得多幾個人,建好之后就很舒服了,業務固定的話,留兩個人維護就OK了。
?
?
?
數據中臺
“中臺”的概念就是阿里推廣開的。阿里從SuperCell學過來這一套,然后化為阿里內功后,再向外推廣。“數據中臺”也是那時候一起推廣出來的。所以主要的廠商都是阿里系的人出來創業的公司。
袋鼠云、數瀾、奇點云都是阿里的P9出來創辦的公司,技術都差不多。
袋鼠云是阿里DBA團隊出來的,比較雞賊,牢牢的跟阿里綁死,阿里接單,袋鼠云干活,跟在阿里后面。
數瀾是阿里產品團隊出來的,產品設計的比較ok,宣傳的也很不錯,業務開展的風生水起。
奇點云是阿里數倉和數加團隊出來的,貌似宣傳的沒上面兩個強,接觸不多。(數加是阿里自己的產品)
如果你們公司業務復雜,數據量巨大,關鍵是業務方面有多個客戶應用場景,數據交互效率低,需要大量的客戶數據價值發現,需求也很緊迫,那可以考慮研究下中臺方案。
?
?
?
最后總結
1、報表平臺解決固定報表、自動化報表,支持打印和計算等大批量批處理作業,公司有需求直接用帆軟一類的平臺解決,配1、2個報表工程師就能搞定了。
2、BI平臺是在報表平臺上增加解決多維分析、自助查詢報表的能力,需要數倉團隊做底層數據支撐,需要BI工程師設定各種度量、維度,做多維分析報表;不用一張張的做固定報表了;
3、大數據平臺是在BI平臺基礎上,解決大數據量的存儲、計算、實時計算的問題;無需關注底層的海量數據存儲、計算、實時計算等問題;需要增加大數據工程師進行集群的維護,基于大數據平臺的各種開發工作。
4、數據中臺是在大數據平臺基礎上,提供ID打通、統一模型、統一服務的能力,附加標簽工廠、用戶分析等偏互聯網屬性的功能。人員需要增加數據中臺產品經理,其他的工作還是由大數據工程師、大數據分析師等完成。
5、數據治理能力是從BI平臺就開始有了,在大數據平臺和數據中臺中不斷被強化。所以BI平臺、大數據平臺、數據中臺中都有數據治理的能力。在數據中臺中還增加了數據資產和計費的概念和能力。
總結
以上是生活随笔為你收集整理的史上最全企业数据产品选型对比(含数仓、报表、BI、中台、数据治理)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神东煤矿:煤矿管控难?且看帆软如何助力其
- 下一篇: C语言和其他语言的不得不说的差别!