数据又多又散,“孤岛困境”怎样破局?
導讀:企業數據指的是企業內部員工及其合作伙伴跨越不同部門、不同地點而共享,跨越不同大洲而傳播的數據。這些數據對企業具有很高的價值,包括財務數據、業務數據、員工個人數據等,企業花費了大量時間和金錢來保證數據在各方面的安全和質量。
?
然而,所謂的企業數據從當前狀態變得日漸陳舊,雖然以某種形式進行存儲,但是難以進行分析和檢索。這些數據有著重大的意義,企業需要有一個專門的地方來分析它,以挖掘各種潛在的商機,這就是數據湖產生的原因,也是本文主要探討的問題。
?
作者:湯姆斯·約翰 潘卡·米斯拉
如需轉載請聯系大數據(ID:hzdashuju)
?
?
企業數據主要分為3大類,具體如下:
?
-
主數據(master data),指的是詳細描述企業內部主要實體的數據。通過觀察主數據,可以了解企業涉及的業務。這些數據通常由不同部門管理和掌握。其他類別的數據,如后文所述,需要利用主數據來產生價值。
-
事務數據(transaction data),指的是各種應用程序(內部或外部)在處理企業內的各種業務流程時產生的數據。事務數據也包括人員相關的數據,雖然某些時候并不屬于業務數據,但這部分數據也非常重要。分析這部分數據,可以幫助企業優化業務。這些數據也依賴于主數據,并經常引用主數據。
-
分析數據(analytic data),實際上指的是來源于前兩類數據的數據。這部分數據是對企業中的各種實體(主數據)的深入分析,同時結合事務數據,為企業提供積極的建議,經過必要的調研之后,這些建議可以被企業采納。
?
前面已經解釋過這些類型的數據對企業的重要性,大多數企業都有管理這幾類數據的機制,通常叫作企業數據管理(Enterprise Data Management,EDM)。
?
圖1-2顯示了各種類型的企業數據以及它們是如何相互影響的。
?
▲圖1-2 不同類型的企業數據
?
如圖1-2所示,事務數據和分析數據都利用了主數據。分析數據也依賴于事務數據,并根據不同客戶的需求進行有意義的分析。
?
?
01 企業數據管理
?
組織具有能夠精確定義數據、輕松集成數據和同時為內部應用和外部通信檢索數據的能力。
?
——維基百科
?
EDM強調數據的精確性、粒度和含義,關注數據內容如何整合到業務應用程序中,以及數據如何從一個業務流程轉移到另一個業務流程。
?
——維基百科
?
正如維基百科的定義中明確指出的那樣,EDM是定義了企業數據如何存儲、存儲的位置以及使用哪些技術來存儲和檢索這類數據的一整套策略。
?
此類數據價值巨大,必須處于正確的控制下以保證安全,并且需要以明確的方式進行掌握和管理。EDM還定義了數據如何與內部和外部的應用程序進行通信。此外,數據交換的相關政策和流程也必須明確。
?
對企業來說實現EDM非常容易,但實際上卻是困難重重。一個企業有多個部門,每個部門都產生數據;基于這些部門的重要性,它們所產生的數據與整個組織密切相關。
?
由于彼此處境不同,不同數據的所有者在EDM中有著不同的利益點,這會產生沖突,從而給企業帶來危害。這就需要在EDM中制定各種政策和程序來明確數據的所有權。
?
?
02 企業中數據如何存放
?
企業數據以原始數據格式、二進制文件(圖片和視頻)等形式存儲,存放的位置可以是各種內部應用程序的持久化存儲,也可以存放到外部的私有或公有的云平臺中。首先,需要對數據類型進行劃分。按照數據存放位置劃分如下:
?
-
內聯網(企業內部)
-
互聯網(企業外部)
?
另一種方式是按照數據存儲的格式劃分,具體如下:
?
-
持久化存儲引擎(RDBMS或者NoSQL)
-
傳統的數據倉庫(基于RDBMS、NoSQL等)
-
文件存儲
?
下面進一步詳細介紹這些數據類型。
?
1. 內聯網(企業內部)
?
企業數據存放在自己的私有網絡,即內聯網中。
?
企業內部的各種應用程序也運行在私有網絡中,并且只有指定的人員才能訪問。因此,從這些應用程序獲取的數據能以安全和私密的方式存儲于企業內部。
?
這些應用產生的數據可能是員工數據,也可能是日常使用中產生的事務數據。
?
企業用來構建內聯網的技術包括局域網(LAN)和廣域網(WAN)。此外,企業內部還有多個應用平臺可以使用,數據可以以結構化方式存儲在不同的存儲引擎中,例如,傳統的RDBMS和NoSQL數據庫。除了這些存儲引擎,還有以各種文件形式存放的非結構化數據。
?
另外,大數據企業都有傳統的數據倉庫,用來存放清洗后的數據以備分析之用。
?
2. 互聯網(企業外部)
?
大約從近10年開始,大多數企業都擁有自己的數據中心,幾乎所有的企業數據都存放于此。伴隨云計算的發展,企業開始把一些數據存放到私有數據中心以外的云平臺上,加上健全的安全控制,未經授權的人根本接觸不到這些數據。
?
采用云服務的方式能極大地降低企業的運營成本,這是云服務最大的優勢。本文將進一步介紹這個領域,包括更細粒度的類別劃分。
?
2.1 云托管業務應用程序
?
云計算供應商提供了各種服務,如SaaS、PaaS、IaaS等,企業可以把業務應用程序托管到云中,同樣也能滿足企業管理的需求。因此,許多企業選擇把內部開發的應用程序托管到這些云計算提供商。
?
員工使用這些部署在云中的應用程序,進行日常的一些操作,這和操作部署在企業自有的數據中心中的應用沒有區別。
?
?
2.2 第三方云計算方案
?
如今這么多公司把自身的應用/服務托管到云端,這些應用/服務用起來就跟部署在本地一樣,但是企業不必考慮維護和管理應用/服務所需的基礎架構。這些僅僅依賴云端環境的產品,最吸引企業的一點是它們的收費方式。
?
基于這個優點,企業傾向于選擇這些云產品,同時也由于云產品的先天特點,企業現在也將數據(業務相關)存儲在其他的云設施中,即使云提供商完全掌控了這些數據。
?
Google的BigQuery就是這樣一款云服務軟件,用戶可以把數據導出到云服務中,然后運行這個軟件來進行各種分析工作。
?
這類產品有一個優點,就是我們可以根據分析的結果來決定是否保留這些數據。云服務具有天然的可伸縮性(硬件層面隨意擴展和收縮的能力),如果數據分析很復雜,可以臨時申請性能強勁的服務器,分析結束之后又可以把服務器的配置恢復到此前的水平。
?
當前階段,類似的解決方案仍在不斷地涌現,本文不再一一羅列。
?
與SaaS的方式類似,云端還有很多業務應用程序也可以作為服務對外提供。Salesforce就是這樣的一個例子。
?
本質上,Salesforce是一個客戶關系管理(CRM)的解決方案,但是它還集成了很多其他特性。筆者在這里并不是想幫助推銷Salesforce,但是希望介紹一些云端業務應用的重要特性。Salesforce將所有的客戶信息匯總到一起,幫助企業從銷售、業務分析和客戶服務等幾個維度來構建以用戶為中心的商業模式。
?
因為部署在云端,Salesforce也帶來了很多云端SaaS的特性。
?
隨著云服務對企業的影響越來越大,現在大量企業把數據存儲在互聯網(云)上,同時,這些云服務要明確保護客戶隱私和其他共同權益,以捍衛企業的商業目標。
?
2.3 社交數據(結構化與非結構化)
?
如今,企業的社交關系變得至關重要,即使企業的數據并沒有存儲在社交網站上,它仍然包含了豐富的信息,這些信息來自企業業務和其服務的真實客戶。
?
用戶在社交網站上留下各種評價和建議,企業可以利用這些數據重塑自己的業務和與用戶互動的方式。
?
如果企業忽視此類信息,很可能會損害企業的聲譽和品牌。現在企業非常重視社交網站,因為這些網站上即使沒有企業的數據,也有客戶的評價信息,在某種程度上,這些信息代表了客戶對品牌的認知。
?
于是,我們傾向于將這部分數據歸類為非企業用戶提供的企業數據。在分析這類數據時,需要特別關注大數據的第4個V(見圖1-3),即精準性。因為有些人會利用這個渠道,在與企業進行業務往來時,獲得一些不正當的優勢。
?
另一個對企業數據進行分類的方式是按數據最終的存儲方式。
?
▲圖1-3 大數據的4V
?
3. 數據持久化存儲(RDBMS或者NoSQL)
?
無論是在企業內部(企業基礎架構)還是在云服務中,數據通常都以結構化數據的方式存儲在所謂的傳統RDBMS或者新一代NoSQL持久化存儲中。數據通過業務應用程序寫入這些存儲系統,絕大部分數據在本質上是不相關的,企業可以很容易理解這些數據。
?
數據存儲在傳統的RDBMS類存儲系統中時,會遇到的一個常見的問題,即數據量超出了可接受的范圍。在這種情況下,對數據進行分析將耗費大量的時間和精力。
?
因此,企業被迫將數據分拆為生產數據(數據可以被業務應用查詢和使用)和非生產數據(從生產系統轉移到另外的存儲系統中的離線數據)。
?
由于這種拆分,數據分析通常跨越若干年,這種分析并不能覆蓋到企業的全部業務因素。
?
舉例來說,如果生產系統中有5年的銷售數據,而非生產系統存儲了15年的銷售數據,那么用戶在進行銷售數據分析時,只能查看過去5年的數據。可能存在周期剛好為5年的變化趨勢,只有對20年的銷售數據進行分析才能發現。
?
大多數時候,由于RDBMS的局限,存儲和分析海量數據是不可能的。即使勉力為之,這種分析也十分耗時,也不能給分析師提供足夠的靈活性。這樣一來,分析師只能進行有限的分析,如果企業正在通過這些數據來調整業務流程,那么可能會給企業帶來大麻煩。
?
新一代NoSQL(該領域中不同的數據庫具有不同的功能)讓數據分析更靈活,同時存儲數據的量也大大增加。這些存儲滿足了分析師們在性能以及其他某些方面的需求,但是在一些方面仍然存在不足。
?
即使數據存儲在一個業務應用中,各種業務應用的數據并沒有匯聚成一個單一的視圖,而建設一個合適的數據湖能幫企業解決這種問題。
?
?
4. 傳統的數據倉庫
?
由于生產系統的業務應用獲取的數據量巨大,幾乎所有的時間里,生產系統的數據都與非生產系統分離。非生產系統的數據通常存儲在不同的區域中,并保存在不同的數據存儲系統(通常是RDBMS或者NoSQL)中,這種存儲系統就是所謂的數據倉庫。
?
通常來說,根據數據分析師的需求,數據會被相應地清洗和刪除。刪除部分數據會限制分析師能執行的分析的類別。大多數情況下,都會有隱藏的有價值的數據尚未進入數據倉庫,這就會導致更多的分析,而企業可以基于這些分析來調整業務;然而,此類數據清理和刪除可能會扼殺潛在的創新。因此這方面需要改進。
?
而數據湖使得分析師可以引入生產系統中的任意業務應用數據,并根據具體情況進行各種分析。
?
目前,構建這類數據倉庫的方案是通過ETL(Extract,Transform,Load,即抽取、轉換、加載),從生產系統的數據庫提取數據并保存到數據倉庫中。ETL流程會根據分析師的需求來清洗數據,而分析師會在數據倉庫中進行各種分析。
?
5. 文件存儲
?
業務應用程序在不斷地變化,新的應用允許終端用戶以各種格式獲取數據,而不僅僅限于從鍵盤輸入的格式化數據。
?
終端用戶另一種輸入數據的渠道是提交不同格式的文檔。其中一些眾所周知的格式如下:
?
-
文檔(PDF、DOC、XLS等)
-
二進制
圖片(JPG、PNG等)
音頻(MP3、RAM、AC3)
視頻(MP4、MPEG、MKV)
?
正如前文中介紹的那樣,處理結構化數據本身就是一個大問題,現在又引入了非結構化數據的分析。但是,分析非結構化數據與分析結構化數據同等重要。通過構建數據湖,我們可以圍繞數據湖引入新的技術,利用大數據領域最新和最好的技術,可以從非結構數據中挖掘到巨大價值。
?
除了各種文件格式的數據,有很多應用允許終端用戶以語句的形式獲取大量數據,這部分數據也需要分析。手動處理這些來自終端用戶的評論數據是一項艱難的任務,在現代化的今天,需要的是自動化地解析這些評論,并了解用戶的觀點。同樣,有很多這樣的技術可以理解這些數據(如自由文本流),讓企業能夠正確地處理它。
?
舉例來說,假如我們有一個獲取企業建議的系統,每天能獲取近1000條建議,由于該業務的天然屬性,很難對這些建議進行過濾分析。
?
這種場景中,我們可以利用一些技術來對這些評論進行情感分析,然后根據這些分析工具給出的評分進行初步的過濾,再將篩選后的建議交給能夠理解和利用這部分數據的人來處理。
?
?
?
03 企業現狀
?
企業數據當前的狀態可以總結為以下幾點:
?
1. 傳統DW(Data Warehouse)/BI(Business Intelligence)
?
-
使用ETL清洗來自生產業務應用的數據。
-
早于一定時間的數據會轉移到另外的存儲系統(如磁帶)中,但是很難對這部分數據進行檢索。
-
一些顯著的缺陷:
數據倉庫中保存的是清洗后的生產數據的子集;在數據倉庫中添加任何數據元素都需要付出代價。
數據倉庫中保存的是全量數據的一個子集,其余數據會轉存到另外的持久存儲系統中去。
-
通常分析速度較慢,即使對查詢做了一定程度的優化。
?
2. 大數據孤島
?
-
一些部門在建設大數據時采取了正確的措施。但是部門間通常不會互相協作,這些大數據平臺就成了孤島,并沒有真正給企業帶來價值。
-
一些顯著的缺陷:
大數據平臺的孤立性再次限制了分析師,使得分析師們無法跨部門整合和查詢數據。
需要大量資金來構建、維護、管理這些數據孤島,時間一長就難以為繼。
?
3. 大量非連接應用
?
-
在企業內部和云服務中部署大量應用程序。
-
除了產生結構化數據,應用程序也產生非結構化數據。
-
一些顯著的缺陷:
互相沒有通信。
即使有通信,數據科學家們既不能有效地利用這些數據,也不能對企業進行有益的改進。
各個業務應用在多個方面重復使用各種技術。
?
這里并不是說投資構建數據湖是解決上述所有缺陷的“銀彈”。但是這個方向一定是正確的,企業至少應該花時間去思考是否確實需要數據湖,如果答案是肯定的,就不要過多考慮,直接著手去構建。
?
構建數據湖是企業的一項戰略級決策,在構建時需要所有相關人員的認可與支持,而且需要高管層投入精力關注這個項目。基于數據湖,企業一定能找到改進業務流程的方法。它能讓高管人員更深入地了解業務,同時也能提升決策的成功率。
?
?
?
04 企業數字化轉型
?
數字化轉型指的是應用數字化技術,從根本上影響商業和社會的方方面面。
?
——infoworld.com
?
數字化轉型(DX)是一個流行的行業術語,每個企業都毫不猶豫地跟隨了這個趨勢。這個術語指的是企業向以信息技術為核心轉型。技術領域的投入是這項轉型的一部分,但數據才是轉型的關鍵。
?
近年來,企業越來越多地認識到數據和數據分析的重要性,這無疑讓企業有了新思維。這種轉型就是一種以數據為中心的實踐。
?
作為商業轉型的一部分,企業絕對應該把數據湖列入重點投入項目列表,所有部門都應該欣然將數據歸集到數據湖來完成數據共享,而不能對它存有偏見。
?
-
企業轉型之路
?
埃森哲互動曾經委托Forrester咨詢公司進行過一項研究,該研究表明數字化轉型的關鍵驅動力是提升盈利能力、客戶滿意度和產品迭代速度。
?
實際上,很多企業已經走上了數字化的轉型之路。數字化轉型不再是一句空話,很多企業正竭力轉向把技術作為驅動力之一,而另一個驅動力,就是數據。
?
轉型中的企業有明確的目標。當然,這些目標與它們所處的具體行業有關。但是有些目標是公共的,具體如下:
?
-
從根本上改善客戶體驗。
-
削減成本。
-
增加收入。
-
差異化競爭。
-
調整業務流程,反過來改善商業模式。
?
以下是轉型目標舉例,關于企業在該領域希望達到的目標,有一系列清晰的例子,部分如下:
?
-
能夠對客戶進行細分并提供個性化的產品。在恰當的時間向合適的客戶推送廣告。
-
引進更多的技術,減少體力勞動,企業實現全方位數字化。
-
結合社交信息和企業自身數據,為決策提供支持。
-
以更為量化的方式預測未來,并采取必要措施,提前做好預案。
-
以技術為重要載體實現業務全球化。
?
下文將詳細介紹企業在數字化轉型中希望實現的一個用例,其中數據是主要的貢獻因素。
?
?
?
05 數據湖用例啟示
?
數據在企業中的重要性已經顯露無遺。當今企業所面臨的問題是如何從這些數據中挖掘有用信息來優化自身的業務。
?
即便數據能夠以某種方式匯聚到一起,也很難在合適的時間內處理數量如此巨大的數據。這時數據湖進入了人們的視野。在大數據(ID:hzdashuju)此前的文章中曾全面而詳盡地介紹數據湖到底是什么。下文將介紹一個以數據湖為中心的用例。
?
基于現代技術構建數據湖有很多優勢,其中一些如下:
?
-
通過各種數據分析,企業能找到業務中重要的人員和流程,也能深入了解各類客戶。
-
企業能在適度的時間范圍內完成這些分析,而不用等待幾周甚至幾個月。
-
業務用戶能快速分析數據,進而快速調整業務流程。
?
這個用例叫作單一客戶視圖(Single Customer View,SCV)。單一客戶視圖是業內眾所周知的術語,它有很多種定義,下面是其中之一:
?
單一客戶視圖是組織或企業的客戶數據的一種聚合的、一致的及全面的表示。
?
——維基百科
?
企業將客戶數據保存在不同的業務應用中,這會導致不同程度的數據孤島現象。該用例旨在將這些不同來源的數據整合到一起,提供給分析人員查看,從而創建一個包含所有數據的客戶視圖。通過這個視圖,企業能對客戶進行細分,進而向客戶進行精準廣告投放。
?
這個用例對企業的意義可以歸納為如下幾點:
?
-
客戶細分。
-
信息整合。
-
增進客戶關系,避免客戶流失。
-
更深入的分析等。
?
從概念上講,圖1-5中總結了我們計劃實現的用例。結構化、半結構化和非結構化數據都被灌入數據湖。單一客戶視圖從數據湖中以整體性方式被導出。該用例會引入各類數據,也會詳細描述各種類型的數據樣本。之所以這樣做,是因為這樣可以充分利用數據湖,同時也更為接近真實情況。
?
圖1-5中顯示了數據湖從各種數據源(多樣性),以不同的速度獲取不同數量級的數據。更多地,這是一個概念性的抽象視圖,本文篇幅有限,如需了解更詳細的內容可閱讀《企業數據湖》一書,你將會確切知道它具體指代的是什么。
?
?
▲圖1-5 SCV數據湖用例的概念視圖
?
關于作者:湯姆斯·約翰(Tomcy John)是一名企業級Java技術專家,擁有工學學士學位,并且有超過14年多行業的開發經驗。
潘卡·米斯拉(Pankaj Misra)是一名技術傳播者,擁有工程學士學位,并且有超過16年跨多個業務領域的技術經驗。
本文摘編自《企業數據湖》,經出版方授權發布。
?
延伸閱讀《企業數據湖》
點擊上圖了解及購買
轉載請聯系微信:togo-maruko
?
推薦語:從軟件工程師、架構師角度出發,手把手教企你為業構建自己的數據湖。“數據湖”已經成為大數據行業的一個重要術語,它是數據科學家們獲得有意義的洞察力的平臺,這些洞察力可以被企業用來重新定義或改變它們的運營方式。
?
?
據統計,99%的大咖都完成了這個神操作
▼
?
?
更多精彩
?
在公眾號后臺對話框輸入以下關鍵詞
查看更多優質內容!
?
PPT?|?報告?|?讀書?|?書單?|?干貨?
大數據?|?揭秘?|?Python?|?可視化
人工智能?|?機器學習?|?深度學習?|?神經網絡
AI?|?1024?|?段子?|?區塊鏈?|?數學
?
猜你想看
?
-
從數據角度看,每家公司只有2種角色:看看你更適合哪一種?
-
實用干貨:7個實例教你從PDF、Word和網頁中提取數據
-
怎樣教一臺計算機區分貓和狗?一文零基礎入坑機器學習
-
什么是數據湖?有什么用?終于有人講明白了……
?
?
Q:?數據分析過程中你都遇到過哪些困難?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
點擊閱讀原文,了解更多
總結
以上是生活随笔為你收集整理的数据又多又散,“孤岛困境”怎样破局?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎样教一台计算机区分猫和狗?一文零基础入
- 下一篇: 重磅盘点!过去一年里最受欢迎的技术干货,