为数据而生:大数据创新实践八步骤
什么樣的企業可以稱得上是大數據企業呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google更像是一個大數據的企業,阿里巴巴也像是一個大數據的企業,而中國銀行似乎不太像一個大數據的企業,盡管它每天也一樣浸泡在海量的數據中。
關鍵詞:?大數據
成為大數據企業
什么樣的企業可以稱得上是大數據企業呢?恐怕沒有人能夠給出一個完美的答案。但是,直觀地,我們可能覺得Google更像是一個大數據的企業,阿里巴巴也像是一個大數據的企業,而中國銀行似乎不太像一個大數據的企業,盡管它每天也一樣浸泡在海量的數據中。除了具有處理大量數據的能力外,之所以Google 和阿里巴巴更像大數據的企業,是因為他們有深入的數據分析工具,利用數據分析的結果直接指導決策,而且經常推出基于數據分析的創新型應用,這還不包括類似于AlphaGo 這樣的奇葩。
這是我第三次以文字的形式談論如何成為一個大數據企業。一是很早以前在“科學網”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個版本可以看作是上兩個版本的補充和擴充,同時也是本書一些重點內容的重述(為了保證本文的獨立性,可以不依賴本書直接閱讀,少量書中給出過的文獻和注釋在本文中重復出現了)。然而遺憾的是,并沒有一條放之四海皆準的通往大數據企業的康莊大道,更沒有點石成金之術可以讓一個企業快速Google化。這篇結束語只是提出一些看得見摸得著的建議,藏在這些建議背后的大數據理念,或許更加重要。
盡管我是用Step1、Step2 這樣的說法來列舉成為大數據企業的措施,但是這些步驟之間并沒有嚴格的邏輯上誰決定誰或者時間上誰先誰后的關系。舉個例子來說,最好的辦法當然是先有了數據標準再整理采集數據,這樣可以不走任何彎路,但實際上完全沒有數據,企業不會有動力做標準建設,做出來的標準也可能是紙上談兵,完全不實用。又比如,數據管理平臺的建設能夠幫助更好地進行全面數據化,但實際上它多半是全面數據化戰略進行了一定程度之后才開始啟動建設的。總體來說,寫在更前面位置的,是更基礎的,但是沒有絕對的依賴關系。
Step 1. 全面數據化
“數據化”浪潮是整個大數據時代的起點,它強調數據就是資產,記錄一切可以記錄的數據,并相信這些數據一定會在某一天產生巨大的價值。顯然,數據化是一個企業能夠通過深入數據分析,實現自身優化的基礎。
我去長虹集團調研的時候,他們告訴我,長虹電器在自己的生產線上,通過大量傳感器,記錄生產環境的溫度、濕度、粉塵度、振動強度和噪音強度,等等,通過這些量化指標與產品質量的關聯分析,得到影響產品優品率和良品率的關鍵因素,再進一步通過控制環境因素,明顯提高了產品的優品率。企業在日常的經營管理過程中,通過辦公自動化系統(OA系統),很多內部即時通訊、郵件往來、工作分配和業務文件上傳下載等日志數據都被記錄下來了。這些數據就是寶貴的財富!正如我在書中第三部分提到的,我們通過對這些數據的分析,能夠更精確地預測員工的離職率和升職率,更精確地預測員工和部門的績效水平,幫助企業員工通過基于關聯用戶和文本智能匹配快速找到對自己現有業務和客戶有參考價值的案例和文件,等等。但是這些提升,都是建立在企業擁有相應數據的基礎上。
總的來說,全面數據化要求企業采集并存儲企業生產經營中的一切數據,形成企業數據資產的概念。
Step 2. 整理數據資源,建立數據標準,形成管理規范
很多企業已經有了一些數據儲備,或者通過第一步,開始快速積累了一些數據。但是企業管理層,尤其是跨業態擁有多家子公司的集團運營的企業,一般而言,對于自己到底有哪些數據資源是沒有清晰認識的,更拿不出一張較完備的數據目錄。
企業要做的第一步,就是通過自頂向下的方式,成立數據委員會,在有必要的時候借助外部合作方的幫助,進行全面的數據調研,了解數據資源的整體情況并建立數據資源情況更新的流程和規范。
數據資源最基本的呈現方式是一個數據目錄,我認為,企業管理團隊至少要掌握整個企業數據的3級目錄,而企業的主要技術團隊應該掌握到4級目錄。但數據資源又不僅僅是數據目錄,因為還涉及到每一個數據項的完備性、更新程度、有效性和噪音源等描述。掌握了數據資源后,企業要根據自己業務發展的需求,建立數據標準,使現有數據和未來所有的新增數據都能夠在同一個標準下統一管理,避免“信息系統建設越多,未來數據整合越難”的困境。業務中涉及大量數據的企業,尤其是涉及到用戶隱私數據、國家安全數據和具有重要商業價值數據的企業,要形成數據全流程管理的規范,因為絕大部分數據隱私和數據安全的事件,都不是從外部由黑客或者敵方特定人員通過技術手段獲得的,而是本單位人員蓄意或無意泄露的。數據全流程管理的規范就是要做到企業能夠對數據進行分級分權限的管理,隨時了解敏感數據存儲在哪些服務器和終端設備上,對于敏感數據的任何處理,都能夠留下數據日志并打上唯一的數據水印,使任何可能的數據泄露之后,都能夠追根溯源知道是哪一位員工在什么時間點在哪一臺設備上運用何種權限下載的。對于一些操作過程中出現的風險點,良好的管理規范也能夠實時發現,防患于未然。
Step 3. 建設數據管理平臺
有的讀者一聽到數據管理平臺,就認為是要花一大筆錢建設數據中心,把數據存起來。數據管理平臺肯定要有數據中心的存儲災備功能,但是它的作用遠不止此。
首先,數據管理平臺要為企業量身定做一套數據組織和管理的解決方案,特別是企業各部門之間數據的共融共通,以及企業數據怎么樣進行索引和關聯。很多大企業,各部門之間數據的格式、形態和ID系統都不一致,部門之間無法交換數據,甚至大部分的數據表連主鍵和外鍵都沒有,數據之間不可能形成有效的組織。這些都是數據管理平臺要做的事情。
其次,數據管理平臺是由業務所引導的,先進的流數據智能處理系統,要為業務提供直接的支撐。很多時候,數據管理平臺怎么搭建,需要深度了解企業最重要的核心業務,通過有重大價值的示范性應用來牽引數據管理平臺的建設。例如針對零售類的企業,就應該形成以消費者為中心的索引和畫像系統,主要支持精準廣告、智能客服等核心業務,其次才是以商品為中心的索引系統,主要支持物流和倉儲優化等業務。
最后,數據管理平臺的建設要量體裁衣,強調魯棒性和可擴展性,沒有必要一開始就投入大量經費。因為硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架構設計合理,到需要的時候擴充硬件是容易的。
Step 4. 建立海量數據的深入分析能力
要想建立針對多元異構、跨域關聯的海量數據,通過深度分析挖掘獲取價值的能力,主要要培養兩個方面的能力。
第一,非結構化數據的分析處理能力。包括文本、音頻、圖像、視頻、網絡和軌跡等數據。受過傳統商務智能和統計學訓練的人,對于處理結構化數據非常在行,但是處理非結構化數據往往比較頭痛——比如分布好做抽樣,網絡怎么進行抽樣?所以,對于常見的,特別是和企業自身業務有密切關系的非結構化數據,一定要有一支隊伍能夠挖掘其間價值,甚至將其轉化為結構化的數據。
第二,大數據下的機器學習的能力。絕大部分我們可以想象到的應用問題,其本質都是分類或者預測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡征信、小微企業貸款、生產線控制、精準廣告和網點選擇,等等。解決這些問題最有力的武器就是機器學習!特別是在大數據環境下,很多高階的核函數慢得不行,大量的學習都必須采用線性學習器;而且數據非常多,很多時候都是在強噪音環境下尋找弱信號,單一分類器往往效果一般,必須要做集成學習。舉個例子,在Netflix舉辦的百萬美元電影個性化推薦大賽中,我們做過一些很優美的單模型,但是比起在比賽中最后獲勝的集成學習模型,至少從精度上來說是弱爆了!有的讀者要問了,高性能存儲計算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術高手嗎?要不要在CPU陣列里面加幾塊GPU甚至可編程邏輯陣列呢?這個也重要,但是企業如果實力足夠,可以采用成熟的解決方案,國際上頂尖的大數據服務商,例如IBM、HP和Intel都有不錯的方案。但是我說的上述兩點,是給企業培養人才和能力,而且至今也沒有特別好的成熟的解決方案,所以更重要。
最后,企業怎么建立這樣的能力呢?首要辦法是能夠招聘到一流的大數據人才——多花點錢和股票。第二選擇是以顯示度項目為牽引,通過外部合作,培養自己的數據分析團隊,既解決問題,又學習能力。企業做這類的合作,不要老想著一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯合小組共同進行研發,多投入一些人去學習。有一些供應商,特別是在某些方面有專長,但是還不屬于國際一流的供應商,在發展過程中是能夠接受企業這種要求的。
Step 5. 建設外部數據的戰略儲備
企業走到這一步,就有點現代大數據企業的理念了,因為它不再僅僅局限于自己業務的數據了,開始看外面的世界了——很多大數據的重大創新,都是來源于把數據放在產生數據的業務體系之外去應用。舉個例子,一個服裝企業要解決設計生產的規劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,了解什么款式、什么顏色、什么價位的服裝在哪個地區最受歡迎呢?這就需要外部數據了!
事實上,外部數據對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產品推薦等意義重大,而網站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數據,這些數據中的大部分可以通過分布式深網爬蟲技術直接高效采集。所以,企業要有意識地開始建立自己的外部數據戰略儲備,不要“數”到用時方恨少。一方面,企業可以自建具備采集、清洗、存儲和索引等功能的自動化系統,自動積累外部數據;另一方面,企業可以通過和數據供應商合作,得到一些亟需的數據。
Step 6. 建立數據的外部創新能力
企業很容易局限在自己的業務中不能自拔。所以,讓企業理解外面的數據能夠幫助解決自己業務遇到的問題比較容易,因為企業主和員工們每天都在想怎么解決這些問題,反過來,讓他們去思考自己業務的數據能不能在其他地方產生重大價值,幫到其他企業,他們就沒有那么敏感了。其實,這些創新性的想法往往能夠帶來新的巨大價值。比如,Google利用自身搜索業務產生的數據,進行電價和傳染病流行情況的預測,取得了巨大成功。
事實上,企業通過智能終端、傳感網絡、物流記錄、網點記錄和電子商務平臺,等等,獲得的第一手數據,很多都可以用于支持在跨領域交叉銷售、環境保護、健康管理、智慧城市、精準廣告和房地價預測等方面的創新型應用。把握住這些機會,就能夠放大企業當前業務的價值,帶來持久可觀的收益。
Step 7. 推動自身數據的開放與共享
偉大的企業懂得如何把最聰明的人集合起來,為自己服務。
企業有了大量數據和一定的分析能力后,不能故步自封,而要充分借助社會的力量,盡最大可能發揮數據潛藏的價值。Netflix曾經公開了包含50多萬用戶和17 770部電影的在線評分數據,并懸賞100萬美元獎勵能夠將Netflix現有評分預測準確度提高10%的團隊?,F在的Netflix已經不再是一家電影在線租賃公司,而是國際一流的大數據企業了。除了法律上因為安全和隱私不能開放共享的數據,相當一部分都能夠以各種方式開放出來——這種開放會帶來更大價值!國際化的如 Kaggle(英文平臺,www.kaggle.com),國內如 DataCastle(中文平臺,www.pkbigdata.com),都是很有影響力的大數據創新競賽平臺。舉個例子,電子科技大學大數據研究中心曾經在DataCastle上舉辦過學生成績預測的比賽,總獎金才50 000元,卻吸引了915支隊伍2 000余名參賽者參加比賽,其中200多只隊伍來自于“985”和“211”知名高校。這里面最佳解決方案的思路和方法已經被應用于教育大數據定量化管理的產品模塊中了。最近現金巴士推出的“微額借貸用戶人品預測大賽”更是吸引了1531支參賽隊伍。還有一種最近新出的比賽方式,就是企業給出數據集的描述和樣本數據,參賽選手設計創新型商業應用,提交產品說明或者商業計劃書。
企業通過這些數據開放計劃,可以學習最先進的算法和最具創新性的數據應用思路,實現自身數據的價值最大化。
Step 8. 數據產業的戰略投資布局
企業有了一定的規模,光靠自己的能力還不夠或者還太慢,就可以考慮通過投資的方式迅速形成自己的大數據能力甚至大數據產業布局。這類戰略型的投資,有三個可能的出發點:
(1)產業集成。從投資方原有優勢產業或大數據前景廣闊的重點產業入手,進行全產業鏈布局,集中力量。
(2)技術集成。以數據采集、存儲、計算、分析和可視化的創新型工具為主要投資對象,提供具有普適性的解決方案。
(3)數據集成。以數據流動共享,發揮外部價值為理念,投資一批能夠緊密合作、數據互補和可控性強的企業。
對于原來沒有從事過數據密集型和信息技術密集型行業的企業來說,第二類投資方向的風險特別大,建議主要從(1)(3)兩類考慮。這種投資有別于財物投資,主要是考量被投資企業與投資方的整合能力,以及所能提供俄數據的稀缺性、獨立性、多源性、流動性和互補性。
在這里我還是要推薦下我自己建的大數據學習交流qq裙:522189307 , 裙 里都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享干貨(只有大數據開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小伙伴。上述資料加群可以領取
?
總結
以上是生活随笔為你收集整理的为数据而生:大数据创新实践八步骤的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0基础学习大数据你需要了解的学习路线和方
- 下一篇: Java大数据学习路线图