小白都能看懂的干货!大数据这朵“后浪”,能卷起多大的风浪?
數字化轉型,新基建等一些列風向標把數據推到了一個前所未有的高度,而作為最近非常火且經常被人評論的東西,大數據還能火多久?
根據我個人的行業經驗來看。現在很多人,對大數據的理解都有些偏了。目前,對大數據的主流看法就是"深度學習","人工智能"等很火,很高大上的東西,都需要大量的數據。
其實,大數據的背后,是人類處理信息(也就是數據,大家不要認為大數據,這個概念中的"數據",是12345等阿拉伯數字組成的東西,凡是能存電腦里的東西,都是數據)的IT系統的一次革命性升級。
這次技術的升級,是繼數據庫系統后,人類處理數據手段和技能的提升。
下面,我以一個例子,來說明我們信息處理手段的提升。
張三是個創業者,每晚到夜市擺攤。由于攤子很小,每天回家后,找一只筆,一個香煙盒子紙,就能把賬算了、把貨盤了,這時,憑借著一只鉛筆,一張破紙,就能把該處理的數據信息處理了。
后來,攤子稍微大了一點,張三到門口小超市花幾塊錢買了個計算器,每天在計算器"為零"的幫助下,再加上一只筆、一張紙把信息處理了。
再后來,張三開了個小超市,他處理信息的能力也增強了,用上了Excel、word等軟件來處理信息。
后來,張三開開了個大超市,其信息處理工具也鳥槍換炮了,用上了進銷存管理系統、財務管理系統、人事管理系統等。
?
這些系統,在數據存儲方面,用數據庫,如mysql。在業務處理方面,招幾個程序員,用php、python或java,寫具體的業務處理邏輯(也就是當年張三在紙上寫寫畫畫的處理過程)。
這一階段的IT處理段位,是目前大多數中小企業所在的段位。可以看出,這個段位的IT系統和處理能力有以下不足:
1、只能處理結構化數據,對大量非結構化數據(文字、語音、視頻等),處理能力嚴重不足。
2、能處理的數據量還是太小,比如,用張破紙,你處理10條數據沒問題,給你個計算器,你處理100條數據沒壓力。用Excel,你處理10萬條無壓力。給你個mysql,你在千萬條數據的級別范圍內增刪改查無壓力。
但是,當你要面對的數據是100億條級別時,你的數據庫、存儲、業務處理代碼等,就有可能分分鐘鬧毛病給你看。 注意:利用各種中間件構建分布式關系型數據庫集群,是能應付的。此處,各位看官領會我說的什么意思就好,先不要糾結具體技術解決方案。
3、處理的手段單一,只能跑程序員編好的程序,比較死板。只能按著代碼邏輯跑,一點都不"智能"。
4、從技術上講,靈活性還是不足。你的進銷存、財務、人事等系統。程序員編完,能用了,也就完了。沒有重要問題和需求變更,也不會去頻繁升級、重構和迭代更新。
5、從具體的實際流程上看,流程太長、太慢。比如說,您是集團公司的老總,有一天突發奇想,想到了一個項目,想"看看相關數據"。
北京分公司的數據,很快上來了,上海分公司的數據,秘書打了好幾遍電話,才要來。山東分公司的說,我們這邊忙著陪客戶吃飯喝酒了,具體數據沒收集呢。浙江分公司的,數據報上來了,可他們打電話說,數據報錯了、漏報了,您稍等,我們組織人力物力,重新幫你核查。
此時,時間上,少說也一個月過去了,還不一定保證數據都正確。數據收集上來,您也不用"分析"了。市場風云變幻,黃花菜都涼了。
鑒于此,大數據處理系統來了。有了hadoop、spark、storm、hbase、 Elasticsearch、zookeeper等等大數據工具搭建起來的數據處理集群,張三終于炮換導彈了。
?
1、有了hdfs,張三可以把以前覺得沒太大價值的數據保存起來。未來的事,誰知道呢,數據總是要的,說不定以后用的到呢。如果阿里巴巴沒有保存、整理用戶的交易數據等,花唄、借唄等業務,開展起來,簡直就是做夢。
2、有了spark等編程框架,你的業務處理流程,也更加靈活和牛逼了。你可以用python、java,scala等編寫一些腳本似的數據分析程序,盡情地挖掘出有價值的東西。這一個個的job,寫完后,扔給調度系統,定時,每天晚上讓集群幫你跑出來就好了。挺靈活的。
3、調用一些開發庫,你可以玩一些機器學習等高大上的東西。出去吹牛逼也有料了。
4、建立統一的數據處理中心,再加上互聯網的力量,終于可以在可接受的時間范圍內獲得你想要的數據了,而且數據還更詳細,方方面面的數據都有,最后還附有機器人"小優"的"智能"建議和溫馨提示。
5、借助比如storm等實時處理框架,很多結果可以秒級回饋。性能遇到瓶頸了,大不了加機器。反正一切都是分布式的。.......
?
我想大多數人,特別是中小企業,也不會關心。那是BAT等大公司的事,我們公司小、數據少,業務也簡單。"分析",也是電腦不如人腦。因此,大多人,也是覺得,大數據或許是未來,但是,對我來說,似乎也沒多大用處。
如果,此人當時心情不好,還多半認為"大數據",純粹是瞎忽悠。 回到本次話題,針對"大數據能火多久",這個問題,這就要看大數據的本質了。在我看來,我們業內目前討論"大數據",應該更傾向于看它背后的技術對當前企業IT系統的革新。
就如同目前大多數企業以關系型數據庫為中心的IT系統一樣,現在,我們處理信息的手段中,又添加了新的成員。現在,如果你向老大建議,我們不要以關系型數據庫為核心的各類"進銷存"、財務等系統了,全體回退到以Excel、word來處理信息,我相信,他會分分鐘扇死你。
我相信,20年后,你向老板建議,我們放棄各類以大數據處理集群為核心的精準營銷系統、智能客服系統、用戶智能分析系統等等,大家集體回退到以純關系型數據庫為核心的時代;我相信,他也一定會分分鐘扇死你。
當前,我們對大數據的理解,越來越清晰和接地氣。阿里巴巴已經把他們的大數據系統,改名為了"maxComputer"。從名字不難看出,大數據就是大電腦,這意味著更大的信息處理能力、更高的靈活性。
大數據能火多久,如同穿越到上世紀80年代,去問個人電腦能火多久一樣。現在,我們都不會認為"個人電腦"很"火"。因為,它已經成為了人類工具箱里一件強大的工具,提高了人類的生產力。我相信,"大數據",也會成為我們的工具箱里的這么一樣工具的。
很多人討論起大數據,還是照搬教科書里的內容。其實,對真正大數據圈而言,大數據已經落地了。
大數據從幾年前很火,到現在,從PPT上下凡到數據中心,也就沒多大的討論必要了。
歡迎關注我的公眾號“商業智能研究”,私信回復“資料包”,即可領取大數據、數據中臺、商業智能、數據倉庫等6G精華資料!
總結
以上是生活随笔為你收集整理的小白都能看懂的干货!大数据这朵“后浪”,能卷起多大的风浪?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序员真正的天赋是什么?
- 下一篇: 在竞争激烈的ToB公司,这个创始团队拒绝