还有人在质疑数据挖掘是泡沫吗?千万不要叶公好龙
數(shù)據(jù)挖掘會飽和嗎?學(xué)大數(shù)據(jù)還有機會嗎?這是很多計算機專業(yè)的學(xué)生,編程和算法技術(shù)員考慮的問題。
數(shù)據(jù)挖掘不是獨立市場,而是解決各領(lǐng)域問題的方法和工具,生物、制造、零售、金融等等領(lǐng)域都越來越依仗對數(shù)據(jù)的利用和挖掘,數(shù)據(jù)挖掘所面對的市場是很多行業(yè)的市場。
?
要說數(shù)據(jù)挖掘應(yīng)用飽和,除非各個領(lǐng)域都已經(jīng)發(fā)展到了瓶頸沒有上升空間,而這是不可能的。要說數(shù)據(jù)挖掘人才飽和,數(shù)據(jù)科學(xué)家/分析師已經(jīng)成為各企業(yè)的標(biāo)配,現(xiàn)在看離這個標(biāo)準(zhǔn)還差得遠(yuǎn)呢。
但也不得不說現(xiàn)在數(shù)據(jù)挖掘發(fā)展情況沒有很理想,這也和數(shù)據(jù)挖掘人才不足有一定關(guān)系。
數(shù)據(jù)挖掘是泡沫嗎?你說它是泡沫,那它卻有一些如智能推薦、風(fēng)險捕捉等高價值場景你不能視而不見吧。但你若說它不是泡沫,卻有太多的灌水論文是關(guān)于它的,這些論文只有作者自己寫很嗨,等拿到生產(chǎn)環(huán)節(jié)中一試,這什么XX玩意兒。
說到應(yīng)用,除了那幾個經(jīng)典的場景外,身邊沒有什么實實在在的、落地的案例,這樣的應(yīng)用量級與它在輿論中的地位比起來,可以說是有些丟人。這好比一個隱居的大名士,大家都說這人厲害,不出山都是一種損失,終于他在一眾追捧之中出山之后,卻發(fā)現(xiàn)這人只能做個縣令。
?
我的看法,數(shù)據(jù)挖掘不是泡沫。
第一,它背后是數(shù)據(jù)庫技術(shù),是統(tǒng)計學(xué),這些都是硬的不能再硬的知識。它的核心是對數(shù)據(jù)進行深度的計算,讓數(shù)據(jù)展示其潛在的信息,這一處理過程就是使用數(shù)學(xué)、統(tǒng)計學(xué)方法對數(shù)據(jù)進行計算,數(shù)據(jù)經(jīng)過這樣的加工之后,確實會展示出其隱藏的一面,所以他的本質(zhì)并不泡沫。
第二、有很多人使用這樣的方法來幫助自己工作,這是從上個世紀(jì)就有的,今天依然很多,數(shù)據(jù)挖掘這樣的技術(shù)確實幫他們解決了問題,帶來了價值。還有,我也是相信高校一定看的比我要遠(yuǎn)的多的。
那么,如果數(shù)據(jù)挖掘不是泡沫,是什么原因造成了當(dāng)前這種模糊的狀態(tài)呢?
?
第一、人才缺失
這一條應(yīng)該很多人不服,一板磚拍到程序員堆里都要有兩個是做數(shù)據(jù)挖掘的,怎么還會缺人呢,甚至知乎中已經(jīng)有“做數(shù)據(jù)挖掘/機器學(xué)習(xí)的人是不是飽和了”這樣的問題。我們需要更細(xì)一層的分析,數(shù)據(jù)挖掘的人才可以分成三類:
- 第一類是研究型,研究算法做本質(zhì)上突破的人,這類人在任何時候都是緊缺的,當(dāng)然大部分人都不屬于這一類人才。
- 第二類是應(yīng)用型,能夠跨領(lǐng)域?qū)?shù)據(jù)挖掘技術(shù)應(yīng)用到自己所在領(lǐng)域的人。對算法內(nèi)部原理不需要很懂,技術(shù)上只需要知道怎樣應(yīng)用就夠了,重要的是能夠熟悉某一業(yè)務(wù)領(lǐng)域,并且能夠針對業(yè)務(wù)領(lǐng)域的問題提出解決方案,使用數(shù)據(jù)挖掘技術(shù)來解決。這一類人才是目前最為緊缺的,數(shù)據(jù)挖掘應(yīng)用現(xiàn)在很少,主要是由于這一類人才的缺少。
- 第三類是數(shù)據(jù)挖掘技術(shù)使用人群,有學(xué)生、有程序員,會用數(shù)據(jù)挖掘技術(shù)解決手頭的問題,但是對算法沒有深入的研究,也沒有將數(shù)據(jù)挖掘落地到生產(chǎn)的能力。
所以,現(xiàn)在依然是缺少人才的,尤其是應(yīng)用型人才。
第二、網(wǎng)絡(luò)或輿論氛圍浮躁。
浮躁是幾個原因造成的
- 需求氛圍上,多數(shù)人也不過是葉公好龍,很多技術(shù)概念都是這樣,去年的數(shù)據(jù)中臺被阿里提出來之后,很多企業(yè)好像一下子就懂了,也紛紛跟著搞數(shù)據(jù)中臺一個樣子,實際上很多企業(yè)到底什么是數(shù)據(jù)中臺也沒搞明白。
- 知識氛圍上,研究算法、機器學(xué)習(xí)、人工智能等等這些技術(shù)的人越來越多,這好事沒毛病。另一方面灌水的論文也確實不少,論文中算法調(diào)來調(diào)去預(yù)測準(zhǔn)確性到90%都可以,但這些論文真的有幾個可以拿到生產(chǎn)中去驗證和使用?
- 商業(yè)環(huán)境上,軟件公司也加了一把火。近年來有很多資本投資機器學(xué)習(xí)相關(guān)的初創(chuàng)公司,這些公司為了拿到投資也“制造”了很多案例,我見過很多宣傳諸如“算法準(zhǔn)確率超過google”、“500強企業(yè)xxx在用我們產(chǎn)品預(yù)測xxx”,和灌水的論文一樣。
雖然現(xiàn)在還有各種各樣的問題,但畢竟數(shù)據(jù)挖掘本身是一個很實用的應(yīng)用型技術(shù),它給社會給企業(yè)帶來的價值早晚會得到更多企業(yè)的認(rèn)可。數(shù)據(jù)挖掘沖出泡沫的方式,我覺得會有這樣兩種。
第一,通過更多基于數(shù)據(jù)挖掘技術(shù)的應(yīng)用軟件走進企業(yè)。雖然已經(jīng)有一些企業(yè)開發(fā)并應(yīng)用了推薦、風(fēng)控等場景,但企業(yè)數(shù)量還是很少的,并且這些應(yīng)用通用性不強。
若要讓更多的企業(yè)享受數(shù)據(jù)挖掘技術(shù)的福利,需要有類似于OA、CRM這樣的有更強的通用性,可以被更多企業(yè)接受和使用的軟件。
第二,企業(yè)中有自己的應(yīng)用型人才,能夠搭建企業(yè)內(nèi)部的挖掘應(yīng)用。不同于OA、CRM或ERP之類的軟件使用,這種模式更類似于現(xiàn)在企業(yè)中數(shù)據(jù)分析系統(tǒng),例如報表平臺或bi平臺,這些數(shù)據(jù)分析應(yīng)用,往往由企業(yè)自己通過一些比較好用的工具如finereport/finebi自己建設(shè)起來的。
數(shù)據(jù)的分析和應(yīng)用靈活且多變,即便企業(yè)開始是由軟件公司開發(fā)的報表或bi系統(tǒng),多年之后這個系統(tǒng)也不會是項目當(dāng)初的樣子了。正因為企業(yè)自己在數(shù)據(jù)分析應(yīng)用中發(fā)揮著主導(dǎo)作用,數(shù)據(jù)分析在企業(yè)中發(fā)展非常迅速,也受到很大認(rèn)可。
數(shù)據(jù)挖掘的應(yīng)用也有類似的特點,數(shù)據(jù)挖掘的應(yīng)用點不會是單一的,很多數(shù)據(jù)深度挖掘后會展示出新的一面,企業(yè)中的數(shù)據(jù)也有不同的維度和模塊需要深度挖掘。并且隨著企業(yè)的發(fā)展,數(shù)據(jù)會跟著變化,挖掘應(yīng)用也需要隨之調(diào)整,企業(yè)自身有能力開發(fā)并維護挖掘應(yīng)用,更有利于數(shù)據(jù)挖掘在企業(yè)中推廣和應(yīng)用。
這兩個相比較,我更期待第二種情形的出現(xiàn),這會有更多的可能性,也一定能給企業(yè)帶來更大的價值。但這也有一些條件現(xiàn)在還沒有滿足,主要還是人才問題,當(dāng)前企業(yè)中能夠使用數(shù)據(jù)挖掘的人很少,能夠?qū)⒓夹g(shù)和業(yè)務(wù)痛點結(jié)合起來形成落地應(yīng)用的人更少。滿足這一條件有兩種方式:
第一是大量的數(shù)據(jù)挖掘技術(shù)人才走進企業(yè),這點還是比較困難的,一方面短期內(nèi)看不出企業(yè)中有哪些數(shù)據(jù)挖掘的用武之地,企業(yè)本身就不會在此投入太多,另一方面供需雙方對收入的期待水平相差太大。
還有另一種方式,就是企業(yè)原有的it人才可以掌握數(shù)據(jù)挖掘技術(shù),這一個方向我覺得是可行的。一方面很多企業(yè)的it人員對業(yè)務(wù)是有一定理解的,并且長期負(fù)責(zé)企業(yè)數(shù)據(jù),有很強的數(shù)據(jù)思維,具有針對業(yè)務(wù)痛點形成解決方案的基礎(chǔ)。
另一方面當(dāng)前很多企業(yè)的it人員有意愿學(xué)習(xí)更多的數(shù)據(jù)技術(shù),提升自身競爭力,這種驅(qū)動力是不缺的。
?
總結(jié)
以上是生活随笔為你收集整理的还有人在质疑数据挖掘是泡沫吗?千万不要叶公好龙的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 翰林学院python_为什么入门大数据选
- 下一篇: 清华数据女神评选结果:第一竟然是叉院大神