前端转行大数据?没必要
文/北媽
閱讀本文需要 4.5分鐘
一
最近又有讀者,問我要不要轉(zhuǎn)去學(xué)大數(shù)據(jù),好像前端和大數(shù)據(jù)一點不沾邊.... 說實話我是無語的
文長,需耐心看完,讀時有耐心,看完有信心。
這幾年大數(shù)據(jù)和機器學(xué)習(xí)一直很熱門,而且凡是和大數(shù)據(jù)沾邊的行業(yè)或者公司,好像很牛x的樣子。
并且很多人一直有個誤區(qū):后端才和大數(shù)據(jù)、機器深度學(xué)習(xí)、數(shù)據(jù)模型有關(guān)系,前端總插不上手。
而且很多人擔(dān)憂再往后,前端給淘汰了,大數(shù)據(jù)吃香,薪水高,然后打算紛紛轉(zhuǎn)大數(shù)據(jù)試試水。
其實,北媽早說過,你錯了,前端在未來幾十年都是熱門和不可或缺的存在。
其實結(jié)論是:你壓根不用轉(zhuǎn)大數(shù)據(jù),而是大數(shù)據(jù)本身就離不開前端數(shù)據(jù)可視化,只不過我們要做的是要學(xué)習(xí)并了解他們的關(guān)系。
就像汽車剛出來是煤氣發(fā)動,后來是蒸汽機發(fā)動,后來是現(xiàn)在的汽油、電混合動力,后面是無人駕駛、純電動或者高效能源。
只不過不同時代換了不同形態(tài)去驅(qū)動,但汽車本身并不會消失,人們也不可能離開汽車。
web前端由于所見所得的特殊性,在各行各業(yè)都有至關(guān)重要的作用和展現(xiàn),只不過,后面的前端越來越偏向工程化、全面化和領(lǐng)域細分。
就算之后,機器統(tǒng)治了世界,web前端開發(fā)領(lǐng)域也不會消息,更不會沒落,除非,人 都瞎了。
下面我摘一段 阿里數(shù)據(jù)可視化組工程師的一篇文章的部分段落,大家可以感受一下。
二
《大數(shù)據(jù)浪潮下的前端工程師》
馬云曾經(jīng)說過『人類正從IT時代走向DT時代』。
正如他說言,今天幾乎所有的互聯(lián)網(wǎng)公司背后都有一支規(guī)模龐大的數(shù)據(jù)團隊和一整套數(shù)據(jù)解決方案作決策。
這個時代已經(jīng)不是只有硅谷巨頭才玩數(shù)據(jù)的時代,是人人都在依賴著數(shù)據(jù)生存,可以說如今社會數(shù)據(jù)價值已經(jīng)被推到前所未有的高度。
我作為一名前端工程師在阿里巴巴數(shù)據(jù)團隊工作多年,深入了解數(shù)據(jù)生產(chǎn)加工鏈路與產(chǎn)品化。我們這群前端是與界面最近的工程師們
完整數(shù)據(jù)鏈路
首先,我用直觀的一張圖繪制出數(shù)據(jù)采集到產(chǎn)出的流程,中間省略技術(shù)細節(jié)。
業(yè)界常提到的 Hadoop,Spark,Druid 都在用戶側(cè)的下方,也就是數(shù)據(jù)研發(fā)與數(shù)據(jù)挖掘職能的工作。相對于前端職能而言,一定是與輸出終端相關(guān),包括本職工作數(shù)據(jù)類產(chǎn)品的研發(fā)。
如阿里指數(shù)或百度指數(shù)這樣的數(shù)據(jù)展示型產(chǎn)品,還有較為復(fù)雜的 BI 工具等,細分起來,最特別的工作應(yīng)該是數(shù)據(jù)采集和數(shù)據(jù)可視化的工作。
但到今天而言,數(shù)據(jù)研發(fā)工程師已經(jīng)很難說只精通其中一種技術(shù)。
任何一環(huán)深入下去都涉及到整條鏈路的打通,我就從數(shù)據(jù)采集,數(shù)據(jù)可視化,數(shù)據(jù)產(chǎn)品研發(fā)到人工智能幾個板塊來寫寫我的體會與經(jīng)驗。
數(shù)據(jù)采集
過去還是流量為王的年代,流量就意味著錢,互聯(lián)網(wǎng)都用著簡單粗爆的方式導(dǎo)流。
在過去做過站長的對數(shù)據(jù)采集已然不陌生,包括著名的第三方平臺 CNZZ(現(xiàn)友盟+) 和 google analytics 兩個平臺幾乎都使用過。
Web 端的數(shù)據(jù)采集的鏈路從客戶端或后端開始一直到存儲結(jié)束。因此,數(shù)據(jù)采集這個動作涉及到了前端,客戶端,數(shù)據(jù)研發(fā),產(chǎn)品經(jīng)理等職位的參與。
在這個過程中,前端工程師的工作集中在不同客戶端上(PC、iOS、Android)的信息收集及埋點上。
此外,業(yè)務(wù)反饋還可以從前端本身看,前端需要的穩(wěn)定性指標也是從界面上采集到的,比如加載性能、JS 報錯等。大規(guī)模應(yīng)用背后開發(fā)一般都有自己的監(jiān)控平臺,而前端的監(jiān)控就從用戶界面開始。
數(shù)據(jù)可視化
經(jīng)過清洗,計算與存儲后達到數(shù)據(jù)展現(xiàn)的階段。無論是面向哪個群體的數(shù)據(jù)產(chǎn)品都繞不開對數(shù)據(jù)的可視化,可以說產(chǎn)品端除了考慮分析鏈路或操作鏈路外,最重要的工作就是如何更好的反應(yīng)它們
可視化在其中至關(guān)重要。
數(shù)據(jù)可視化絕不是單純的視覺,也不是單純的圖表,它是幫助人類從原始信息中做到對信息有一定程度的認知,任何可視化手段都為了這個過程,而非結(jié)果。
數(shù)據(jù)可視化對于我們而言其實是一個跨界的領(lǐng)域,交互視覺知識遠遠不夠,還還涉及硬件、客戶端編程、數(shù)據(jù)分析、機器學(xué)習(xí)等領(lǐng)域。
我們看過形形色色的圖表,可視化圖表是從數(shù)據(jù) -> 清洗 -> 交互 -> 視覺 -> 開發(fā)的整個過程下創(chuàng)造的。
但餅圖還有一個致命的問題就是不能反應(yīng)時間維度的變化。加入時間維度的分析,等于加入了變化的趨勢,不再是定量分析,這時候用堆積面積圖(Stacked Area Chart)是最合適的。
回到我說的原則了,即直觀又豐富表示了我們盡可能的展示我們所能提供的數(shù)據(jù),用一種最直觀的形式。
三
算法領(lǐng)域
再說到算法領(lǐng)域,在分析領(lǐng)域我們已經(jīng)看到會引入像聚類的可視化手段。而在更底層的算法領(lǐng)域其實早就在利用可視化做工作了。
這里就提到了可視化在算法領(lǐng)域的主要工作之一——模型評估。
對于一個場景而言,比如定性分析用戶的類別,我們可能會同時跑邏輯回歸或決策樹多個算法,怎么知道我們的算法欠擬合或過擬合呢,當(dāng)然可以直接看結(jié)果。
更好的方式就是通過可視化的方式直觀的對比。此外,以下還會提到深度學(xué)習(xí)中的應(yīng)用。
另外,算法過程可視化近年來慢慢流行起來。這個頁面就展示了決策樹的可視化過程。
對算法過程作可視化對于非專業(yè)人員去理解算法來說很有必要。
一方面可以作為算法在學(xué)校或工作中的教學(xué)輔助,另一方面可以給非專業(yè)人員講解算法的運算過程。
前端與人工智能
最后,講講前端在 AI (人工智能) 時代的位置。目前,前端涉及到 AI 的主要是算法數(shù)據(jù)可視化,這一點在上述也講到了。
很有意思的是,去年我們在做一款前端監(jiān)控平臺也涉及到了機器學(xué)習(xí)。我們都知道常規(guī)異常報警思路是一旦發(fā)生錯誤就發(fā)生通過。
傳統(tǒng)異常檢測是機器學(xué)習(xí)算法的一個常見應(yīng)用,利用多維度的值的分布符合某個參數(shù)的正態(tài)分布來判斷。
但前端錯誤本身,我們無法判斷是否會造成影響,有時只是一個報錯而已,需要前端工程師自己去排查,這一點與傳統(tǒng)異常檢測的思路就不一樣。
我們就利用出現(xiàn)的規(guī)模,時長,影響人數(shù)等因素利用統(tǒng)計學(xué)中的3σ原則,當(dāng)然,進一步我們利用特征工程的方法實時來檢測錯誤的影響程度。
除了在穩(wěn)定性方面,只要是生產(chǎn)力工具都可以去思考是否讓 AI 改變我們的開發(fā)現(xiàn)狀。這個地方留給所有的工程師思考。
總結(jié)設(shè)想
不論講到采集還是可視化,還是做數(shù)據(jù)產(chǎn)品,我都想講兩點:
第一,數(shù)據(jù)的完整鏈路。沒有『好』的數(shù)據(jù),沒有看到其中的意義,沒有這條鏈路中清洗計算部分,都是沒有意義的,這也說明
前端工程師專注在一個領(lǐng)域,不等于只看到冰山一角。
第二,不同的思考方式。就說可視化與機器學(xué)習(xí),從某種意義上來說思路完全相反,可視化需要人類從感知數(shù)據(jù)到認知數(shù)據(jù),而機器學(xué)習(xí)是通過大量樣本學(xué)習(xí)得到結(jié)論。
現(xiàn)在的科技由機器學(xué)習(xí)的技術(shù)還無法做到的事,都還會通過類似于可視化的方式傳遞給人類。
如果某一天機器也可以做到能理解世界,那么真正的人工智能就來到了。
因此,人工智能今天還是技術(shù),也是思路,我們可以用在任何環(huán)節(jié),不論是哪個崗位的工程師都應(yīng)該掌握。
在過去,前端的工作只與界面相關(guān),而今天前端在一定程度上已經(jīng)具備了全棧開發(fā)的能力,前端工具化平臺化已經(jīng)很常見,可以利用機器學(xué)習(xí)完善工具。
今天立足在 Web 領(lǐng)域我們是有優(yōu)勢的,那么在其它領(lǐng)域呢,我們今天的技能是否做到了編程語言與平臺不受限。
由此也看到前端工程師在大數(shù)據(jù)時代涉及的一些工作非常需要有綜合能力。
前端工程師的基礎(chǔ)能力從過去縱深到現(xiàn)在更趨向于 T 字型發(fā)展。我相信這是未來工程師們的基本形態(tài)。
四
重點來了
那么說了這么多,但是學(xué)海無涯, 北媽向大家清楚的解釋和分析了前端和大數(shù)據(jù)行業(yè)的關(guān)系和發(fā)展領(lǐng)域
大數(shù)據(jù)到底可以干什么,這么海量的數(shù)據(jù)也造就了無數(shù)工作機會,我們怎么第一時間掌握技術(shù)棧 把握住?
這些疑問,我也收到很多,那么今天找了一個專門研究大數(shù)據(jù)的高手,統(tǒng)一給大家回復(fù),他的機構(gòu)也是專門研究和教授大數(shù)據(jù)技術(shù)和從業(yè)指導(dǎo),我相信對有心人是極有幫助,我上邊講解的這些也都有交。
如果你感興趣和問題就?識別二維碼加他吧,畢竟術(shù)業(yè)有專攻。
另外加他咨詢,可以領(lǐng)取?1024G大數(shù)據(jù)資料
1024G 會員專屬資料共享:內(nèi)容涵蓋“大數(shù)據(jù)基礎(chǔ)入門與學(xué)習(xí)線路”、“Oracle高級技術(shù)總監(jiān)帶你學(xué)習(xí)大數(shù)據(jù)”、“Hadoop全分布式搭建”、“Hadoop DataBase與Google論文BigTable”、“Hive的執(zhí)行計劃/典型的實時計算架構(gòu)”、“大數(shù)據(jù)實戰(zhàn)應(yīng)用案例”等,價值3W全套視頻源碼免費發(fā)放!
還是那句話:有需要的可以聯(lián)系,沒需要的也可以了解或者無視。
掃碼下方二維碼添加詢問
總結(jié)
以上是生活随笔為你收集整理的前端转行大数据?没必要的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当电信诈骗犯遇上程序员,技术决定成败!
- 下一篇: 云炬随笔20211021(2)