数据科学家是个性感的工作?我信你个鬼!
數(shù)據(jù)科學(xué)家40%是個吸塵器,40%是個清潔工,剩下20%是個算命的。
作者 | Jingles
譯者 |?香檳超新星,責(zé)編 | 夕顏
出品 | CSDN(ID:CSDNnews)
根據(jù)《哈佛商業(yè)評論》的說法,數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的工作。在現(xiàn)在這個大數(shù)據(jù)的世界中,數(shù)據(jù)科學(xué)家們用AI 或深度學(xué)習(xí)方法來發(fā)掘?qū)氋F的商業(yè)見解。
?
而我,掛著“數(shù)據(jù)科學(xué)家”頭銜已經(jīng)五年了,卻仍然沒有完全搞明白自己究竟哪里性感,除了我新燙的頭發(fā)讓我看起來像個韓國歐巴(此詞通常用來代指韓國偶像劇男主角)。
?
確實,云的出現(xiàn)和商業(yè)向互聯(lián)網(wǎng)的轉(zhuǎn)移已經(jīng)引起了數(shù)據(jù)爆炸。這導(dǎo)致了某些部門中對于數(shù)據(jù)科學(xué)家的需求增加,造成此職位的人員短缺。
?
但是,數(shù)據(jù)科學(xué)家們每天工作的具體內(nèi)容包括哪些呢?
?
通過分析LinkedIn上發(fā)布的職位,我們就能找到這個問題的答案。以下是我總結(jié)的一些主要的點:
?
對業(yè)務(wù)和客戶有所了解,對假設(shè)進(jìn)行驗證
建立起預(yù)測模型和機(jī)器學(xué)習(xí)流水線,進(jìn)行A / B測試
給商業(yè)的利益相關(guān)者們概念化分析
開發(fā)能夠做出業(yè)務(wù)決策的算法
實驗并研究新技術(shù)和方法來提升技術(shù)能力
?
這些聽上去都很性感,對不對?
?
除非你的工作內(nèi)容只包含處理Kaggle數(shù)據(jù)集,否則以上這些工作描述只是數(shù)據(jù)科學(xué)家們生活的一小部分。
?
以下調(diào)查結(jié)果來自CrowdFlower,對一個數(shù)據(jù)科學(xué)家的一個平常的工作日作了以下總結(jié):
? ? ? ?數(shù)據(jù)科學(xué)家大部分時間都在干什么?圖源:CrowdFlower
?
如上表所示,數(shù)據(jù)科學(xué)家的大部分時間都花在了收集數(shù)據(jù)集,清洗以及組織數(shù)據(jù)上。
?
21世紀(jì)的高性能數(shù)據(jù)吸塵器
?
數(shù)據(jù)湖(data lakes)是集中存儲公司所有數(shù)據(jù)的地方。它們使組織能夠使用公司的數(shù)據(jù)來搭建機(jī)器學(xué)習(xí)模型和儀表板。而不幸的是,有的人會認(rèn)為數(shù)據(jù)湖是可以用來丟棄數(shù)據(jù)的垃圾場,或一個超大的硬盤。
?
許多組織(公司)在開始布施數(shù)據(jù)湖時,對應(yīng)該如何處理收集到的數(shù)據(jù)一無所知。他們說:“那我們就把所有的東西都收集起來吧。”盡管數(shù)據(jù)湖的意義在于將公司的所有數(shù)據(jù)集中在一個地方,但根據(jù)特定項目的需求來對它進(jìn)行設(shè)計仍然是至關(guān)重要的。不進(jìn)行計劃幾乎就像創(chuàng)建一個“新建文件夾”,然后把公司的全部數(shù)據(jù)都復(fù)制粘貼到里面一樣。
?
當(dāng)你把桌面當(dāng)做數(shù)據(jù)垃圾場時
?
從歷史上看,糟糕的計劃很少會帶來,或者說從未帶來過定義明確的元數(shù)據(jù),這就使所有人都很難搜索(并找到)自己所需的數(shù)據(jù)。數(shù)據(jù)科學(xué)家們會經(jīng)常需要與不同部門聯(lián)系來獲取數(shù)據(jù)。他們可能需要從各種類型的數(shù)據(jù)所有者那里得到有關(guān)數(shù)據(jù)的信息。只對數(shù)據(jù)進(jìn)行存儲而不進(jìn)行分類簡直大錯特錯。要使數(shù)據(jù)湖變得有用起來的關(guān)鍵是要確保元數(shù)據(jù)是被明確定義的。
?
由于數(shù)據(jù)管控或數(shù)據(jù)所有者們(他們往往是不同部門的利益相關(guān)者)太過忙碌,重要數(shù)據(jù)的獲取甚至可能需要花費(fèi)數(shù)周的時間。在等待的游戲結(jié)束之后,到頭來數(shù)據(jù)科學(xué)家們卻有可能發(fā)現(xiàn)數(shù)據(jù)不相關(guān)或存在嚴(yán)重的質(zhì)量問題。
?
當(dāng)數(shù)據(jù)科學(xué)家終于能接觸到數(shù)據(jù)時,他們還需花費(fèi)大量時間來探索以及熟悉數(shù)據(jù)。他們必須將這些混亂的數(shù)據(jù)塊重組成與項目需求一致的新表。
21世紀(jì)的高層次數(shù)據(jù)清潔工
?
每個與數(shù)據(jù)打交道的人都應(yīng)該聽說過“臟數(shù)據(jù)”(dirty data)一詞。臟數(shù)據(jù)會破壞數(shù)據(jù)集的完整性,它的某些特征是不完整,不準(zhǔn)確,不一致,或者重復(fù)的。
?
“不完整”是指,有些必要特征空缺。例如,假設(shè)你的任務(wù)是預(yù)測房價,而“房子的區(qū)域”對于良好的預(yù)測至關(guān)重要,但這個值卻是缺失的。這樣的話預(yù)測房價可能對你來說就有很大的挑戰(zhàn)性了,并且你的模型也可能表現(xiàn)欠佳。
?
“不準(zhǔn)確”和“不一致”就是指,技術(shù)上來說數(shù)值是正確的,但在具體語境下卻是錯誤的。例如,當(dāng)一名員工更改了自己的地址,并且未更新,又或者,某項數(shù)據(jù)有很多版本,但數(shù)據(jù)科學(xué)家拿到的是舊版。
?
“重復(fù)”是一個常見的問題。讓我來跟你分享一個以前我在電子商務(wù)公司工作時發(fā)生的事情吧。按照計劃,當(dāng)訪問者單擊“收取收據(jù)”按鈕時,網(wǎng)站會向服務(wù)器發(fā)送一個響應(yīng),這就使得我們能夠計數(shù)已收取了收據(jù)的用戶數(shù)量。
?
該網(wǎng)站運(yùn)行良好,直到一天某個變化發(fā)生了,但我對此一無所知。前端開發(fā)人員添加了另一個響應(yīng),在有人成功收取了收據(jù)時發(fā)送。理由是某些收據(jù)可能短缺,他們想記下單擊了該按鈕以及收取了收據(jù)的訪問者。
?
那時,兩個響應(yīng)會被發(fā)送到同一日志表。我看著我的報表工具,發(fā)現(xiàn)收據(jù)的數(shù)量似乎在一夜之間翻了一番!因為我前一天部署了一個模型,所以想當(dāng)然的認(rèn)為是自己新模型的功勞。記得當(dāng)時我還在內(nèi)心里暗暗地為自己的小模型鼓掌致意了呢,后來才意識到只是因為重復(fù)計算而已!
?
另外,在過去五年中,作為一名數(shù)據(jù)科學(xué)家,我收到數(shù)據(jù)中的一部分是由公司員工手動輸入的。這些數(shù)據(jù)存在Excel表中,其中許多都不準(zhǔn)確,不完整,不一致。
?
無論數(shù)據(jù)是來自人工手動輸入還是機(jī)器日志,在現(xiàn)實世界中數(shù)據(jù)整理都占了工作內(nèi)容的很大的比例。數(shù)據(jù)科學(xué)家們必須面對這件事情。為了使監(jiān)督學(xué)習(xí)能有效,我們需要可靠的,帶有標(biāo)簽(label)的數(shù)據(jù)。只有數(shù)據(jù)被正確地標(biāo)記了,你才可能建立起預(yù)測模型,但沒人喜歡標(biāo)記數(shù)據(jù)。
?
許多人將這種情況描述為80/20規(guī)則。數(shù)據(jù)科學(xué)家們只有20%的時間是用于構(gòu)建模型的,而其他80%的時間則用于收集,分析,清洗和重組數(shù)據(jù)。臟數(shù)據(jù)是一個普通數(shù)據(jù)科學(xué)家工作中最耗時的一項。
?
有必要指出的是,數(shù)據(jù)的清洗是必不可少的。從亂糟糟的數(shù)據(jù)無法生產(chǎn)出良好的結(jié)果。你可能已經(jīng)聽說過“垃圾進(jìn),垃圾出”(Garbage in, garbage out.)這句話了。
?
數(shù)據(jù)科學(xué)家們在數(shù)據(jù)中漫游時確實會發(fā)現(xiàn)一些東西。但在開始訓(xùn)練任何模型之前,數(shù)據(jù)科學(xué)家必須首先成為數(shù)據(jù)清潔工。數(shù)據(jù)需要經(jīng)歷清洗,數(shù)據(jù)需要經(jīng)歷標(biāo)記。
我是一名數(shù)據(jù)科學(xué)家...
我并不覺得我的工作性感。
?
我40%的功能像個吸塵器,另外40%像清潔工。
?
而最后的20%......就當(dāng)是個算命先生吧。
原文鏈接:
https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845
本文為CSDN翻譯文章,轉(zhuǎn)載請注明出處。
《原力計劃【第二季】-?學(xué)習(xí)力挑戰(zhàn)》正式開始!即日起至?3月21日,千萬流量支持原創(chuàng)作者!更有專屬【勛章】等你來挑戰(zhàn)
推薦閱讀:時間復(fù)雜度的表示、分析、計算方法……一文帶你看懂時間復(fù)雜度! Linux 會成為主流桌面操作系統(tǒng)嗎? 識別率驚人的 GitHub 口罩檢測 | 原力計劃 西二旗大廠復(fù)工記 智能合約編寫之Solidity的基礎(chǔ)特性 Javascript函數(shù)之深入淺出遞歸思想,附案例與代碼! 真香,朕在看了!總結(jié)
以上是生活随笔為你收集整理的数据科学家是个性感的工作?我信你个鬼!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 钉钉流量暴增百倍,阿里云抗住了!
- 下一篇: 什么是 CD 管道?一文告诉你如何借助K