初入数据科学领域,你需要有七个这样的思维
假設(shè)你剛剛被一家小型軟件公司聘為數(shù)據(jù)科學(xué)家。你感到欣喜若狂!你的辛勤工作和堅(jiān)持不懈終于得到了回報(bào)。是時(shí)候?qū)⒛愕慕y(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)知識(shí)付諸實(shí)踐了。那么恭喜你終于加入了數(shù)據(jù)革命。
?
第1天到來,每個(gè)人都很高興見到這位“數(shù)據(jù)科學(xué)家”。該公司以前從未聘請(qǐng)過數(shù)據(jù)科學(xué)家,因此有些期望值并不切實(shí)際。更可怕的是你的主管可能不是數(shù)據(jù)科學(xué)家,你可能向她在第一天為你提供幫助。“請(qǐng)給我一些數(shù)據(jù)!”你可能認(rèn)為數(shù)據(jù)很容易獲得檢索,或者至少它會(huì)以干凈整潔的格式存儲(chǔ)。很明顯,雇用你的公司有一個(gè)宏偉的計(jì)劃,在實(shí)現(xiàn)這個(gè)計(jì)劃之前不可能什么都準(zhǔn)備完畢,這也是你的價(jià)值所在!
?
對(duì)于大多數(shù)初級(jí)數(shù)據(jù)科學(xué)家加入小型公司(甚至是世界科技巨頭之外的組織)。作為曾經(jīng)又過這樣經(jīng)歷的人,我想概述一些實(shí)用的想法,以幫助初級(jí)數(shù)據(jù)科學(xué)家在一家小型軟件公司開始。這些步驟來自我個(gè)人的旅程和我之前的其他旅程。
?
1.獲取公司領(lǐng)域?qū)I(yè)知識(shí)
?
當(dāng)我第一次在Nulogy擔(dān)任數(shù)據(jù)科學(xué)家時(shí),我急于繞過繁瑣的入職流程,因?yàn)槲抑幌胪鏀?shù)據(jù)。我花了幾個(gè)月的時(shí)間才意識(shí)到,如果沒有正確理解我所運(yùn)營(yíng)的域名,就很難提出并證明新項(xiàng)目的合理性,以便為業(yè)務(wù)帶來哪些好處。
作為數(shù)據(jù)科學(xué)家,你需要了解你目前所屬行業(yè)的細(xì)節(jié)。你還可以就如何進(jìn)行探索性數(shù)據(jù)分析,自我批判你的發(fā)現(xiàn)并調(diào)查異常情況。擁有強(qiáng)大的專業(yè)知識(shí)使你能夠執(zhí)行更好的特征選擇和工程設(shè)計(jì)。實(shí)際上,構(gòu)建模型來優(yōu)化系統(tǒng)而不了解當(dāng)前系統(tǒng)如何工作的潛在細(xì)微差別是失敗的一個(gè)因素。
?
2.能力提升
僅僅理解你的公司為數(shù)據(jù)科學(xué)家提供職位描述并不意味著他們對(duì)該職位的內(nèi)容有深刻的理解。我的意思是讓我們面對(duì)現(xiàn)實(shí):有時(shí)我們也不會(huì)。我曾經(jīng)讀過一位數(shù)據(jù)科學(xué)主管的文章,他在開始擔(dān)任新角色后,花了30%或更多的時(shí)間在整個(gè)組織內(nèi)建立對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的共同理解(這是原始故事)。對(duì)于數(shù)據(jù)科學(xué)家在機(jī)器學(xué)習(xí)領(lǐng)域開展工作而言,這是一個(gè)很好的開始。你可以選擇使用R或Python教授課程,或者提供課程讓你及周圍的人圍繞統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)建立直覺。這對(duì)于幫助同事識(shí)別機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)有很大等幫助同時(shí)這也幫助你周圍的人了解你的具體操作,這樣在工作協(xié)同等時(shí)候更得心應(yīng)手。
?
3.數(shù)據(jù)理解
?
這可能是最重要的,也是最容易解釋的。一位新的數(shù)據(jù)科學(xué)家應(yīng)該是這樣理解的:
·?????? 如何產(chǎn)生數(shù)據(jù);
·?????? 如何收集,存儲(chǔ)和處理它;
·?????? 數(shù)據(jù)庫(kù)的基礎(chǔ)架構(gòu);
了解數(shù)據(jù)的產(chǎn)生和收集方式至關(guān)重要,因?yàn)樗鼓隳軌虼_定你是否可以按原樣信任數(shù)據(jù),或者是否需要進(jìn)一步預(yù)處理才能使用或呈現(xiàn)數(shù)據(jù)。了解數(shù)據(jù)庫(kù)的基礎(chǔ)架構(gòu)將加快查詢過程,并幫助你最大限度地減少在提取數(shù)據(jù)時(shí)所犯的錯(cuò)誤。確定需要收集哪些數(shù)據(jù)以實(shí)現(xiàn)公司的數(shù)據(jù)科學(xué)戰(zhàn)略(你應(yīng)該在整個(gè)中發(fā)揮重要作用)也很重要。
?
4.構(gòu)建知識(shí)庫(kù)(民主化數(shù)據(jù))
?
數(shù)據(jù)科學(xué)家的角色不應(yīng)局限于A / B測(cè)試、建立模型和發(fā)現(xiàn)相關(guān)性。相反,數(shù)據(jù)科學(xué)家應(yīng)該在組織中創(chuàng)建數(shù)據(jù)驅(qū)動(dòng)的文化中發(fā)揮關(guān)鍵作用。一個(gè)很好的起點(diǎn)是使你對(duì)所有員工所做工作的訪問民主化。Airbnb有一篇很棒的文章,關(guān)于建立它所謂的“知識(shí)回購(gòu)”。知識(shí)回購(gòu)的目的是促進(jìn)整個(gè)組織的知識(shí)共享,最簡(jiǎn)單的方法是使用Jupyter筆記本和R降價(jià)文件記錄所有數(shù)據(jù)科學(xué)工作,并使組織中的任何人都可以輕松訪問它們。你可以通過共享使用Shiny創(chuàng)建的簡(jiǎn)單應(yīng)用程序?qū)⑵涮嵘叫碌乃?#xff0c;使你的同事能夠操縱輸入并觀察輸出(數(shù)字或繪圖)如何變化。
?
5.專注于小勝利
當(dāng)作為小公司的第一位數(shù)據(jù)科學(xué)家時(shí),很可能不會(huì)立馬有機(jī)器學(xué)習(xí)策略。通過識(shí)別機(jī)器學(xué)習(xí)機(jī)會(huì)并立即建立復(fù)雜模型來嘗試開始工作可能會(huì)令人沮喪。這是因?yàn)槟闳匀徊皇煜I(yè)務(wù)領(lǐng)域,你還沒有沉浸在公司的數(shù)據(jù)基礎(chǔ)架構(gòu)中,甚至可能沒有數(shù)據(jù)管道設(shè)置!
該怎么辦?專注于小勝利。
組織中的每個(gè)級(jí)別都存在數(shù)據(jù)疏忽問題。你可以解決重要領(lǐng)域的實(shí)體,通過數(shù)據(jù)驅(qū)動(dòng)的決策支持銷售和營(yíng)銷,幫助產(chǎn)品團(tuán)隊(duì)設(shè)置,跟蹤和評(píng)估KPI,同時(shí)在公司的數(shù)據(jù)科學(xué)路線圖中并行工作。
?
這里的關(guān)鍵是讓立即證明自己的價(jià)值。
?
6.重復(fù)After Me:ROI
?
我們中的許多數(shù)據(jù)科學(xué)家都陷入了解決數(shù)學(xué)復(fù)雜問題和構(gòu)建機(jī)器學(xué)習(xí)算法的誘惑力。也就是說,現(xiàn)實(shí)情況是,我們認(rèn)為“有趣”問題的很大一部分不會(huì)帶來任何回報(bào)給我們的雇主。這些問題充其量只能充當(dāng)冷靜的對(duì)話啟動(dòng)者。
對(duì)于數(shù)據(jù)科學(xué)家而言,關(guān)注能夠?yàn)槠浣M織帶來投資回報(bào)(ROI)的問題極為重要。問問自己,在這個(gè)項(xiàng)目上話費(fèi)了多少美元?一個(gè)好的建議是讓利益相關(guān)者參與構(gòu)思過程,例如產(chǎn)品經(jīng)理,客戶經(jīng)理或更好的實(shí)際客戶。
同樣,知道何時(shí)停止也很重要。例如,投資回報(bào)率是否會(huì)將模型的準(zhǔn)確度提高5%,證明所需的努力和資源是合理的,還是模型在當(dāng)前狀態(tài)下足夠好?讓ROI和道德規(guī)范成為數(shù)據(jù)科學(xué)決策的兩個(gè)指導(dǎo)原則。
?
7.數(shù)據(jù)科學(xué)路線圖
?
在數(shù)據(jù)科學(xué)中,重要的是要提前考慮。你下一季度的數(shù)據(jù)科學(xué)游戲是什么?到年底怎么樣?明年呢?從我卑微的經(jīng)歷來看,這項(xiàng)任務(wù)很難單獨(dú)完成;你需要產(chǎn)品管理和高級(jí)管理人員的幫助,以了解數(shù)據(jù)科學(xué)最適合的位置以及最大化ROI的位置。然而,構(gòu)建和傳播數(shù)據(jù)科學(xué)路線圖對(duì)于傳達(dá)數(shù)據(jù)科學(xué)在組織中的作用和重要性至關(guān)重要。
將所有這些結(jié)合在一起
?
我沒有數(shù)據(jù)可以證明這一點(diǎn),但數(shù)據(jù)科學(xué)家在工作中不能長(zhǎng)時(shí)間存在的理論已有詳細(xì)記載。潛在的主題往往是數(shù)據(jù)科學(xué)家沒有受到足夠的挑戰(zhàn),因此他們總是在尋找“更性感”的事情。盡管如此,大多數(shù)中小型軟件公司的原始現(xiàn)實(shí)是,數(shù)據(jù)科學(xué)不是一個(gè)具有深思熟慮戰(zhàn)略和預(yù)定目標(biāo)的預(yù)定義角色。這是一個(gè)具有巨大未開發(fā)潛力的新發(fā)現(xiàn)領(lǐng)域,其中大部分需要在利潤(rùn)、數(shù)據(jù)分析、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)以及有針對(duì)性的數(shù)據(jù)通信之間確定和建立正確的橋梁。總而言之,數(shù)據(jù)科學(xué)是一個(gè)過程,有一個(gè)開始,有時(shí)不那么明確的結(jié)束。
本文由阿里云云棲社區(qū)組織翻譯。
文章原標(biāo)題《seven-practical-ideas-beginner-data-scientists》
作者:Wafic El-Assi?譯者:烏拉烏拉,審校:。
文章為簡(jiǎn)譯,更為詳細(xì)的內(nèi)容,請(qǐng)查看原文。
總結(jié)
以上是生活随笔為你收集整理的初入数据科学领域,你需要有七个这样的思维的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring aop代码的增强
- 下一篇: poj2411 Mondriaan's