7步让你get首个数据科学实习
由于數(shù)據(jù)科學(xué)的龐大和復(fù)雜,如果你沒有相關(guān)的實(shí)習(xí)經(jīng)歷的話,成為數(shù)據(jù)科學(xué)家的道路將會更加艱巨和困難。即使是經(jīng)驗(yàn)豐富的人,實(shí)習(xí)也是轉(zhuǎn)型進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的一種有效方式。
那么,尋找數(shù)據(jù)科學(xué)實(shí)習(xí)有哪些技巧?本文總結(jié)了數(shù)據(jù)科學(xué)實(shí)習(xí)中需要了解的關(guān)鍵提示、技巧和資源。
對大數(shù)據(jù)【數(shù)據(jù)分析,數(shù)據(jù)挖掘】概念都是模糊不清的,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。
在開始申請實(shí)習(xí)之前,第一步是什么?當(dāng)然是了解數(shù)據(jù)科學(xué)是什么。
為什么你想從事數(shù)據(jù)科學(xué)工作?是因?yàn)槟阆矚g編程、數(shù)學(xué)、統(tǒng)計(jì)還是因?yàn)槠渌峁┑臋C(jī)會?或者你是否只是順應(yīng)潮流,因?yàn)閿?shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)正是大勢所趨?
1.1 什么是數(shù)據(jù)科學(xué)?
每天生成的數(shù)據(jù)量正在呈指數(shù)級增長。在過去十年中,數(shù)據(jù)來源以及收集和存儲數(shù)據(jù)的能力已經(jīng)取得了極大的進(jìn)步。公司正在使用各種工具和技術(shù)來挖掘數(shù)據(jù)中的模式并收集有用的見解。簡而言之,這就是數(shù)據(jù)科學(xué)的全部意義所在。
數(shù)據(jù)為我們所做的一切提供動力。
——Jeff Weiner,領(lǐng)英CEO
數(shù)據(jù)科學(xué)涉及使用各種技術(shù)來理解數(shù)據(jù)并構(gòu)建預(yù)測模型以做出業(yè)務(wù)決策。數(shù)據(jù)科學(xué)的一些流行應(yīng)用包括欺詐檢測、體育分析、航空公司航線規(guī)劃等。
因此,如果數(shù)據(jù)科學(xué)是關(guān)于從數(shù)據(jù)中獲取洞察力和發(fā)現(xiàn)模式,那么數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家之間有什么區(qū)別?
1.2 數(shù)據(jù)科學(xué)家 vs 統(tǒng)計(jì)學(xué)家
數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家都使用這些數(shù)據(jù)從中獲得有用的見解。統(tǒng)計(jì)學(xué)家專注于識別數(shù)據(jù)中的關(guān)系,而數(shù)據(jù)科學(xué)家則致力于使用關(guān)系并建立模型來預(yù)測未來結(jié)果。數(shù)據(jù)科學(xué)家的目標(biāo)是建立一個(gè)高精度的通用模型。
統(tǒng)計(jì)學(xué)家經(jīng)常使用R、Excel或MATLAB等工具,因?yàn)樗鼈冇性S多用于數(shù)據(jù)分析的庫。另一方面,數(shù)據(jù)科學(xué)家主要使用Python,Apache Spark等來探索數(shù)據(jù)和構(gòu)建模型。下面是一個(gè)很酷的信息圖,總結(jié)了這兩個(gè)角色之間的差異:
1.3 數(shù)據(jù)科學(xué)領(lǐng)域中的通用術(shù)語
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是利用算法(如線性回歸,邏輯回歸,決策樹等)從數(shù)據(jù)中學(xué)習(xí)并做出明智的決策。例如,根據(jù)過去的貸款人的數(shù)據(jù)來預(yù)測他們是否還會申請貸款。
深度學(xué)習(xí):深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,旨在模仿人類的決策能力。例如,識別給定圖像中的對象,或?qū)D像分類為貓或狗。
自然語言處理(NLP):NLP是數(shù)據(jù)科學(xué)的一個(gè)分支,負(fù)責(zé)分析、理解和從文本數(shù)據(jù)中獲取信息。你在亞馬遜上看到的所有評論,或者每天瀏覽的所有帖子,NLP技術(shù)會對其進(jìn)行分析并理解用戶的情緒。NLP是目前數(shù)據(jù)科學(xué)領(lǐng)域最熱門的領(lǐng)域之一。
計(jì)算機(jī)視覺:顧名思義,計(jì)算機(jī)視覺使機(jī)器能夠看到和理解周圍環(huán)境。有沒有注意到Facebook如何自動建議圖片中的標(biāo)簽?或者自動駕駛汽車如何檢測道路上的物體?這些是計(jì)算機(jī)視覺的主要例子。這是另一個(gè)將在未來幾年內(nèi)出現(xiàn)大量工作的領(lǐng)域。
推薦引擎:曾經(jīng)使用過Flipkart或Amazon的任何人都是推薦引擎的一部分。 這包括分析過去的用戶行為以提供相關(guān)的建議。“購買此產(chǎn)品的客戶也購買了”或“根據(jù)您過去的購買情況推薦給您”是推薦工作的示例。
如果你是一個(gè)沒有行業(yè)經(jīng)驗(yàn)的新生,實(shí)習(xí)是在數(shù)據(jù)科學(xué)中發(fā)揮作用的最佳方式。與經(jīng)驗(yàn)豐富的人合作,可以為你提供獲得行業(yè)經(jīng)驗(yàn)的機(jī)會。那么,第一次數(shù)據(jù)科學(xué)實(shí)習(xí)需要哪些基本技能?
注意:我們將重點(diǎn)關(guān)注你的綜合能力,而不是典型的數(shù)據(jù)科學(xué)實(shí)習(xí)面試所需的軟技能(如良好的態(tài)度,信心等)。
2.1 理解統(tǒng)計(jì)學(xué)和概率
統(tǒng)計(jì)和概率是數(shù)據(jù)科學(xué)所需的基本核心技能。如果沒有對這兩者的充分理解,你將不會在這個(gè)領(lǐng)域(或面試過程中)取得很大進(jìn)展。從分析數(shù)據(jù)并做出有價(jià)值的推論到理解模型的工作原理,統(tǒng)計(jì)和概率的基本概念被整合到數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)中。
我們可以利用許多統(tǒng)計(jì)技術(shù)和概率分布來理解給定數(shù)據(jù)的結(jié)構(gòu)。以下是你在處理數(shù)據(jù)科學(xué)問題時(shí)將要使用的一些重要主題:
描述統(tǒng)計(jì)學(xué)
1.1 平均值、中值、眾數(shù)
1.2 方差和標(biāo)準(zhǔn)差
概率
2.1 伯努利試驗(yàn)&概率質(zhì)量函數(shù)
2.2 中心極限定理
2.3 正態(tài)分布
推論統(tǒng)計(jì)
3.1 置信區(qū)間
3.2 假設(shè)檢驗(yàn)
3.3 相關(guān)系數(shù)
你可以從這里了解到統(tǒng)計(jì)和概率這兩個(gè)領(lǐng)域中的一些常見面試問題。
2.2 優(yōu)秀的編程技能(任何編程語言)
是的,你需要了解編程才能成為數(shù)據(jù)科學(xué)家,沒有逃避它的后路。AutoML(自動機(jī)器學(xué)習(xí))正在逐漸被業(yè)界接受,但是現(xiàn)在,除了技術(shù)過硬的編碼技能之外別無選擇。
目前用于數(shù)據(jù)科學(xué)的兩種最流行的編程工具是Python和R。你必須至少熟悉其中一種。這些都是開源編程語言,并擁有一個(gè)日益增長的大型活躍社區(qū)。
R主要用于探索性工作,是統(tǒng)計(jì)分析任務(wù)的首選,它有一個(gè)相對較大的統(tǒng)計(jì)軟件包庫。另一方面,Python是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)的首選,它有許多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)庫和包。
如今,Python在業(yè)界的歡迎度肯定是更高了。如果你想學(xué)習(xí)高級機(jī)器學(xué)習(xí)主題,當(dāng)然還有深度學(xué)習(xí),這是一個(gè)簡單的選擇。Python提供的靈活性在這些任務(wù)中是無與倫比的。R是一個(gè)非常熟練的工具,用于進(jìn)行探索性分析,包括產(chǎn)生一些非常有洞察力和美學(xué)上令人愉悅的情節(jié)。
2.3 基本的機(jī)器學(xué)習(xí)算法
如果你已經(jīng)了解了統(tǒng)計(jì)學(xué)和概率的基礎(chǔ)知識,并且已經(jīng)掌握了編碼技能,那么下一步就是學(xué)習(xí)機(jī)器學(xué)習(xí)的基礎(chǔ)知識。熟悉常見的機(jī)器學(xué)習(xí)算法,如線性回歸、邏輯回歸、決策樹、隨機(jī)森林、樸素貝葉斯、k近鄰和支持向量機(jī)(support vector machines)。
試著關(guān)注一種算法并理解每種技術(shù)背后的直覺。擁有算法的理論知識及其工作方式與能夠?qū)崿F(xiàn)算法同樣重要。如果你知道算法的工作原理,那么理解算法的各種參數(shù),調(diào)整這些參數(shù)以及決定使用哪種算法與哪種類型的數(shù)據(jù)將會更加容易。
你已經(jīng)努力學(xué)習(xí)所有這些新概念。現(xiàn)在應(yīng)該學(xué)習(xí)如何展示自己的技能,從而補(bǔ)充所學(xué)。
僅統(tǒng)計(jì)、編程和機(jī)器學(xué)習(xí)的知識可能不會讓你獲得實(shí)習(xí)機(jī)會。你需要建立自己的數(shù)字形象。展現(xiàn)自己的巨大潛力以及在數(shù)據(jù)科學(xué)之旅中獲得的技能。讓大家知道你的能力!
在本節(jié)中,我們將介紹制作你的電子檔案的不同方法。
3.1 負(fù)責(zé)的項(xiàng)目
學(xué)習(xí)任何東西的最好方法是將知識付諸實(shí)踐。與其說“我知道這種技術(shù)”,不如將其在項(xiàng)目中展示出來。構(gòu)建端到端的項(xiàng)目可讓你了解數(shù)據(jù)科學(xué)家在日常角色中可能面臨的各種可能性和挑戰(zhàn)。
你可以查找與自己感興趣的領(lǐng)域相關(guān)的開源項(xiàng)目。如果你是小說的忠實(shí)粉絲,就可以用自然語言處理來分析你最喜歡的作家的作品。這表明了你對數(shù)據(jù)科學(xué)的熱情,并為你未來的就業(yè)提供了優(yōu)勢。
以下是一些實(shí)踐問題,可以從中獲得一些寶貴的實(shí)踐經(jīng)驗(yàn):
· 機(jī)器學(xué)習(xí)
o 大型超市銷售
(https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?utm_source=blog&utm_medium=internshiparticle)
o 貸款預(yù)測
(https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?utm_source=blog&utm_medium=internshiparticle)
· 自然語言處理
o 情緒分析
(https://datahack.analyticsvidhya.com/contest/linguipedia-codefest-natural-language-processing-1/?utm_source=blog&utm_medium=internshiparticle)
o 笑話評級
(https://datahack.analyticsvidhya.com/contest/jester-practice-problem/?utm_source-blog&utm_medium=internshiparticle)
· 推薦引擎
(https://datahack.analyticsvidhya.com/contest/build-a-recommendation-engine-powered-by-ibm-cloud/?utm_source=blog)
· 計(jì)算機(jī)視覺
o Intel場景分類
(https://datahack.analyticsvidhya.com/contest/practice-problem-intel-scene-classification-challe/?utm_source=blog&utm_medium=internshiparticle)
o 人臉計(jì)數(shù)挑戰(zhàn)
(https://datahack.analyticsvidhya.com/contest/vista-codefest-computer-vision-1/?utm_source=blog&utm_medium=internshiparticle)
3.2 創(chuàng)建GitHub檔案
你還應(yīng)該在此階段開始構(gòu)建GitHub配置文件。這基本上是你的數(shù)據(jù)科學(xué)簡歷,全世界的人都可以查閱。
大多數(shù)數(shù)據(jù)科學(xué)招聘人員和訪調(diào)員都會查看候選人的GitHub資料,以評估他/她的潛力。在處理項(xiàng)目時(shí),可以同時(shí)列出GitHub上的問題陳述和代碼。以下是一個(gè)小清單,你可以在下次將代碼添加到GitHub:
· 添加問題陳述
· 制作清晰的自述文件
· 編寫清楚的代碼
· 在代碼中添加評論
· 盡可能多的添加個(gè)人/課程項(xiàng)目
· 如果到達(dá)一定的級別,則可以參與開源項(xiàng)目
3.3 寫博客
撰寫文章是一個(gè)推動數(shù)據(jù)科學(xué)事業(yè)的大秘訣,這有助于我們以更加清晰明了的方式理解該技術(shù)。
各種社區(qū)上,大家很樂意與你分享他們的想法和反饋。當(dāng)你將文章公開發(fā)表時(shí),人們經(jīng)常會分享他們的觀點(diǎn),例如“添加實(shí)際與預(yù)測的可視化可能會有所幫助”,這可以幫助你進(jìn)行改進(jìn)。
Quora可以被視為寫博客的另一種選擇。將復(fù)雜的主題分解為易于理解的單詞有助于你掌握主題并精細(xì)調(diào)整結(jié)構(gòu)化思維技能。
起初,你可以撰寫一些基本主題,例如使用thematplotlib庫的數(shù)據(jù)探索,實(shí)踐問題的方法和解決方案,你完成的MOOC的摘要或注釋等。
3.4 創(chuàng)建并優(yōu)化領(lǐng)英個(gè)人資料
LinkedIn是世界上最大的職場網(wǎng)絡(luò)平臺。即使你是一個(gè)新人或者仍在讀研究生院,你也應(yīng)該學(xué)習(xí)使用LinkedIn。
招聘人員經(jīng)常使用LinkedIn來驗(yàn)證你的個(gè)人資料,或在有機(jī)會的情況下與你聯(lián)系。你可以將其視為第二份簡歷或紙質(zhì)簡歷的數(shù)字版本。如果你申請實(shí)習(xí)但個(gè)人資料未更新(或不存在),你可能會錯過機(jī)會。
根據(jù)申請的實(shí)習(xí)優(yōu)化你的LinkedIn個(gè)人資料。更新你過去的經(jīng)歷(如果有的話)、教育水平、所做的項(xiàng)目和興趣。如果你尚未創(chuàng)建配置文件,請立即執(zhí)行。你還應(yīng)該通過與數(shù)據(jù)科學(xué)領(lǐng)域的人員建立聯(lián)系來開始構(gòu)建社交網(wǎng)絡(luò)。
領(lǐng)英里有很多極具影響力的人,他們會提供許多有用的發(fā)展建議。所以這一步請務(wù)必要做。
應(yīng)包含(或不應(yīng)包含)哪些內(nèi)容?
你的簡歷基本上是職業(yè)生涯的亮點(diǎn)。這是招聘人員/招聘經(jīng)理看到的第一件事,所以制作完美的簡歷絕對是開啟實(shí)習(xí)的關(guān)鍵。
即使你擁有實(shí)習(xí)要求部分列出的所有技能,如果簡歷未達(dá)標(biāo),很可能無法接受面試。
你必須,并且絕對必須花費(fèi)大量時(shí)間來創(chuàng)建和完善簡歷。
那么,在做這件事時(shí)要記住哪些關(guān)鍵事項(xiàng)?
確保簡歷是最新的,并且沒有任何拼寫錯誤。檢查兩次,甚至三次。讓同事或朋友從招聘人員的角度對其進(jìn)行審核。
在創(chuàng)建或更新簡歷時(shí),請始終牢記這一點(diǎn):寫下你所知道的,知道你寫的是什么。
還記得你在大學(xué)的第一年做的項(xiàng)目嗎?如果是大約在2-3年前,你可能已經(jīng)不記得細(xì)節(jié)了,要么對其進(jìn)行深入它,要么不在簡歷上添加它。有10個(gè)你無法談?wù)摰捻?xiàng)目對于招聘人員來講是危險(xiǎn)信號!你所掌握的所有技術(shù)技能都是如此。
獲得數(shù)據(jù)科學(xué)實(shí)習(xí)的最大挑戰(zhàn)無疑是面試過程。鑒于你之前沒有此領(lǐng)域的工作經(jīng)驗(yàn),招聘人員會看到簡歷的哪些方面?你應(yīng)該在簡歷和實(shí)際面試中展示哪些技能?
這是很重要的問題!如何駕馭這些棘手的問題一定會影響你實(shí)習(xí)的機(jī)會。
當(dāng)然,你將提到正在處理(或正在進(jìn)行中)的項(xiàng)目。但除此之外,無論來自何種背景,面試官都會熱衷于考驗(yàn)?zāi)恪1竟?jié)將介紹你需要關(guān)注并準(zhǔn)備面試的關(guān)鍵事項(xiàng)。
5.1 結(jié)構(gòu)化思維
在復(fù)雜的數(shù)據(jù)科學(xué)世界中,構(gòu)建思想的能力是一項(xiàng)寶貴的技能。面試官會判斷你是否有能力將問題陳述分解為更小的步驟。你是怎么做到的,這就是金礦的所在。
對于任何給定的問題陳述,有必要確定最終目標(biāo)是什么。下一步是了解你提供的數(shù)據(jù),并確定達(dá)到最終目標(biāo)所需的流程。所有這一切都發(fā)生在有限的時(shí)間范圍內(nèi)(畢竟面試官沒有一整天的時(shí)間了解你)。你是否看到擁有結(jié)構(gòu)化思維心態(tài)的重要性?
為了檢查你的結(jié)構(gòu)化思維技巧,你會被問到一個(gè)問題——目前發(fā)送了多少封郵件?或者班加羅爾的道路上有多少輛紅色汽車?印度每天售出多少支香煙?
例如,如果想了解上個(gè)月信用卡投資組合中的收費(fèi)突然增加的原因,我們會將其放在類似于以下的結(jié)構(gòu)中:
這些問題都沒有固定的答案。那你怎么解決它們呢?首先要明白的是,面試官并不期望得到確切的數(shù)字答案。相反,他們試圖了解你如何看待問題以及獲得最終答案的方法。要求使用筆和紙(或白板)是個(gè)好主意,這樣你就可以逐步展示自己的想法。
5.2 對于你所申請公司的了解
我們經(jīng)常聽到招聘人員如何在沒有閱讀面試的工作描述的情況下就過來面試。
在決定申請工作之前,你必須知道公司的工作內(nèi)容和愿景。別無他法。
我們的建議是多研究公司,了解他們的工作。你覺得自己如何適應(yīng)?你能直接看到你的技能可以產(chǎn)生的影響嗎?你還必須徹底查看職位描述并在面試中提出問題,以了解你對公司的適應(yīng)性。這將節(jié)省你和公司的時(shí)間。
建議閱讀下面的指南,其中詳細(xì)列出了準(zhǔn)備數(shù)據(jù)科學(xué)面試時(shí)可能涵蓋的主要話題:
· The Most Comprehensive Data Science & Machine Learning Interview Guide You’ll Ever Need
(https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/?utm_source=blog&utm_medium=internshiparticle)
在本節(jié)中,我們?yōu)槟闾峁┝艘恍╊~外的提示和技巧,以提高你被選中的機(jī)會。
6.1 高級機(jī)器學(xué)習(xí)
沒有什么比看著你自信地回答先進(jìn)的機(jī)器學(xué)習(xí)問題更能打動面試官了。掌握先進(jìn)的機(jī)器學(xué)習(xí)知識肯定會給你帶來優(yōu)勢。
確保你已經(jīng)掌握了我們之前討論過的基本機(jī)器學(xué)習(xí)主題(統(tǒng)計(jì)數(shù)據(jù),概率,回歸,樹算法等)。然后,你可以安全地跳轉(zhuǎn)到高級機(jī)器學(xué)習(xí)算法、推薦系統(tǒng)、時(shí)間序列預(yù)測算法等。
在職業(yè)生涯的這個(gè)階段,沒有必要詳細(xì)了解所有算法。相信你會發(fā)現(xiàn)3-4種非常有用的技巧,這些需要你好好學(xué)習(xí),并在面試中闡述你的想法。你應(yīng)該對算法及其背后的數(shù)學(xué)有一個(gè)公平的理解。可以根據(jù)自己的興趣選擇特定字段,并探索該領(lǐng)域中的各種技術(shù)。
舉個(gè)例子,如果你對時(shí)間序列感興趣,可以開始探索不同的預(yù)測技術(shù)、平穩(wěn)性的概念,甚至選擇一個(gè)關(guān)于時(shí)間序列的項(xiàng)目并進(jìn)行研究。或者,如果自然語言處理是你感興趣的領(lǐng)域,可以了解如何從基于文本的數(shù)據(jù)中提取特征,可以在文本數(shù)據(jù)上使用哪些算法等等。
6.2 參與數(shù)據(jù)科學(xué)競賽
這為你的簡歷增添了巨大的優(yōu)勢,增加了實(shí)習(xí)的機(jī)會。完成項(xiàng)目后,證明知識不僅限于書籍。你已經(jīng)明確嘗試將理論學(xué)習(xí)轉(zhuǎn)化為現(xiàn)實(shí)世界的數(shù)據(jù)集——這是你的好奇心、熱情和學(xué)習(xí)意愿非常高的確定標(biāo)志。
首先,我們鼓勵你參加數(shù)據(jù)科學(xué)競賽。從AV的DataHack平臺或Kaggle上列出的***馬拉松開始。這些平臺提供了模仿真實(shí)場景的問題陳述,從而讓你對行業(yè)有了非常珍貴的感受。
你還可以與來自世界各地的頂級數(shù)據(jù)科學(xué)家競爭(并從中學(xué)習(xí))。這可以作為自身進(jìn)步的良好晴雨表。繼續(xù)練習(xí),你會驚奇地發(fā)現(xiàn)你的排名會上升的如此之快。實(shí)踐是數(shù)據(jù)科學(xué)之王。
實(shí)習(xí)可以為你提供哪些教科書、MOOC和視頻不能所不能提供的知識?
實(shí)踐經(jīng)驗(yàn)。
7.1 如何解決實(shí)際項(xiàng)目
在實(shí)習(xí)期間,你將參與真實(shí)的項(xiàng)目。這是非常寶貴的經(jīng)驗(yàn)。一旦加入,就可能會發(fā)現(xiàn)自己已經(jīng)進(jìn)去端到端的數(shù)據(jù)科學(xué)生命周期,包括定義問題陳述和構(gòu)建模型。
如果你之前參加過數(shù)據(jù)科學(xué)競賽,將對數(shù)據(jù)科學(xué)家遇到的不同挑戰(zhàn)有所了解。
但是,這些競賽中提供的問題陳述和數(shù)據(jù)集與現(xiàn)實(shí)場景非常不同。數(shù)據(jù)集在行業(yè)中是混亂和非結(jié)構(gòu)化的。在構(gòu)建任何模型之前,需要進(jìn)行大量的數(shù)據(jù)清理工作。
事實(shí)上,如果70-80%的任務(wù)涉及數(shù)據(jù)清理,請不要感到驚訝。
你將學(xué)習(xí)如何構(gòu)造問題陳述,理解解決問題所需的域和數(shù)據(jù),然后找出提取數(shù)據(jù)的來源。下一步是深入研究。了解其他數(shù)據(jù)科學(xué)家為解決類似問題所采取的方法。
這將讓你對什么應(yīng)該運(yùn)作良好以及什么不值得投入時(shí)間有一個(gè)清晰的認(rèn)知。雖然數(shù)據(jù)科學(xué)鼓勵進(jìn)行實(shí)驗(yàn),但你從經(jīng)理那里獲得的創(chuàng)作自由度是有限的。過濾掉你知道不會事先工作的方面。
7.2 講述數(shù)據(jù)故事的方式(探索性數(shù)據(jù)分析)
人們通常花費(fèi)更多時(shí)間來構(gòu)建模型而不是理解數(shù)據(jù)。這其實(shí)是不行的。
真正理解擁有的數(shù)據(jù)是非常重要的。數(shù)據(jù)集中存在很多級別和隱藏方面,我們經(jīng)常忽略這些級別和隱藏方面來構(gòu)建模型。這是你在實(shí)習(xí)期間學(xué)到的東西(但應(yīng)事先做好準(zhǔn)備)。
花盡可能多的時(shí)間探索數(shù)據(jù)!繪制圖表,找到模式,然后好好鉆研,就像它是世界上最好的工作(它真的是!)。嘗試了解分布,查找影響目標(biāo)變量的因素并進(jìn)行推斷。建立假設(shè),將數(shù)據(jù)可視化,找到見解,最重要的是,與隊(duì)友討論發(fā)現(xiàn)的問題。
7.3 團(tuán)隊(duì)合作
數(shù)據(jù)科學(xué)實(shí)習(xí)的好處是可以與非常聰明和支持的人合作。當(dāng)你朝著最終目標(biāo)努力時(shí),數(shù)據(jù)科學(xué)項(xiàng)目需要同事之間的協(xié)作和協(xié)調(diào)。
在團(tuán)隊(duì)中工作的最好的部分是總是有人討論你的想法(并澄清疑慮)。團(tuán)隊(duì)合作不僅可以幫助你建立自己的軟技能,還可以磨練技術(shù)技能,真是個(gè)雙贏的組合!
7.4 在這個(gè)領(lǐng)域獲得實(shí)踐經(jīng)驗(yàn)
當(dāng)你開始數(shù)據(jù)科學(xué)求職時(shí),很可能會發(fā)現(xiàn)大多數(shù)公司都要求在域中獲得一些經(jīng)驗(yàn)。你應(yīng)該了解公司正在處理的問題,并考慮可以做出貢獻(xiàn)的方式。與正在從事項(xiàng)目的人討論想法。
你還應(yīng)該嘗試了解公司中其他人的角色。可以與不同團(tuán)隊(duì)的人員進(jìn)行交流和討論。例如,與營銷團(tuán)隊(duì)交談,了解是否可以考慮解決問題的數(shù)據(jù)驅(qū)動解決方案。充分利用機(jī)會,提出相關(guān)問題并向團(tuán)隊(duì)學(xué)習(xí)。
對大數(shù)據(jù)【數(shù)據(jù)分析,數(shù)據(jù)挖掘】概念都是模糊不清的,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。
轉(zhuǎn)載于:https://blog.51cto.com/14217196/2364180
總結(jié)
以上是生活随笔為你收集整理的7步让你get首个数据科学实习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 解决 网易云.ncm格式
- 下一篇: conda install 出错