硅谷2020最新大数据学习路线:科学使用这一招,12周助你成为数据分析师
來源 | 智領(lǐng)云科技
責(zé)編 | Carol
數(shù)據(jù)科學(xué)到底是什么?
?
數(shù)據(jù)科學(xué)是一門將數(shù)據(jù)變得有用的學(xué)科,它包含三個(gè)重要概念:統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘/分析。《數(shù)據(jù)科學(xué)雜志》曾提出:“所謂的‘?dāng)?shù)據(jù)科學(xué)’,指的是那些任何與數(shù)據(jù)相關(guān)的內(nèi)容”。對此,我表示贊同,現(xiàn)在一切都無法與數(shù)據(jù)分割。之后,對數(shù)據(jù)科學(xué)的定義便層出不窮,例如Conway的維恩圖,以及Mason和Wiggins的經(jīng)典觀點(diǎn)。
?
? ? ? ??? ? ?
?
?
那么,我們究竟如何能夠讓數(shù)據(jù)變得更有用呢?可以通過以下幾個(gè)步驟來實(shí)現(xiàn):
?
數(shù)據(jù)挖掘:如果不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的數(shù)據(jù)挖掘、數(shù)據(jù)分析、描述性分析、探索性數(shù)據(jù)分析或知識發(fā)現(xiàn)。
?
數(shù)據(jù)挖掘的黃金法則是:只對你能看到的做出結(jié)論,而不對你看不到的做出結(jié)論,因?yàn)槟阈枰y(tǒng)計(jì)數(shù)據(jù)和更多的專業(yè)知識。數(shù)據(jù)挖掘的專業(yè)知識是通過檢查數(shù)據(jù)的速度來判斷的,只需學(xué)會操作設(shè)備及R語言的教程、Python語言的教程等等。當(dāng)你開始玩得開心時(shí),你可以稱自己為數(shù)據(jù)分析師,當(dāng)你能夠以閃電般的速度曝光照片以及所有其他類型的數(shù)據(jù)集時(shí),你就可以稱為專家分析師。
?
統(tǒng)計(jì)推斷:靈感很容易獲取,但嚴(yán)謹(jǐn)卻很難做到,如果你想掌握數(shù)據(jù),則需要專業(yè)課程的學(xué)習(xí)。想要做好它需要花費(fèi)不少的時(shí)間,如果打算做出高質(zhì)量且風(fēng)險(xiǎn)可控的決策,由于決策不僅僅依賴所得到的數(shù)據(jù),此時(shí)則需要在分析團(tuán)隊(duì)中加入統(tǒng)計(jì)技能,因?yàn)樵谇闆r不確定的時(shí)候,或許統(tǒng)計(jì)學(xué)能夠改變你的想法。
?
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)從本質(zhì)上來講,是使用示例而非指令來實(shí)現(xiàn)操作的,大家可以看一些關(guān)于機(jī)器學(xué)習(xí)的文章,包括機(jī)器學(xué)習(xí)與人工智能有何不同、如何入門機(jī)器學(xué)習(xí)、企業(yè)運(yùn)用機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)教訓(xùn)以及向孩子介紹監(jiān)督學(xué)習(xí)等。
?
數(shù)據(jù)工程:數(shù)據(jù)工程指的是將數(shù)據(jù)傳遞給數(shù)據(jù)科學(xué)團(tuán)隊(duì)的工作。它本身就是一個(gè)復(fù)雜的領(lǐng)域,通常而言,它更接近于軟件工程,而不是統(tǒng)計(jì)學(xué)。獲取數(shù)據(jù)之前的大部分技術(shù)工作都可以被稱為“數(shù)據(jù)工程”,而獲取到數(shù)據(jù)后所做的一切都是“數(shù)據(jù)科學(xué)”。
?
決策智能:決策智能是關(guān)于決策的,包括基于數(shù)據(jù)的大規(guī)模決策,這使得它變成了一門工程學(xué)科。利用社會和管理學(xué)科,增強(qiáng)數(shù)據(jù)科學(xué)的應(yīng)用。決策只能是社會和管理學(xué)科的組成部分。換句話說,它是這些數(shù)據(jù)科學(xué)的超集,不涉及為通用用途創(chuàng)建基本方法之類的研究工作。
?
想要在12周內(nèi)成為數(shù)據(jù)科學(xué)家嗎?成為數(shù)據(jù)分析師可能是一個(gè)不錯(cuò)的目標(biāo)
?
許多廣告聲稱可以在12周內(nèi)使您成為數(shù)據(jù)科學(xué)家,并教您Python編程,Pandas,Matplotlib等python庫和scikit-learn,Tableau,SQL等其他可視化工具。12周后,您將獲得一份可賺取約100,000美元的工作。這現(xiàn)實(shí)嗎?取決于您所處的級別。如果已經(jīng)知道一種編程語言并轉(zhuǎn)而使用Python從事新的職業(yè),那么如果努力工作是可以實(shí)現(xiàn)的。但如果沒有任何編程背景,則很難。
?
合理的時(shí)間表:如果想成為數(shù)據(jù)科學(xué)家,則需要至少學(xué)習(xí)一種編程語言。學(xué)習(xí)編程語言并不意味著只學(xué)習(xí)if / else語句和循環(huán),你應(yīng)該花至少三個(gè)月的時(shí)間只學(xué)習(xí)一種語言。?如果不這樣做而立即進(jìn)入所有的學(xué)習(xí)庫和數(shù)據(jù)庫,那么極有可能最終會學(xué)無所成。
?
這些只是最低要求:你需要不斷提高自己的編程技能,重要的一件事是統(tǒng)計(jì),至少要學(xué)習(xí)一些初級的推理統(tǒng)計(jì)數(shù)據(jù)和模型擬合,并學(xué)習(xí)在Python或R中實(shí)現(xiàn)它們。另外,將數(shù)據(jù)挖掘視為一項(xiàng)重要技能,那里有很多數(shù)據(jù),需要進(jìn)行提取。如果您能花費(fèi)一兩年時(shí)間去學(xué)習(xí)這些技能,它將會為您的生活增添很多價(jià)值。
?
12周到18周的合理時(shí)間?:看起來很難在12周內(nèi)成為一名數(shù)據(jù)科學(xué)家,不過成為數(shù)據(jù)分析師可能是一個(gè)不錯(cuò)的目標(biāo)。
?
進(jìn)一步提高Excel技能,了解一些高級技術(shù),例如數(shù)據(jù)透視表,Visual Basic等;了解Tableau這樣優(yōu)質(zhì)的數(shù)據(jù)可視化工具,學(xué)習(xí)SQL ,它比學(xué)習(xí)編程語言更容易,同時(shí)也是就業(yè)市場中的一項(xiàng)寶貴技能。
?
發(fā)展軟技能?:以上三項(xiàng)技能加在一起可以助您輕松就業(yè)。但是我們過于專注于學(xué)習(xí)工具,卻忘記花一些時(shí)間來開發(fā)軟技能。沒有一些實(shí)際的良好知識,將很難有效地使用這些工具。同時(shí),請閱讀文章、書籍或報(bào)紙以保持與時(shí)俱進(jìn)。包括:參加研討會聽取經(jīng)驗(yàn)豐富的人的講話,參與Stack Overflow,Stack Exchange和Slack Channels社區(qū),隨時(shí)了解就業(yè)市場,最新技術(shù)并提高軟技能。
?
結(jié)論:我的建議是,開始學(xué)習(xí)免費(fèi)課程。?甚至根本不需要為學(xué)習(xí)編程語言付費(fèi), Coursera , edx , udacity有一些高質(zhì)量的免費(fèi)課程。
?
3個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題??
? ??
為了不讓自己在同一個(gè)地方失敗兩次,也為了讓自己對他人有用,以此文章獻(xiàn)給那些想追隨自己的激情,成為數(shù)據(jù)科學(xué)家的人。數(shù)據(jù)科學(xué)是一個(gè)需要不斷提高技能的領(lǐng)域,同時(shí)每天都在發(fā)展機(jī)器學(xué)習(xí)算法的基本概念。
?
問題1:共線性會對模型有影響嗎?
?
答案:?共線性是指兩個(gè)或多個(gè)預(yù)測變量之間關(guān)系密切。下面的圖2顯示了共線變量的例子。變量2嚴(yán)格遵循變量1,Pearson相關(guān)系數(shù)為1。所以很明顯,當(dāng)這些變量被輸入到機(jī)器學(xué)習(xí)模型中時(shí),它們中的一個(gè)會表現(xiàn)得像噪音一樣。
? ? ? ??? ? ?
共線性變量的例子
?
共線性的存在在回歸類型的問題中可能成為問題,因?yàn)楹茈y分離出共線性變量對響應(yīng)的個(gè)別影響。或者換句話說,共線性降低了回歸系數(shù)估計(jì)值的準(zhǔn)確性,導(dǎo)致誤差增加。這將最終導(dǎo)致t統(tǒng)計(jì)量的下降,因此,在共線性存在的情況下,我們可能無法拒絕原假設(shè)。
?
檢測共線性的一個(gè)簡單方法是查看預(yù)測變量的相關(guān)矩陣。這個(gè)矩陣的一個(gè)元素的絕對值很大,表明了一對高度相關(guān)的變量,存在數(shù)據(jù)共線性的問題。不幸的是,并不是所有的共線性問題都可以通過檢查相關(guān)矩陣來發(fā)現(xiàn):即使沒有一對變量具有特別高的相關(guān)性,三個(gè)或多個(gè)變量之間也可能存在共線性。這種情況稱為多重共線性。對于這種情況,評估多重共線性的一個(gè)更好的方法是計(jì)算方差膨脹因子?(VIF),而不是檢查相關(guān)矩陣。每個(gè)變量的VIF可以用公式計(jì)算:
?
? ? ? ??? ? ?
方差膨脹因子
?
其中r平方項(xiàng)是變量X對所有其他預(yù)測因子的回歸。如果VIF接近或大于1,則存在共線性。當(dāng)遇到共線性問題時(shí),有兩種可能的解決方案。一種是刪除冗余變量。這可以在不影響回歸擬合的情況下完成。第二種方法是將共線變量合并成單個(gè)預(yù)測器。
?
問題2:給外行解釋深度神經(jīng)網(wǎng)絡(luò)
?
答案:神經(jīng)網(wǎng)絡(luò)(NN)的概念最初起源于人類大腦,其目的是識別模式。神經(jīng)網(wǎng)絡(luò)是一套通過機(jī)器感知、標(biāo)記和聚類原始輸入數(shù)據(jù)來解釋感知數(shù)據(jù)的算法。任何類型的現(xiàn)實(shí)世界數(shù)據(jù),無論是圖像、文本、聲音甚至?xí)r間序列數(shù)據(jù),都必須轉(zhuǎn)換成包含數(shù)字的向量空間。
?
深度神經(jīng)網(wǎng)絡(luò)中的深度是指神經(jīng)網(wǎng)絡(luò)由多層構(gòu)成。這些層是由節(jié)點(diǎn)組成的,在節(jié)點(diǎn)上進(jìn)行計(jì)算。人腦中的一個(gè)類似節(jié)點(diǎn)的神經(jīng)元在遇到足夠的刺激時(shí)就會被激活。節(jié)點(diǎn)將原始輸入的數(shù)據(jù)與其系數(shù)或權(quán)值組合在一起,這些系數(shù)或權(quán)值根據(jù)權(quán)值減弱或放大輸入。輸入和權(quán)重的乘積在圖3所示的求和節(jié)點(diǎn)上求和,然后將其傳遞給激活函數(shù),激活函數(shù)決定該信號是否應(yīng)該在網(wǎng)絡(luò)中進(jìn)一步擴(kuò)展并影響最終結(jié)果。節(jié)點(diǎn)層是一排類似神經(jīng)元的開關(guān),當(dāng)輸入通過網(wǎng)絡(luò)輸入時(shí),這些開關(guān)就會打開或關(guān)閉。
?
? ? ? ?? ? ?
神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的可視化
?
深度神經(jīng)網(wǎng)絡(luò)不同于早期的神經(jīng)網(wǎng)絡(luò),如感知器,因?yàn)樗鼈兪菧\層的,只是由輸入層和輸出層以及一個(gè)隱含層組成。
?
? ? ? ??? ? ?
深度神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱含層
?
問題3:3分鐘簡單闡述一個(gè)可以讓你回去解決的數(shù)據(jù)科學(xué)的項(xiàng)目
?
答案:一個(gè)典型的數(shù)據(jù)科學(xué)面試過程始于具體的數(shù)據(jù)分析項(xiàng)目。我做過兩次,取決于項(xiàng)目的復(fù)雜度。第一次,我有兩天的時(shí)間來解決一個(gè)問題,使用機(jī)器學(xué)習(xí)。而第二次,我有兩個(gè)星期的時(shí)間來解決一個(gè)問題。不需要指出的是,當(dāng)我第二次處理類別不平衡的數(shù)據(jù)集時(shí),這是一個(gè)更加困難的問題。因此,3分鐘的推銷式面試問題可以讓你展示你對手頭問題的把握。請務(wù)必從你對問題的解釋開始,你解決問題的簡單方法,你在你的方法中使用了什么類型的機(jī)器學(xué)習(xí)模型,以及為什么這樣做?不要對模型準(zhǔn)確性過多的吹噓。
更多閱讀推薦
ZooKeeper的十二連問,你頂?shù)昧寺?#xff1f;
“螞蟻漫步”背后的定位原理思考
可怕!公司部署了一個(gè)東西,悄悄盯著你……
全面擁抱云原生應(yīng)用研發(fā)的拐點(diǎn)已經(jīng)到來
阿里動物園再添新丁,小蠻驢搞定物流最后三公里
總結(jié)
以上是生活随笔為你收集整理的硅谷2020最新大数据学习路线:科学使用这一招,12周助你成为数据分析师的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对话阿里云:开源与自研如何共处?
- 下一篇: 上手 Docker 容器,不应该是个问题