【资源】《动手学数据分析》开源教程完整发布!
作者:陳安東,湖南大學,Datawhale成員
1. 開源初衷
對于任何一個將來要實際運用的技能,通過實戰,自己親自將一行行代碼敲出來,然后達到自己想要的效果,這個過程是最好的學習方式。
最開始接觸了Datawhale數據分析項目,那時我作為一名學員的以《Python for data analysis》這本書為教材,通過刷這本教材的代碼來學習數據分析的數據處理技能,書里對于pandas和numpy操作講的很細,但是對于數據分析思維的內容涉及就少了很多。最后感覺就是敲了一堆代碼并不知道怎么用。
后面又接觸了Datawhale數據挖掘實戰項目[1]?。這個項目又比較偏模型和實戰,直接給你一個任務,讓你去完成,上手難度比較大,但是它的實戰性可以讓你對于什么是數據挖掘,以及數據挖掘的邏輯有很好的把握。
所以我們在想有沒有這樣一個項目,以實戰為主線,將知識點孕育其中,通過邊學,邊做以及邊被引導的方式來使學習效果達到更好,學完之后既能掌握數據處理技能又能掌握數據分析的大致思路和流程。于是就有了開源項目《動手學數據分析》,讓小白也可以更好地開啟他的數據分析之路。
2. 項目詳情
2.1 項目概括
項目分為三個單元,大致可以分為:數據基礎操作,數據清洗與重構,建模和評估。每個部分的學習內容如下:
第一單元:我們獲得一個要分析的數據,我要學會如何加載數據,查看數據,然后學習Pandas的一些基礎操作,最后開始嘗試探索性的數據分析。
第二單元:當我們可以比較熟練的操作數據并認識這個數據之后,我們需要開始數據清洗以及重構,將原始數據變為一個可用好用的數據,為之后放入模型做準備。
第三單元:我們根據任務需求不同,要考慮建立什么模型,我們使用流行的sklearn庫,建立模型。對于一個模型的好壞,我們是需要評估的,之后我們會評估我們的模型,對模型做優化。
2.2 項目詳情
開源地址:
https://github.com/datawhalechina/hands-on-data-analysis
代碼形式:jupyter
數據集:kaggle上的泰坦尼克[2]數據集
目的:是通過真實的數據,以實戰的方式熟悉數據分析python的基本操作和了解數據分析思維
結果:完成Kaggle上泰坦尼克任務
在從GitHub下載了我們的倉庫之后,里面包含了我們所需的數據以及實戰需要的代碼。在每個單元里,分別有【課程】文件和【答案】文件。
【課程】是實戰文件,根據我們的引導,通過代碼完成相應的任務。除了需要完成了代碼的編寫,在重要的地方我們設計了思考題,學習者可以有更深刻的理解。
在完成一個【課程】后,既掌握了這一部分知識又可以完成代碼的編寫。
在相對應的【答案】文件,我們提供了參考答案。也是希望新手可以在實戰的路上少一點坑,多一點注意力放到知識點本身。
3. 寫到最后
關于我們項目的名字——動手學數據分析(Hands-on data analysis)。數據分析是一個要從一堆數字中看到真相的過程。學會操作數據只是數據分析的一半功力,剩下的另一半要用我們的大腦,多思考,多總結,更要多動手,實打實的的敲代碼。所以也希望在學習這個開源教程的時候,多去推理,多去問問為什么;多多練習,確保理論實踐結合起來,在學習結束的時候一定會大有收獲。
參考資料
[1]
數據挖掘實戰: https://github.com/datawhalechina/team-learning-data-mining
[2]泰坦尼克數據集
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):總結
以上是生活随笔為你收集整理的【资源】《动手学数据分析》开源教程完整发布!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】2020深度文本匹配最新进展:
- 下一篇: 【干货】数据分析规范总结!