Python数据收集及分析学习相关
Python數據收集及分析學習相關
- 簡介
- 1、所需要的基礎知識
- 2、個人推薦書籍和網站
- 2.1 Python基礎
- 2.2 Numpy基礎
- 2.3 Pandas基礎
- 2.4 Matplotlib基礎
- 2.5 數據建模理論知識
- 2.6 數據分析實戰
- 2.7 Sklearn基礎
- 3、Kaggle網站
簡介
數據分析基本的步驟可以分為:提出問題、導入數據、數據清洗、構建模型、數據可視化。
- 提出問題: 我們所想要知道的指標(平均消費額、客戶的年齡分布、營業額變化趨勢等等)
- 導入數據: 需要進行分析的原始數據(網絡爬蟲、數據讀取等)
- 數據清洗: 指發現并糾正數據文件中可識別的錯誤(檢查數據一致性,處理無效值和缺失值等)
- 構建模型: 針對具體的問題使用對應的數據模型找到關鍵指標,當我們想了解數據之間的相關性時就可以構建模型(一般使用線性回歸、邏輯回歸、類聚算法等)
- 數據可視化: 將結果以圖表形式呈現
1、所需要的基礎知識
可以根據網站、視頻、書籍等途徑。
2、個人推薦書籍和網站
2.1 Python基礎
這部分的學習大概可以控制在一周左右的時間完成。
- 環境推薦: 安裝Anaconda環境,其中內置Python數據分析相關的環境;在Anaconda可視化安裝界面下安裝notebook工具。
- 書籍推薦: 《Python編程:入門到實踐》
- 視頻推薦: 阿里AI天池實驗室課程
2.2 Numpy基礎
工具作用: 線性代數庫,主要用于線性代數相關的運算。這個是Pandas、Matplotlib、Sklearn的基礎工具;不能缺少的輔助!
這個工具的教程比較少,一般1天或者2天能夠完成。推薦菜鳥教程或者阿里天池實驗室;或者官方文檔。由于資料比較少,如果可以上YouTube的話,建議去YouTube看大神講解!!
2.3 Pandas基礎
工具作用: 用于數據分析,一般會使用這個做數據清洗。
這個工具的教程也比較少,耗時1到2天。推薦極客教程或者阿里天池實驗室;或者官方文檔。由于資料比較少,一樣上YouTube看大神講解!
2.4 Matplotlib基礎
工具作用: 用于圖表的繪制,一般是用在數據可視化上;在清洗時,也可以用來看相關統計等。
這個工具的教程也是比較少的,耗時1到2天。建議YouTube上面找,或者天池課程數據可視化部分;當然這個也可以看看b站up主視頻。
2.5 數據建模理論知識
理論知識這里不敢瞎嗶嗶,直接看天池給的理論部分,這個比較通俗易懂;還有另外一個推薦書籍是吳軍的《數學之美》,神作。
2.6 數據分析實戰
直接還是天池的學習網站,分別是樹形分支中的數據分析實戰、機器學習入門、機器學習進階。
2.7 Sklearn基礎
直接看sklearn中文文檔就夠了,一般只需要會用就行;這個比較容易上手。
3、Kaggle網站
介紹: 是一個國外免費提供GPU資源的網站。由于數據分析所需要消耗的計算代價比較高,因此Kaggle每周免費提供30個小時的高性能GPU服務器。
說一個概念:我的機子GPU是1050Ti,跑畢設程序要跑2周時間左右才會得到結果;而Kaggle上面只需要跑3個小時左右。
再舉個比較國際統一的標準:我的機子跑mnist數據集的cnn深度模型大概需要30秒左右,而Kaggle只需要幾秒的時間。
總結
以上是生活随笔為你收集整理的Python数据收集及分析学习相关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 张一鸣这一条微博,阿里P8的我,竟然想了
- 下一篇: 一道腾讯产品面试题