初学大数据之Python中5个最佳的数据科学库的学习
在下載了pycharm軟件以及通過前兩篇文章,配置了相應(yīng)的模塊包之后,那就開始對常用的模塊的學(xué)習(xí),以便后期利用這些模塊對數(shù)據(jù)做模型化處理。
?
如果你已經(jīng)決定把Python作為你的編程語言,那么,你腦海中的下一個問題會是:“進(jìn)行數(shù)據(jù)分析有哪些Python庫可用?”
Python有很多庫可用來進(jìn)行數(shù)據(jù)分析。但不必?fù)?dān)心,你不需要學(xué)習(xí)所有那些可用庫。你只須了解5個Python庫,就可以完成絕大多數(shù)數(shù)據(jù)分析任務(wù)。下面逐一簡單介紹這5個庫,并提供你一些最好的教程來學(xué)習(xí)它們。
1.Numpy
對于科學(xué)計算,它是Python創(chuàng)建的所有更高層工具的基礎(chǔ)。以下是它提供的一些功能:
1. N維數(shù)組,一種快速、高效使用內(nèi)存的多維數(shù)組,它提供矢量化數(shù)學(xué)運算 。
2. 你可以不需要使用循環(huán),就對整個數(shù)組內(nèi)的數(shù)據(jù)行標(biāo)準(zhǔn)數(shù)學(xué)運算。
3. 非常便于傳送數(shù)據(jù)到用低級語言(如C或C++)編寫的外部庫,也便于外部庫以Numpy數(shù)組形式返回數(shù)據(jù)。
NumPy不提供高級數(shù)據(jù)分析功能,但有了對NumPy數(shù)組和面向數(shù)組的計算的理解,能幫助你更有效地使用像Pandas之類的工具。
教程:
1. Scipy.org提供了Numpy庫的簡要說明
http://scipy.org/
?
2. 這個教程棒極了,完全注重于Numpy的可用性
?
2.Scipy
Scipy庫依賴于NumPy,它提供便捷和快速的N維向量數(shù)組操作。SciPy庫的建立就是和NumPy數(shù)組一起工作,并提供許多對用戶友好的和有效的數(shù)值例程,如:數(shù)值積分和優(yōu)化。SciPy提供模塊用于優(yōu)化、線性代數(shù)、積分以及其它數(shù)據(jù)科學(xué)中的通用任務(wù)。
教程:
我找不到比Scipy.org更好的教程了,它學(xué)習(xí)Scipy的最佳教程
3.Pandas
Pandas包含高級數(shù)據(jù)結(jié)構(gòu),以及和讓數(shù)據(jù)分析變得快速、簡單的工具。它建立在NumPy之上,使以NumPy為中心的應(yīng)用變得簡單。
1. 帶有坐標(biāo)軸的數(shù)據(jù)結(jié)構(gòu),支持自動或明確的數(shù)據(jù)對齊。這能防止由于數(shù)據(jù)沒有對齊,以及處理不同來源的、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見錯誤。
2. 使用Pandas更容易處理缺失數(shù)據(jù)。
3. 合并流行數(shù)據(jù)庫(如:基于SQL的數(shù)據(jù)庫)中能找到 的關(guān)系操作。
Pandas是進(jìn)行數(shù)據(jù)清洗/整理(data munging)的最好工具。
教程:
1. Pandas快速入門
2. Alfred Essa有一系列關(guān)于Pandas的視頻,這些視頻應(yīng)該會讓你很好地了解基本概念。
http://alfredessa.com/data-analysis-tutorial/2-pandas-library/
3. 還有,不可錯過Shane Neeley提供的教程視頻,它全面介紹了Numpy, Scipy和Matplotlib
?
Matplotlib
Matlplotlib是Python的一個可視化模塊。它讓你方便地制作線條圖、餅圖、柱狀圖以及其它專業(yè)圖形。使用Matplotlib,你可以定制所做圖表的任一方面。在IPython中使用時,Matplotlib有一些互動功能,如:縮放和平移。它支持所有的操作系統(tǒng)下不同的GUI后端(back ends),并且可以將圖形輸出為常見地矢量圖和圖形格式,如:PDF、SVG、JPG、PNG、BMP和GIF等。
教程:
1. ShowMeDo網(wǎng)站上有一個關(guān)于很好地教程
2. 推薦這本書Packt出版社的操作寶典,對于初學(xué)者來說,這本書真是極棒的~
?
5.Scikit-learn
Scikit-learn是一個用于機器學(xué)習(xí)的Python模塊。它建立在Scipy之上,提供了一套常用機器學(xué)習(xí)算法,讓使用者通過一個統(tǒng)一的接口來使用。Scikit-learn有助于你迅速地在你的數(shù)據(jù)集上實現(xiàn)流行的算法。
看一下Scikit-learn中提供的算法列表,你就會馬上意識到它包含了許多用于標(biāo)準(zhǔn)機器學(xué)習(xí)任務(wù)的工具,如:聚類、分類和回歸等。
教程:
1. Scikit-learn入門
?
2. 來自于Scikit-learn.org的教程
結(jié)束語:還有其它一些庫,如:用于自然語言處理的Nltk,用于網(wǎng)站數(shù)據(jù)抓取的Scrappy ,用于網(wǎng)絡(luò)挖掘的Pattern ,用于深度學(xué)習(xí)的Theano等。
但是,如果你正開始學(xué)習(xí)Python,我建議你首先熟悉這5個庫。
我說過,這些教程都非常適合初學(xué)者。不過,在學(xué)習(xí)這些教程前,先要熟悉Python語言的基本編程知識。
?
?
?
總結(jié)
以上是生活随笔為你收集整理的初学大数据之Python中5个最佳的数据科学库的学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用slickedit调试开源代码
- 下一篇: 04_JS运算符