Python五大数据分析工具包
Matplotlib?
Matplotlib是Python的一個(gè)可視化模塊,他能方便的只做線條圖、餅圖、柱狀圖以及其他專業(yè)圖形。?
使用Matplotlib,可以定制所做圖表的任一方面。他支持所有操作系統(tǒng)下不同的GUI后端,并且可以將圖形輸出為常見的矢量圖和圖形測試,如PDF SVG JPG PNG BMP GIF.通過數(shù)據(jù)繪圖,我們可以將枯燥的數(shù)字轉(zhuǎn)化成人們?nèi)菀捉邮盏膱D表。?
Matplotlib是基于Numpy的一套Python包,這個(gè)包提供了吩咐的數(shù)據(jù)繪圖工具,主要用于繪制一些統(tǒng)計(jì)圖形。?
Matplotlib有一套允許定制各種屬性的默認(rèn)設(shè)置,可以控制Matplotlib中的每一個(gè)默認(rèn)屬性:圖像大小、每英寸點(diǎn)數(shù)、線寬、色彩和樣式、子圖、坐標(biāo)軸、網(wǎng)個(gè)屬性、文字和文字屬性。
Numpy?
Numpy提供了兩種基本的對象:ndarray和ufunc。ndarray是存儲(chǔ)單一數(shù)據(jù)類型的多維數(shù)組,而ufunc是能夠?qū)?shù)組進(jìn)行處理的函數(shù)。Numpy的功能:
- N維數(shù)組,一種快速、高效使用內(nèi)存的多維數(shù)組,他提供矢量化數(shù)學(xué)運(yùn)算。
- 可以不需要使用循環(huán),就能對整個(gè)數(shù)組內(nèi)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)數(shù)學(xué)運(yùn)算。
- 非常便于傳送數(shù)據(jù)到用低級語言編寫(C\C++)的外部庫,也便于外部庫以Numpy數(shù)組形式返回?cái)?shù)據(jù)。
Numpy不提供高級數(shù)據(jù)分析功能,但可以更加深刻的理解Numpy數(shù)組和面向數(shù)組的計(jì)算。
Pandas?
Pandas是Python的一個(gè)數(shù)據(jù)分析包,Pandas最初被用作金融數(shù)據(jù)分析工具而開發(fā)出來,因此Pandas為時(shí)間序列分析提供了很好的支持。?Pandas是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,Pandas納入了大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效的操作大型數(shù)據(jù)集所需要的工具。Pandas提供了大量是我們快速便捷的處理數(shù)據(jù)的函數(shù)和方法。Pandas包含了高級數(shù)據(jù)結(jié)構(gòu),以及讓數(shù)據(jù)分析變得快速、簡單的工具。它建立在Numpy之上,使得Numpy應(yīng)用變得簡單。
- 帶有坐標(biāo)軸的數(shù)據(jù)結(jié)構(gòu),支持自動(dòng)或明確的數(shù)據(jù)對齊。這能防止由于數(shù)據(jù)結(jié)構(gòu)沒有對齊,以及處理不同來源、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見錯(cuò)誤。
- 使用Pandas更容易處理丟失數(shù)據(jù)。
- 合并流行數(shù)據(jù)庫(如:基于SQL的數(shù)據(jù)庫)
Pandas是進(jìn)行數(shù)據(jù)清晰/整理的最好工具。
Scikit-Learn?
Scikit-Learn是基于Python機(jī)器學(xué)習(xí)的模塊,基于BSD開源許可證。?
Scikit-Learn的安裝需要Numpy Scopy Matplotlib等模塊,Scikit-Learn的主要功能分為六個(gè)部分,分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。?
Scikit-Learn自帶一些經(jīng)典的數(shù)據(jù)集,比如用于分類的iris和digits數(shù)據(jù)集,還有用于回歸分析的boston house prices數(shù)據(jù)集。該數(shù)據(jù)集是一種字典結(jié)構(gòu),數(shù)據(jù)存儲(chǔ)在.data成員中,輸出標(biāo)簽存儲(chǔ)在.target成員中。Scikit-Learn建立在Scipy之上,提供了一套常用的機(jī)器學(xué)習(xí)算法,通過一個(gè)統(tǒng)一的接口來使用,Scikit-Learn有助于在數(shù)據(jù)集上實(shí)現(xiàn)流行的算法。?
Scikit-Learn還有一些庫,比如:用于自然語言處理的Nltk、用于網(wǎng)站數(shù)據(jù)抓取的Scrappy、用于網(wǎng)絡(luò)挖掘的Pattern、用于深度學(xué)習(xí)的Theano等。
Scipy是一款方便、易于使用、專門為科學(xué)和工程設(shè)計(jì)的Python包,它包括統(tǒng)計(jì)、優(yōu)化、整合、線性代數(shù)模塊、傅里葉變換、信號和圖像處理、常微分方程求解器等。Scipy依賴于Numpy,并提供許多對用戶友好的和有效的數(shù)值例程,如數(shù)值積分和優(yōu)化。
Python有著像Matlab一樣強(qiáng)大的數(shù)值計(jì)算工具包Numpy;有著繪圖工具包Matplotlib;有著科學(xué)計(jì)算工具包Scipy。?
Python能直接處理數(shù)據(jù),而Pandas幾乎可以像SQL那樣對數(shù)據(jù)進(jìn)行控制。Matplotlib能夠?qū)?shù)據(jù)和記過進(jìn)行可視化,快速理解數(shù)據(jù)。Scikit-Learn提供了機(jī)器學(xué)習(xí)算法的支持,Theano提供了升讀學(xué)習(xí)框架(還可以使用CPU加速)。
總結(jié)
以上是生活随笔為你收集整理的Python五大数据分析工具包的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 的xlrd库读取日期和数字
- 下一篇: 十年了!曾经火爆的Lindows操作系统