python包 wget_Python数据科学“冷门”库
原標(biāo)題 | Lesser Known Python Libraries for Data Science
作者 | Parul Pandey
譯者 | CONFIDANT(福建師范大學(xué))、Seabiscuit、唐里、david95(研發(fā)工程師)
Python是一門(mén)神奇的語(yǔ)言。事實(shí)上,它是世界上發(fā)展最快的編程語(yǔ)言之一。它已經(jīng)一次又一次地證明了它在跨行業(yè)的開(kāi)發(fā)人員職位和數(shù)據(jù)科學(xué)職位上的實(shí)用性。Python的整個(gè)生態(tài)系統(tǒng)及其庫(kù)使其成為全世界用戶(初學(xué)者和高級(jí)用戶)的最佳選擇。它的成功和流行的原因之一是它的健壯庫(kù)集的存在,這些庫(kù)使它能夠做到非常動(dòng)態(tài)和快速。
在本文中,我們將研究一些用于數(shù)據(jù)科學(xué)任務(wù)的Python庫(kù),而不是常用的Python庫(kù),如panda、scikit-learn、matplotlib等。雖然像panda和scikit-learn這樣的庫(kù)是機(jī)器學(xué)習(xí)任務(wù)的默認(rèn)名稱,但是了解這個(gè)領(lǐng)域中的其他 python 應(yīng)用總是好的。
Wget
抽取數(shù)據(jù)特別是從網(wǎng)絡(luò)上爬取數(shù)據(jù)是數(shù)據(jù)科學(xué)家的一項(xiàng)重要任務(wù)。Wget是一個(gè)免費(fèi)的實(shí)用的從網(wǎng)上下載文件的非交互式的命令行工具。它支持HTTP,HTTPS和FTP協(xié)議,同時(shí)也支持通過(guò)HTTP代理進(jìn)行檢索。因?yàn)樗欠墙换ナ降?#xff0c;所以它可以在即使沒(méi)有登錄的情況下也能工作。所以下次你想下載一個(gè)網(wǎng)頁(yè)或者是從網(wǎng)頁(yè)中下載圖片,Wget可以幫助你。
安裝:
$ pip install wget例子:
Pendulum
對(duì)于那些處理日期時(shí)間數(shù)據(jù)而感到沮喪的人來(lái)說(shuō),Pendulum就是為這些人準(zhǔn)備的。這是一個(gè)為減輕日期和時(shí)間操作設(shè)計(jì)的Python包。它是Python內(nèi)置的類(lèi)的一個(gè)替代。需要深入工作可以參考文檔:https://pendulum.eustace.io/docs/#installation
安裝:
$ pip install pendulum例子:
imbalanced-learn
可以看出,大多數(shù)分類(lèi)算法在每個(gè)類(lèi)的樣本數(shù)量幾乎相同的情況下,即平衡狀態(tài)下,分類(lèi)效果最好。但現(xiàn)實(shí)生活中存在大量的不平衡數(shù)據(jù)集,這些數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)算法的學(xué)習(xí)階段和后續(xù)預(yù)測(cè)都有一定的影響。幸運(yùn)的是,創(chuàng)建這個(gè)庫(kù)是為了解決這個(gè)問(wèn)題。它與scikit-learn兼容,是scikit-learn-contrib項(xiàng)目的一部分。下次遇到不平衡的數(shù)據(jù)集時(shí),可以嘗試一下。
安裝:
pip install -U imbalanced-learn
# or
conda install -c conda-forge imbalanced-learn有關(guān)用法和示例,請(qǐng)參考文檔:
http://imbalanced-learn.org/en/stable/api.html
FlashText
在NLP任務(wù)中清理文本數(shù)據(jù)通常需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這類(lèi)操作可以使用正則表達(dá)式來(lái)完成,但是如果要搜索的術(shù)語(yǔ)數(shù)達(dá)到數(shù)千,就會(huì)變得很麻煩。Python的FlashText模塊基于FlashText算法,為這種情況提供了一個(gè)合適的替代方案。FlashText最好的地方在于,無(wú)論搜索項(xiàng)的數(shù)量如何,運(yùn)行時(shí)都是相同的。
安裝:
$ pip install flashtext例子:
提取關(guān)鍵字
替換關(guān)鍵字
有關(guān)更多使用示例,請(qǐng)參考官方文檔:
https://flashtext.readthedocs.io/en/latest/#
Fuzzywuzzy
這個(gè)名字聽(tīng)起來(lái)有點(diǎn)奇怪,但是fuzzywuzzy是一個(gè)很有用的用于字符串匹配的庫(kù)??梢杂盟p松的實(shí)現(xiàn)例如字符串比較比例、單詞比例。它還可以很容易的用于匹配記錄,即使他們是在不同的數(shù)據(jù)庫(kù)的。
安裝:
$ pip install fuzzywuzzy例子:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
fuzz.ratio("this is a test", "this is a test!")
97
# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")100更多有趣的例子,可以訪問(wèn)這里:
https://github.com/seatgeek/fuzzywuzzy
PyFlux
時(shí)間序列分析是機(jī)器學(xué)習(xí)領(lǐng)域最經(jīng)常遇到的問(wèn)題之一。PyFlux就是專(zhuān)門(mén)針對(duì)時(shí)間序列問(wèn)題設(shè)計(jì)的一個(gè)開(kāi)源庫(kù)。這個(gè)庫(kù)有著優(yōu)秀的時(shí)間序列模型,包含ARIMA、GARCH和VAR模型??傊?#xff0c;PyFlux提供了一個(gè)基于概率的方法來(lái)組織時(shí)序模型,很值得一試。
安裝:
pip install pyflux具體試用方法和例子,請(qǐng)參考文檔:
https://pyflux.readthedocs.io/en/latest/index.html
Ipyvolume
溝通結(jié)果是數(shù)據(jù)科學(xué)的一個(gè)重要方面。 能夠?qū)⒔Y(jié)果可視化是一個(gè)顯著的優(yōu)勢(shì)。Ipyvolume是一個(gè)Python庫(kù),用于在Jupyter筆記本中可視化3d體積和字形(例如3d散點(diǎn)圖),并且配置和工作量的需求很少。但是,它目前處于測(cè)試階段。一個(gè)很好的比喻:IPyvolume的volshow之于3d數(shù)組,就像matplotlib的imshow之于2d數(shù)組一樣。你可以通過(guò)原文了解更多關(guān)于它的內(nèi)容。
安裝:
Using pip
$ pip install ipyvolume
Conda/Anaconda
$ conda install -c conda-forge ipyvolume例子:
- 動(dòng)圖
- 體繪圖
Dash
Dash是一個(gè)用于構(gòu)建web應(yīng)用程序的高效Python框架。它寫(xiě)在Flask上,
Plotly.js和response .js以及下拉菜單、滑塊和圖形等現(xiàn)代UI元素會(huì)綁定到您的分析Python代碼中,而不需要javascript。Dash非常適合構(gòu)建數(shù)據(jù)可視化應(yīng)用程序。然后可以在web瀏覽器中呈現(xiàn)這些應(yīng)用程序。用戶指南可以在這里訪問(wèn)。
安裝:
例子:
下面的示例展示了一個(gè)具有下拉功能的高度交互式圖。當(dāng)用戶在下拉菜單中選擇一個(gè)值時(shí),應(yīng)用程序代碼將動(dòng)態(tài)地將數(shù)據(jù)從谷歌Finance導(dǎo)出到panda DataFrame中。
Gym
來(lái)自O(shè)penAI的Gym是一個(gè)開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具箱。它兼容任何數(shù)值計(jì)算庫(kù),如TensorFlow或Theano。健身房圖書(shū)館必然是一個(gè)測(cè)試問(wèn)題的集合,也稱為環(huán)境——你可以用它來(lái)制定你的強(qiáng)化學(xué)習(xí)算法。這些環(huán)境有一個(gè)共享接口,允許您編寫(xiě)通用算法。
安裝:
pip install gym例子:
一個(gè)將要運(yùn)行1000個(gè)CartPole-v0時(shí)間步長(zhǎng)環(huán)境實(shí)例,每一步都會(huì)呈現(xiàn)其環(huán)境。
你可以通過(guò)下方鏈接了解其他環(huán)境:
https://gym.openai.com/
結(jié)論
這些是我為數(shù)據(jù)科學(xué)選擇的有用python庫(kù),而不是常見(jiàn)的如numpy、panda等。如果你知道還有哪些可以添加到列表中的,請(qǐng)?jiān)u論中告知我。
最后,別忘了試一試!
本文編輯:王立魚(yú)
英語(yǔ)原文:https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊底部【python數(shù)據(jù)科學(xué)“冷門(mén)”庫(kù)】即可訪問(wèn):
福利大放送——滿滿的干貨課程免費(fèi)送!
「好玩的Python:從數(shù)據(jù)挖掘到深度學(xué)習(xí)」該課程涵蓋了從Python入門(mén)到CV、NLP實(shí)踐等內(nèi)容,是非常不錯(cuò)的深度學(xué)習(xí)入門(mén)課程,共計(jì)9節(jié)32課時(shí),總長(zhǎng)度約為13個(gè)小時(shí)。。
課程頁(yè)面:AI研習(xí)社 - 研習(xí)AI產(chǎn)學(xué)研新知,助力AI學(xué)術(shù)開(kāi)發(fā)者成長(zhǎng)。
「計(jì)算機(jī)視覺(jué)基礎(chǔ)入門(mén)課程」本課程主要介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)方向的算法與應(yīng)用,涵蓋了計(jì)算機(jī)視覺(jué)的歷史與整個(gè)課程規(guī)劃、CNN的模型原理與訓(xùn)練技巧、計(jì)算機(jī)視覺(jué)的應(yīng)用案例等,適合對(duì)計(jì)算機(jī)視覺(jué)感興趣的新人。
課程頁(yè)面:AI研習(xí)社 - 研習(xí)AI產(chǎn)學(xué)研新知,助力AI學(xué)術(shù)開(kāi)發(fā)者成長(zhǎng)。
現(xiàn)AI研習(xí)社將兩門(mén)課程免費(fèi)開(kāi)放給社區(qū)認(rèn)證用戶,只要您在認(rèn)證時(shí)在備注框里填寫(xiě)「Python」,待認(rèn)證通過(guò)后,即可獲得該課程全部解鎖權(quán)限。心動(dòng)不如行動(dòng)噢~
認(rèn)證方式:AI研習(xí)社 - 研習(xí)AI產(chǎn)學(xué)研新知,助力AI學(xué)術(shù)開(kāi)發(fā)者成長(zhǎng)。
總結(jié)
以上是生活随笔為你收集整理的python包 wget_Python数据科学“冷门”库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 《死亡诗社》的内容是?
- 下一篇: android 设置setmultich