python数据分析方法五种_加速Python数据分析的10个简单技巧(上)
總有一些小貼士和技巧在編程領域是非常有用的。有時,一個小技巧可以節省時間甚至可以挽救生命。一個小的快捷方式或附加組件有時會被證明是天賜之物,并能真正提高生產力。因此,我總結了一些我最喜歡的一些貼士和技巧,我將它們以本文的形式一起使用和編譯。有些可能是大家相當熟悉的,有些可能是比較新的,但我確信它們將在下一次您處理數據分析項目時派上用場。
1.?????? 分析pandas dataframe
分析是一個幫助我們理解數據的過程,而pandas分析是一個python包,它正好做到了這一點。這是一種對Pandas Dataframe進行探索性數據分析的簡便、快速的方法。panda df.describe()和df.info()函數通常用作EDA過程的第一步。但是,它只提供了一個非常基本的數據概覽,對于大型數據集沒有多大幫助。另一方面,panda分析函數用一行代碼顯示了很多信息,這也可以在交互式HTML報告中顯示。
對于給定的數據集,pandas分析包計算以下統計數據:
統計計算機-熊貓剖析包
安裝
pip install pandas-profiling
or
conda install -c anaconda pandas-profiling
用法
讓我們使用古老的Titanic數據集來演示通用的Python分析器的功能。
#importing the necessary packages
import pandas as pd
import pandas_profiling
df = pd.read_csv('titanic/train.csv')
pandas_profiling.ProfileReport(df)
這一行代碼就是在Jupyter筆記本中顯示數據分析報告所需的全部代碼。報告非常詳細,包括必要圖表。
還可以使用以下代碼將報告導出到交互式HTML文件中。
profile = pandas_profiling.ProfileReport(df)
profile.to_file(outputfile="Titanic data profiling.html")
2.?????? 將互動帶到pandas plots
pandas有一個內置的.plot()函數作為DataFrame類的一部分。然而,使用該函數呈現的可視化效果并不具有交互性,這使得它的吸引力降低。相反,也不能排除使用pandas. datafram .plot()函數繪制圖表的方便性。如果我們不需要對代碼進行重大修改,就可以像用pandas繪制圖表那樣巧妙地繪制交互式圖表,那會怎么樣呢?實際上,你可以在Cufflinks庫的幫助下做到這一點。
Cufflinks庫將plotly的力量與熊貓的靈活性結合起來,便于繪制。現在讓我們來看看如何安裝這個庫并讓它在pandas中工作。
安裝
pip install plotly # Plotly is a pre-requisite before installing cufflinks
pip install cufflinks
用法
#importing Pandas
import pandas as pd
#importing plotly and cufflinks in offline mode
import cufflinks as cf
import plotly.offline
cf.go_offline()
cf.set_config_file(offline=False, world_readable=True)
是時候看看泰坦尼克數據集的神奇之處了。
df.iplot()
+6df.iplot() vs df.plot()
下邊的可視化顯示的是靜態圖表,而上邊的圖表是交互式的,并且更加詳細,所有這些都沒有對語法進行任何重大更改。
3.?????? 一點點魔法
Magic命令是jupyter筆記本中的一組方便的函數,旨在解決標準數據分析中的一些常見問題。在%lsmagic的幫助下,您可以看到所有可用的magic。
所有可用magic函數的列表
Magic命令有兩種類型:line magics和cell magics,前者以單個%字符作為前綴,并在一行輸入上進行操作;后者與double %%前綴關聯,并在多行輸入上進行操作。如果將Magic函數設置為1,則無需鍵入初始%即可調用。
讓我們來看看在常見的數據分析任務中可能有用的一些方法:
% pastebin
%pastebin將代碼上載到pastebin并返回url。Pastebin是一個在線內容托管服務,我們可以在其中存儲純文本,如源代碼片段,然后url可以與他人共享。事實上,Github gist也類似于pastebin,盡管有版本控制。
考慮一個包含以下內容的python script file.py:
#file.py
def foo(x):
return x
使用Jupyter筆記本中的%Pastebin生成Pastebin URL。
%matplotlib notebook
%matplotlib inline函數用于呈現jupyter筆記本中的靜態matplotlib繪圖。嘗試用筆記本替換內嵌部件,以輕松實現可縮放和可調整大小的繪圖。確保在導入Matplotlib庫之前調用了函數。
%matplotlib inline vs %matplotlib notebook
%run
%run函數在一個筆記本中運行一個python腳本。
%run file.py
%%writefile
%%writefile將單元格的內容寫入文件。在這里,代碼將被寫入一個名為foo.py的文件,并保存在當前目錄中。
%%latex
%%latex 函數將單元格內容呈現為乳膠。它可用于在單元中編寫數學公式和方程。
4.發現和消除錯誤
交互式調試器也是一個神奇的函數,但是我已經給了它提供一個自己的類別。如果在運行代碼單元格時出現異常,請在新行中鍵入%debug并運行它。這將打開一個交互式調試環境,將您帶到異常發生的位置。您還可以檢查程序中分配的變量的值,并在這里執行操作。要退出調試器,請按q。
5.印刷也可以很漂亮
如果您想為數據結構生成美觀的表示形式,pprint是首選模塊。它在打印字典或JSON數據時特別有用。讓我們看一個同時使用print和pprint顯示輸出的示例。
這又是一篇很長的文章,這次先透露5個技巧,其余的5個我明天繼續更新。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的python数据分析方法五种_加速Python数据分析的10个简单技巧(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python绘制如下图形、小三角形边长2
- 下一篇: python百钱买百鸡问题算法_百钱买百