Python八种数据导入方法,你掌握了吗?
數據分析過程中,需要對獲取到的數據進行分析,往往第一步就是導入數據。導入數據有很多方式,不同的數據文件需要用到不同的導入方式,相同的文件也會有幾種不同的導入方式。下面總結幾種常用的文件導入方法。
大多數情況下,會使用NumPy或Pandas來導入數據,因此在開始之前,先執行:
import?numpy?as?np import?pandas?as?pd兩種獲取help的方法
很多時候對一些函數方法不是很了解,此時Python提供了一些幫助信息,以快速使用Python對象。
使用Numpy中的info方法。
Python內置函數
一、文本文件
1、純文本文件
filename?=?'demo.txt' file?=?open(filename,?mode='r')?#?打開文件進行讀取 text?=?file.read()?#?讀取文件的內容 print(file.closed)?#?檢查文件是否關閉 file.close()?#?關閉文件 print(text)使用上下文管理器 -- with
with?open('demo.txt',?'r')?as?file:print(file.readline())?#?一行一行讀取print(file.readline())print(file.readline())2、表格數據:Flat文件
使用 Numpy 讀取 Flat 文件
Numpy 內置函數處理數據的速度是 C 語言級別的。
Flat 文件是一種包含沒有相對關系結構的記錄的文件。(支持Excel、CSV和Tab分割符文件 )
具有一種數據類型的文件
用于分隔值的字符串跳過前兩行。
在第一列和第三列讀取結果數組的類型。
具有混合數據類型的文件
兩個硬的要求:
跳過表頭信息
區分橫縱坐標
使用 Pandas 讀取Flat文件
filename?=?'demo.csv'? data?=?pd.read_csv(filename,?nrows=5,????????#?要讀取的文件的行數header=None,????#?作為列名的行號sep='\t',???????#?分隔符使用comment='#',????#?分隔注釋的字符na_values=[""])?#?可以識別為NA/NaN的字符串二、Excel 電子表格
Pandas中的ExcelFile()是pandas中對excel表格文件進行讀取相關操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便。
file?=?'demo.xlsx' data?=?pd.ExcelFile(file) df_sheet2?=?data.parse(sheet_name='1960-1966',skiprows=[0],names=['Country','AAM:?War(2002)']) df_sheet1?=?pd.read_excel(data,sheet_name=0,parse_cols=[0],skiprows=[0],names=['Country'])使用sheet_names屬性獲取要讀取工作表的名稱。
data.sheet_names三、SAS 文件
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統。其保存的文件即sas是統計分析文件。
from?sas7bdat?import?SAS7BDAT with?SAS7BDAT('demo.sas7bdat')?as?file:df_sas?=?file.to_data_frame()四、Stata 文件
Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。其保存的文件后綴名為.dta的Stata文件。
data?=?pd.read_stata('demo.dta')五、Pickled 文件
python中幾乎所有的數據類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實現了基本的數據序列和反序列化。通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去,永久存儲;通過pickle模塊的反序列化操作,我們能夠從文件中創建上一次程序保存的對象。
import?pickle with?open('pickled_demo.pkl',?'rb')?as?file:pickled_data?=?pickle.load(file) #?下載被打開被讀取到的數據與其相對應的操作是寫入方法pickle.dump() 。
六、HDF5 文件
HDF5文件是一種常見的跨平臺數據儲存文件,可以存儲不同類型的圖像和數碼數據,并且可以在不同類型的機器上傳輸,同時還有統一處理這種文件格式的函數庫。
HDF5 文件一般以?.h5?或者?.hdf5?作為后綴名,需要專門的軟件才能打開預覽文件的內容。
import?h5py filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5' data?=?h5py.File(filename,?'r')七、Matlab 文件
其由matlab將其工作區間里的數據存儲的后綴為.mat的文件。
import?scipy.io filename?=?'workspace.mat' mat?=?scipy.io.loadmat(filename)八、關系型數據庫
from?sqlalchemy?import?create_engine engine?=?create_engine('sqlite://Northwind.sqlite')使用table_names()方法獲取一個表名列表
table_names?=?engine.table_names()1、直接查詢關系型數據庫
con?=?engine.connect() rs?=?con.execute("SELECT?*?FROM?Orders") df?=?pd.DataFrame(rs.fetchall()) df.columns?=?rs.keys() con.close()使用上下文管理器 -- with
with?engine.connect()?as?con:rs?=?con.execute("SELECT?OrderID?FROM?Orders")df?=?pd.DataFrame(rs.fetchmany(size=5))df.columns?=?rs.keys()2、使用Pandas查詢關系型數據庫
df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)數據探索
數據導入后會對數據進行初步探索,如查看數據類型,數據大小、長度等一些基本信息。這里簡單總結一些。
1、NumPy Arrays
data_array.dtype??#?數組元素的數據類型 data_array.shape??#?陣列尺寸 len(data_array)???#?數組的長度2、Pandas DataFrames
df.head()??#?返回DataFrames前幾行(默認5行) df.tail()??#?返回DataFrames最后幾行(默認5行) df.index???#?返回DataFrames索引 df.columns?#?返回DataFrames列名 df.info()??#?返回DataFrames基本信息 data_array?=?data.values?#?將DataFrames轉換為NumPy數組推薦閱讀
Pandas處理數據太慢,來試試Polars吧!
懶人必備!只需一行代碼,就能導入所有的Python庫
絕!關于pip的15個使用小技巧
介紹10個常用的Python內置函數,99.99%的人都在用!
可能是全網最完整的 Python 操作 Excel庫總結!
總結
以上是生活随笔為你收集整理的Python八种数据导入方法,你掌握了吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 女友刷B站流量告急,技术男友轻松搞定!
- 下一篇: Python 那些永远用不到的对象,我们