【机器学习-数据科学】第二节:ipython开发环境搭建以及pandas快速入门
ipython開發環境搭建以及pandas快速入門
- 0.開發環境搭建
- 技巧
- 網頁版ipython:ipython notebook
- numpy
- 1.pandas 快速入門一
- 導入
- 創建對象
- 2. pandas 快速入門二
- 空數據處理
- apply的用法
- count和mode函數
- 數據合并
- 3. pandas 快速入門三
- 數據整形
- 數據透視
- 時間序列
- 數據可視化
- 數據載入和保存
0.開發環境搭建
pip install jupyter pip install numpy pip install matplotlib
然后進入ipython 看一下沒有錯就可以了
技巧
ipython解析器對比python更易閱讀。
ipython可以使用問號?訪問
%timeit看某段代碼執行的效果:
網頁版ipython:ipython notebook
啟動ipython:
numpy
上一節講過
補充一些:
1.pandas 快速入門一
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
10 minutes to pandas
導入
創建對象
創建一個通過Series傳遞值的列表:注意S大寫
DataFrame通過傳遞帶有日期時間索引和帶標簽的列的NumPy數組來創建:
通過字典來創建
df.A 訪問列的數據
訪問前幾行:默認前五行
尾部的數據
行標簽和列標簽
可以看統計數據
轉置
排序
根據列排序
降序的
通過A的值進行排序
數據選擇
或者是屬性值
又或者
又又或者
數字標簽
訪問某個特定值:第二種訪問效率更高,但是需要訪問最初始的參數,單只使用日期是會報錯的
通過iloc選行
訪問某個特定元素,第二種方法更高效
通過%timeit看是否高效
用isin過濾出某值
修改表中數據用iat
直接修改一列
還有有一種方式是直接標量,列的數目要匹配不然會報錯
2. pandas 快速入門二
空數據處理
制造一些缺失項
NaN是沒有數據的
處理空數據的方法:
一是刪除
二是替換
判斷是否有空數據
空數據是不參與計算的
按行求平均值
累加值
廣播的概念
df減去s s相當于一直橫向擴展
apply的用法
自定義函數
返回的是數組的和
count和mode函數
首先創建一個數列
counts可以看出隨機產生的每個數字有多少個
s.mode()產生最多的
數據合并
用iloc取數
把三部分合并
比較一下
還有一種合并的方法
先創建兩個數據
left和right連接起來 通過key進行關聯
在另一個數據合并的方法是
首先創建數據
插入一行數據
改變其中一個量,可以看到新插入的數據變化
分組
按照A來進行分組,foo一組bar一組,然后進行計算
分組也可以多個分組,先A 再B分小組
是一種雙索引的結構
3. pandas 快速入門三
數據整形
數據整形就是把行和列的數據進行互換
首先是創建和索引
把列索引變成行索引
再使用unstack轉換回來
再轉換一次,它會把第二層索引轉換成列
數據透視
數據透視是只看一部分
首先創建一個DataFrame
D的值,以C為列索引,AB為行索引
上面存在nan表示 在索引中再在原數組中數據是不存在的
時間序列
是不是像股票的交易量,每秒交易了多少
我們這是需要對大量的數據進行重新采樣
用每兩分鐘求和的方式進行采樣
除了data_range,還有period_range
轉換成時間的格式
時間的計算
時間的加法
類別數據介紹
下面是一個學生分數等級
創建一個grade的列
這一列是一個category的數據
可以重新命名的
上面是根據值來排序的
下面是降序
數據可視化
然后我們要把數據畫出來
數據載入和保存
保存到磁盤里
%ls進行查看
%more查看
然后讀回來
指定索引列
大部分來自官網啦
還是要看看官網啊
總結
以上是生活随笔為你收集整理的【机器学习-数据科学】第二节:ipython开发环境搭建以及pandas快速入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言分治算法求最大值,分治法找最大值(
- 下一篇: nineoldandroid使用_nin