【Python-ML】探索式数据分析EDA(Exploratory Data Analysis)
生活随笔
收集整理的這篇文章主要介紹了
【Python-ML】探索式数据分析EDA(Exploratory Data Analysis)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
# -*- coding: utf-8 -*-
'''
Created on 2018年1月24日
@author: Jason.F
@summary: 有監督回歸學習-探索式數據分析(EDA,Exploratory Data Analysis),發現數據的異常和分布情況以及特征間的相互關系
'''
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np#導入波士頓房屋數據集
df=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data',header=None,sep='\s+')
df.columns=['CRIM','ZM','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B','LSTAT','MEDV']
#散點圖矩陣,可視化不同特征間的兩兩關系,發現特征間關系以及異常點
sns.set(style='whitegrid',context='notebook')
#sns.reset_orig()#重設matplotlib風格
cols=['LSTAT','INDUS','NOX','RM','MEDV']
sns.pairplot(df[cols],size=2.5)
plt.show()
#皮爾遜積矩相關系數pearson product-moment correlation coefficient,衡量兩兩特征間的線性依賴關系
#標準化各特征間的協方差
cm = np.corrcoef(df[cols].values.T)
sns.set(font_scale=1.5)
hm= sns.heatmap(cm,cbar=True,annot=True,square=True,fmt='.2f',annot_kws={'size':15},yticklabels=cols,xticklabels=cols)
plt.show()
結果:
總結
以上是生活随笔為你收集整理的【Python-ML】探索式数据分析EDA(Exploratory Data Analysis)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python-ML】电影评论数据集文本
- 下一篇: 【Python-ML】SKlearn库线