當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘 —— 探索性数据分析

發布時間：2025/3/21 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘 —— 探索性数据分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘 —— 探索性數據分析

1. 統計檢驗
- 1.1 正態性檢驗
- 1.2 卡方檢驗
- 1.3 獨立分布t檢驗
- 1.4 方差檢驗
- 1.5 Q-Q圖
- 1.6 相關系數
2 單因素分析
- 2.1 線性回歸
- 2.2 PCA 奇異值分解
- 2.3 主成分分析（PCA自定義實現）
3 復合分析
- 3.1 分組分析
- 3.1.1 離散數據分組
- 3.1.2 連續數據分組
- 3.1.3 不純度（GiNi系數）
- 3.2 相關分析
4 因子分析（成分分析）

1. 統計檢驗

1.1 正態性檢驗

用于檢驗數據是否符合正態性分布

# 生成正態分布的觀測數據 norm_data = ss.norm.rvs(loc = 0,scale = 1,size = int(10e6)) # loc為均值，scale為標準差，size為生成數據個數，可以為元組 ss.normaltest(norm_data)

1.2 卡方檢驗

常用作檢驗兩個樣本數據之間是否有較強聯系

ss.chi2_contingency([[15,95],[85,5]])

1.3 獨立分布t檢驗

常用作比較均值是否有相異性,不要求兩個樣本之間數據量一致

ss.ttest_ind(ss.norm.rvs(size = 500),ss.norm.rvs(size = 1000))

1.4 方差檢驗

常用作檢驗多組樣本數據之間的均值是否有差異

ss.f_oneway(ss.norm.rvs(size = 5000),ss.norm.rvs(size = 10000),ss.norm.rvs(size = 5000))

1.5 Q-Q圖

橫軸為：標準分布的分位數值（默認為正態分布）
縱軸為：已知分布的分位數的值
數據集中在對角線上則說明越符合正態分布

from statsmodels.graphics.api import qqplot import matplotlib.pyplot as plt qqplot(ss.norm.rvs(size = 50)) plt.close() # plt.show()

1.6 相關系數

pearson相關系數和具體數值有關
spearman相關系數和名次差有關，運用于相對比較的情況

s1 = pd.Series(np.random.randn(10)) s2 = pd.Series(np.random.randn(10)) s1.corr(s2,method = "spearman") df = pd.DataFrame(np.array([s1,s2]).T) df.corr()

2 單因素分析

2.1 線性回歸

求解方法:最小二乘法
關鍵指標：

決定系數: [0,1],越接近于1，回歸效果越好

殘差不相關（DW檢驗）：[0,4],DW = 2 回歸效果好，即殘差不相關，0負相關，4正相關

# 一元線性回歸 from sklearn.linear_model import LinearRegression as LR from sklearn.cross_validation import train_test_split x = np.arange(50).astype(np.float).reshape(-1,1) y = 3*x + 2+5*np.random.random((50,1)) x_train,x_test,y_train,y_test = train_test_split(x,y,train_size = 0.8) lr = LR() lr.fit(x_train,y_train) # 線性擬合 y_pre = lr.predict(x) # 擬合模型進行預測 plt.scatter(x_train,y_train,color = "b") plt.scatter(x_test,y_test,color = "y") plt.plot(x,y_pre,color = "r") plt.close() lr.coef_ # 斜率 lr.intercept_ #截距 lr.score(x_test,y_test) # 決定系數

2.2 PCA 奇異值分解

sklearn自帶的PCA方法使用的是奇異值分解

from sklearn.decomposition import PCA decom = PCA(n_components = 1) data = np.random.random((50,2)) decom.fit(data) decom.explained_variance_ratio_ # 降維后得到的信息量 decom.fit_transform(data) # 得到降維后的數據

2.3 主成分分析（PCA自定義實現）

def myPCA(data,n_components = 2):from scipy import linalg # linear algbra 線性代數data_cov = np.cov(data,rowvar = False)data_mean = np.mean(data,axis = 0)data_temp = data - data_meaneig_value,eig_vector = linalg.eig(np.mat(data_cov)) # eigen為特征的、固有的意思，linalg.eig為計算特征值和特征向量的函數eig_value_index = np.argsort(eig_value)[:-(n_components+1):-1]eig_vector = eig_vector[:,eig_value_index]data_decom = np.dot(data_temp,eig_vector) # np.dot和np.matmul都為矩陣乘法return data_decom,eig_value data = np.array([[2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1],[2.4,0.7,2.9,2.2,3,2.7,1.6,1.1,1.6,0.9]]).T myPCA(data,n_components = 1)

3 復合分析

3.1 分組分析

分組分析只是一種輔助手段

鉆取：分為向上鉆取和向下鉆取，向上鉆取即為匯總分析

分割：一階差分
拐點：二階差分
不純度：GiNi系數

3.1.1 離散數據分組

import seaborn as sns sns.barplot(data = df,x = "a",y = "b",hue = "c")

3.1.2 連續數據分組

sns.barplot(list(range(len(df['a']))),df['a'].sort_values())

3.1.3 不純度（GiNi系數）

針對目標標注的GiNi系數
選取GiNi系數接近于0的目標標注

# 定義概率平方和函數： def getProbSS(s):import pandas as pdimport numpy as npif not isinstance(s,pd.core.series.Series):s = pd.Series(s)return sum((pd.groupby(s,by = s).count().values/float(len(s)))**2)# 定義GiNi系數求取函數 def getGiNi(s1,s2):"""其中s1為目標標注"""import pandas as pdimport numpy as npdict_temp = {}for i in range(len(s1)):dict_temp[s1[i]] = dict_temp.get(s1[i],[]) + [s2[i]]return 1 - sum([getProbSS(value)/float(len(value)) for value in dict_temp.values()]) s1 = ["x1","x1","x2","x2","x2","x2"] s2 = ["y1","y1","y1","y2","y2","y2"] getGiNi(s1,s2)

3.2 相關分析

相關性分析分為兩種：

連續數據的相關性分析 - 相關性系數

離散數據的相關性分析 - 基于熵定義的相關性系數

# __________離散數據相關系數的計算 s1 = ["x1","x1","x2","x2","x2","x2"] s2 = ["y1","y1","y1","y2","y2","y2"]# 定義計算熵的函數 def getEntropy(s):"""熵是度量不確定性的指標熵趨近于0，則不確定會很小。"""import pandas as pdimport numpy as npif not isinstance(s,pd.core.series.Series):s = pd.Series(s)prob_dist = pd.groupby(s,by = s).count().values/float(len(s))return -(prob_dist*np.log2(prob_dist)).sum()# 自定義計算條件熵的函數 def getCondEntropy(s1,s2):"""在s1分布下分別對s2計算熵"""import pandas as pdimport numpy as npif not isinstance(s1,pd.core.series.Series):s1 = pd.Series(s1)if not isinstance(s2,pd.core.series.Series):s2 = pd.Series(s2)dict_temp = {}for i in np.arange(len(s1)):dict_temp[s1[i]] = dict_temp.get(s1[i],[]) + [s2[i]] return sum([getEntropy(value)*float(len(value))/float(len(s1)) for value in dict_temp.values()])# 自定義互信息即熵增益函數 def getEntropyGain(s1,s2):"""計算由s1分布到s2的熵增益"""return getEntropy(s2) - getCondEntropy(s1,s2)# 自定義熵增益率系數 def getEntropyGainRatio(s1,s2):return getEntropyGain(s1,s2)/getEntropy(s2)# 自定義熵相關度函數 def getDiscreteRelation(s1,s2):"""計算離散變量的相關系數"""return getEntropyGain(s1,s2)/(getEntropy(s1)*getEntropy(s2))**0.5getDiscreteRelation(s1,s2)

4 因子分析（成分分析）

from factor_analyzer import FactorAnalyzer class CyrusFactorAnalysis():def __init__(self,logger=None):self.logger = loggerself.metric_tool = CyrusMetrics(logger=self.logger)self.plot_tool = PlotTool(self.logger)def select_factor_nums(self,data):self.standard_tool = StandardTool(data)std_data = self.standard_tool.transform_x(data)self.factor_tool = FactorAnalyzer(n_factors=data.shape[1], rotation="promax")var = self.factor_tool.get_factor_variance()save_to_excel()def run_factor_analysis(self,data,n_factor=2):self.standard_tool = StandardTool(data)std_data = self.standard_tool.transform_x(data)self.factor_tool = FactorAnalyzer(n_factors=n_factor, rotation="promax")process_data = self.factor_tool.fit_transform(std_data)factor_data = self.factor_tool.loadings_weights = self.factor_tool.weights_var = self.factor_tool.get_factor_variance()save_to_excel([(pd.DataFrame(factor_data),"載荷矩陣"),(pd.DataFrame(process_data),"歸因后結果"),(pd.DataFrame(weights),"歸因系數"),(pd.DataFrame(var),"方差解釋性")],path="FactorAnalysisResult_{}".format(datetime.datetime.now().strftime("%Y-%m-%d")))def transform(self,data):std_data = self.standard_tool.transform_x(data)factor_data = self.factor_tool.transform(std_data)return factor_datadef save_model(self):save_var(self.factor_tool,path="FactorAnalysisModel_{}".format(datetime.datetime.now().strftime("%Y-%m-%d")))

by CyrusMay 2022 04 05

總結

以上是生活随笔為你收集整理的数据挖掘 —— 探索性数据分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数据挖掘 —— 数据预处理
下一篇：数据挖掘 —— 有监督学习（分类）