當前位置：首頁 > 编程语言 > python >内容正文

python

《Python数据分析与挖掘实战》第8章——Apriori关联规则

發布時間：2024/3/24 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了《Python数据分析与挖掘实战》第8章——Apriori关联规则小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文是基于《Python數據分析與挖掘實戰》的實戰部分的第八章的數據——《中醫證型關聯規則挖掘》做的分析。

旨在補充原文中的細節代碼，并給出文中涉及到的內容的完整代碼。

主要有：1）將原始數據按照聚類結果進行標記類別

1 背景與目標分析

? ? 此項目旨在根據相關數據建模，獲取中醫證素與乳腺癌TNM分期之間的關系。

2 數據預處理

2.1 數據變換

2.1.1 數據離散化

datafile = 'data.xls' resultfile = 'data_processed.xlsx'typelabel = {u'肝氣郁結證型系數':'A',u'熱毒蘊結證型系數':'B',u'沖任失調證型系數':'C',u'氣血兩虛證型系數':'D',u'脾胃虛弱證型系數':'E',u'肝腎陰虛證型系數':'F'}k = 4 #需要進行的聚類類別數#讀取文件進行聚類分析 data = pd.read_excel(datafile) keys = list(typelabel.keys()) result = DataFrame()for i in range(len(keys)):#調用k-means算法進行聚類print(u'正在進行%s的聚類' % keys[i])kmodel = KMeans(n_clusters = k, n_jobs = 4) # n_job是線程數，根據自己電腦本身來調節kmodel.fit(data[[keys[i]]].as_matrix())# 訓練模型 # kmodel.fit(data[[keys[i]]]) # 不轉成矩陣形式結果一樣 #KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, # n_clusters=4, n_init=10, n_jobs=4, precompute_distances='auto', # random_state=None, tol=0.0001, verbose=0)r1 = DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) # 聚類中心r2 = Series(kmodel.labels_).value_counts() #分類統計r2 = DataFrame(r2,columns = [typelabel[keys[i]]+'n'])# 轉成DataFrame格式，記錄各個類別的數目r = pd.concat([r1,r2], axis=1).sort_values(typelabel[keys[i]])r.index = range(1,5)r[typelabel[keys[i]]] = pd.rolling_mean(r[typelabel[keys[i]]],2) # rolling_mean用來計算相鄰兩列的均值，以此作為邊界點r[typelabel[keys[i]]][1] = 0.0 # 將原來的聚類中心改成邊界點result = result.append(r.T) result = result.sort_index() # 以index排序，以ABCDEF排序 result.to_excel(resultfile)print (result)

2.1.2?劃分原始數據中的類別

# 將分類后數據進行處理（*****） data_cut = DataFrame(columns = data.columns[:6]) types = ['A','B','C','D','E','F'] num = ['1','2','3','4'] for i in range(len(data_cut.columns)):value = list(data.iloc[:,i])bins = list(result[(2*i):(2*i+1)].values[0])bins.append(1)names = [str(x)+str(y) for x in types for y in num]group_names = names[4*i:4*(i+1)]cats = pd.cut(value,bins,labels=group_names,right=False)data_cut.iloc[:,i] = cats data_cut.to_excel('apriori.xlsx') data_cut.head() # 注意！本文中作者最后建模的時候并沒有使用這份數據進行建模，當輸入這份數據時，結果為空！

3 模型建立

inputfile ='apriori.txt' #輸入事務集文件 # '''apriori.txt中文件格式如下 # A1,B2,C1,D3,E2,F1,H2 # A2,B2,C1,D2,E2,F1,H3 # A3,B4,C2,D3,E4,F1,H4 # A3,B1,C2,D1,E1,F1,H1 # ''' data2 = pd.read_csv(inputfile, header=None, dtype=object)# 此文件是作者建模時的數據，運行后正常。 # data2 = pd.read_excel('apriori.xlsx', header=0) # !!!此文件是在預處理時進行離散化后得到的，輸出結果有誤！為空！start = time.clock() # 計時開始 print(u'\n轉換原始數據至0-1矩陣')ct = lambda x: Series(1, index = x[pd.notnull(x)]) # 將標簽數據轉換成1，是轉換0-1矩陣的過渡函數 b = map(ct, data2.as_matrix())# 用map方式執行 data3 = DataFrame(b).fillna(0) end = time.clock() #計時開始print (u'轉換完畢，用時%s秒' % (end-start)) del b #刪除中間變量b 節省內存support = 0.06 #最小支持度 confidence = 0.75 #最小置信度 ms = '---'# 用來區分不同元素，需要保證原始表格中無該字符start = time.clock() #計時開始 print(u'\n開始搜索關聯規則...') find_rule(data3, support, confidence, ms) end = time.clock() print (u'\n搜索完成，用時：%.2f秒' % (end-start))

模型改進：

由于書中作者給出的代碼并沒有運用到剪枝策略，因此采用了這篇文章的代碼，將該代碼中load_data_set（）函數中的內容改成如圖：

其運行的結果如下：

備注：本章節完整代碼詳見點擊打開鏈接

總結

以上是生活随笔為你收集整理的《Python数据分析与挖掘实战》第8章——Apriori关联规则的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：怎么用clementine做关联规则分析
下一篇：计算机模拟comsol,基于COMSOL