當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】特征降维-主成分分析

發布時間：2024/9/30 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】特征降维-主成分分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

主成分分析

目標

應用PCA實現特征的降維
應用：用戶與物品類別之間主成分分析

什么是主成分分析(PCA)

定義：高維數據轉化為低維數據的過程，在此過程中可能會舍棄原有數據、創造新的變量

作用：是數據維數壓縮，盡可能降低原數據的維數（復雜度），損失少量信息。

應用：回歸分析或者聚類分析當中

那么更好的理解這個過程呢？我們來看一張圖

API

sklearn.decomposition.PCA(n_components=None)
- 將數據分解為較低維數空間
- n_components:
  - 小數：表示保留百分之多少的信息
  - 整數：減少到多少特征
- PCA.fit_transform(X) X:numpy array格式的數據[n_samples,n_features]
- 返回值：轉換后指定維度的array

數據計算

[[2,8,4,5], [6,3,0,8], [5,4,9,1]] def pca():"""主成分分析進行降維:return:"""# 信息保留70%pca = PCA(n_components=0.7)data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])print(data)return None

案例：探究用戶對物品類別的喜好細分降維

數據

order_products__prior.csv：訂單與商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用戶的訂單信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所屬具體物品類別
- 字段： aisle_id, aisle

分析

合并表，使得user_id與aisle在一張表當中
進行交叉表變換
進行降維

def pca_case_study():""":return: """# 去讀四張表的數據prior = pd.read_csv("./instacart/order_products__prior.csv")products = pd.read_csv("./instacart/products.csv")orders = pd.read_csv("./instacart/orders.csv")aisles = pd.read_csv("./instacart/aisles.csv")print(prior)# 合并四張表mt = pd.merge(prior, products, on=['product_id', 'product_id'])mt1 = pd.merge(mt, orders, on=['order_id', 'order_id'])mt2 = pd.merge(mt1, aisles, on=['aisle_id', 'aisle_id'])# pd.crosstab 統計用戶與物品之間的次數關系（統計次數）cross = pd.crosstab(mt2['user_id'], mt2['aisle'])# PCA進行主成分分析pc = PCA(n_components=0.95)data_new = pc.fit_transform(cross)print("data_new:\n", data_new.shape)return None

總結

以上是生活随笔為你收集整理的【机器学习】特征降维-主成分分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。