【机器学习】特征降维-主成分分析
生活随笔
收集整理的這篇文章主要介紹了
【机器学习】特征降维-主成分分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
主成分分析
目標
-
應用PCA實現特征的降維
-
應用:用戶與物品類別之間主成分分析
什么是主成分分析(PCA)
定義:高維數據轉化為低維數據的過程,在此過程中可能會舍棄原有數據、創造新的變量
作用:是數據維數壓縮,盡可能降低原數據的維數(復雜度),損失少量信息。
應用:回歸分析或者聚類分析當中
那么更好的理解這個過程呢?我們來看一張圖
API
- sklearn.decomposition.PCA(n_components=None)
- 將數據分解為較低維數空間
- n_components:
- 小數:表示保留百分之多少的信息
- 整數:減少到多少特征
- PCA.fit_transform(X) X:numpy array格式的數據[n_samples,n_features]
- 返回值:轉換后指定維度的array
數據計算
[[2,8,4,5], [6,3,0,8], [5,4,9,1]] def pca():"""主成分分析進行降維:return:"""# 信息保留70%pca = PCA(n_components=0.7)data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])print(data)return None案例:探究用戶對物品類別的喜好細分降維
數據
-
order_products__prior.csv:訂單與商品信息
- 字段:order_id, product_id, add_to_cart_order, reordered
-
products.csv:商品信息
- 字段:product_id, product_name, aisle_id, department_id
-
orders.csv:用戶的訂單信息
- 字段:order_id,user_id,eval_set,order_number,….
-
aisles.csv:商品所屬具體物品類別
- 字段: aisle_id, aisle
分析
-
合并表,使得user_id與aisle在一張表當中
-
進行交叉表變換
-
進行降維
總結
以上是生活随笔為你收集整理的【机器学习】特征降维-主成分分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】特征预处理
- 下一篇: 【机器学习】特征降维-特征选择