机器学习-特征处理/归一化/标准化/降维03
歸一化
標準化
特征處理
特征處理是什么:通過特定的統計方法(數學方式)將數據轉換成算法要求的數據。
降維:把特征的數量減少叫做降維
特征的選擇:特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓練集特征,特征在選擇前和選擇后可以改變值,也不改變值,但是選擇后的特征維度肯定比之前小,畢竟我們只選擇了其中的一部分特征。
主要方法(工具):
filter(過濾式):VarianceThreshold
Embedded(嵌入式):正則化,決策樹
Wrapper(包裹式)
降維過濾式:從方差大小來考慮所有樣本這個特征的數據情況
def var():# 特征選擇-刪除低方差的特征var = VarianceThreshold(threshold=0.0)# 根據實際情況取值data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])print(data)if __name__=='__main__':var()降維主成分分析
PCA:當特征數量達到上百的時候—考慮數據的簡化
n_components 小數 0-1 90% 一般保留特征(90%-95%)
整數:減少到的特征數量 一般使用小數
案例:
數據來源:https://www.kaggle.com/c/instacart-market-basket-analysis/data?select=order_products__prior.csv.zip
文件詳情截圖
1,合并各張表到一張表當中
pd.merge()
其他降維方法:線性判別分析LDA
機器學習基礎
1,機器學習開發(fā)流程
2,機器學習算法分類
明確幾點問題:
(1)算法是機器學習的核心,數據和計算是基礎
(2)找準定位
- 分析很多的數據
- 分析具體的業(yè)務
- 應用常見的算法
- 特征工程,掉參數,優(yōu)化
(3)學會分析問題,使用機器學習算法的目的,想要算法完成何種任務
(4)掌握算法的基本思想,學會對問題用響應的算法解決
(5)學會利用庫或者框架解決問題
監(jiān)督學習(重點):有特征值+目標值
-
分類:目標值離散型 回歸:目標值連續(xù)性
-
-
輸入數據有特征有標簽,即有標準答案
非監(jiān)督學習:只有特征值
- 輸入數據有特征無標簽,即無標準答案
3,機器學習模型
算法+數據=模型
總結
以上是生活随笔為你收集整理的机器学习-特征处理/归一化/标准化/降维03的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习-特征抽取02
- 下一篇: 机器学习-数据集类型04