机器学习基础概念
1.基礎概念:
(1) 10折交叉驗證:英文名是10-fold cross-validation,用來測試算法的準確性。是常用的測試方法。將數據集分成10份。輪流將其中的9份作為訓練數據,1分作為測試數據,進行試驗。每次試驗都會得出相應的正確率(或差錯率)。10次的結果的正確率(或差錯率)的平均值作為對算法精度的估計,一般還需要進行多次10折交叉驗證,在求其平均值,對算法的準確性進行估計。
(2) 極大似然估計:極大似然估計,只是一種概率論在統計學中的應用,它是參數評估的方法之一。說的已知某個隨機樣本滿足某種概率分布,但是其中具體的參數不清楚,參數估計通過若干次實驗,觀察其結果,利用結果推出參數的大概值。極大似然估計是建立在這樣的思想上的:已知某個參數能使這個樣本出現的概率最大。我們當然不會再去選擇其他其他小概率的樣本,所以干脆就把這個參數作為估計的真實值。
(3) 在信息論中,熵表示的是不確定性的量度。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義為”用來消除不確定性的東西“。熵的定義為信息的期望值。
ps:熵指的是體系的混亂程度,它在控制論,概率論,數論,天體物理,生命科學等領域都有重要的應用,在不同的學科中也有引申出更為具體的定義,是各個領域十分重要的參量。熵由魯道夫.克勞修斯提出,并應用在熱力學中。后來在,克勞德.埃爾伍德.香農第一次將熵的概念引入到信息論中來。
(4) 后驗概率是信息論的基本概念之一。在一個通信系統中,在收到某個消息之后,接收端所了解到的該消息發送的概率稱為后驗證概率。后驗概率是指在得到”結果“的信息后重新修正的概率,如貝葉斯公式中的。是執果尋因的問題。后驗概率和先驗概率有著不可分割的聯系,后驗的計算要以先驗概率為基礎,其實說白了后驗概率其實就是條件概率。
(5) PCA 主成分分析:
優點:降低數據的復雜性,識別最重要的多個特征。
缺點:不一定需要,且可能損失有用信息。
適用適用類型:數值型數據。
技術類型:降維技術。
簡述:在PCA中,數據從原來的坐標系轉換到了新的坐標系,新坐標系的選擇是由數據本身決定的。第一個新坐標軸選擇時原始數據中方差最大的方向,第二個新坐標軸的選擇和第一個坐標軸正交且具有最大方差的方向。該過程一直重復,重復次數為原始數據中特征的數目。會發現大部分方差都包含在最前面的幾個新坐標軸中。因此,可以忽略余下的坐標軸,即對數據進行了降維處理。除了PCA主成分分析技術,其他降維技術還有ICA(獨立成分分析),因子分析等
(6) 將不同的分類器組合起來,而這種組合結果則被稱為集成方法(ensemble method)或者元算法(meta-algorithm)。
(7) 回歸算法和分類算法很像,不過回歸算法和分類算法輸出標稱型類別值不同的是,回歸方法會預測出一個連續的值,即回歸會預測出具體的數據,而分類只能預測類別。
(8) SVD(singular value decomposition) 奇異值分解:
優點:簡化數據,去除噪聲,提高算法的結果。
缺點:數據轉換可能難以理解。
適用數據類型:數值型數據。
ps:SVD是矩陣分解的一種類型。
總結:SVD是一種強大的降維工具,我們可以利用SVD來逼近矩陣并從中提取重要特征。通過保留矩陣80%~90%的能量,就可以得到重要的特征并去掉噪聲。SVD已經運用到多個應用中,其中一個成功的應用案例就是推薦引擎。推薦引擎將物品推薦給用戶,協同過濾則是一種基于用戶喜好和行為數據的推薦和實現方法。協同過濾的核心是相似度計算方法,有很多相似度計算方法都可以用于計算物品或用戶之間的相似度。通過在低維空間下計算相似度,SVD提高了推薦引擎的效果。
(9)共線性:是指線性回歸模型中的解釋變量之間由于存在精確的相關關系或高度相關關系而使模型估計失真或難以估計。
?
——來自SOTON數據分析微信文章
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
- 上一篇: 深入浅出SQL(三)——表的规范化
- 下一篇: 海南免税概念股票有哪些