计算机视觉与模式识别速成
生活随笔
收集整理的這篇文章主要介紹了
计算机视觉与模式识别速成
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
模式識別的基本定義
分類:輸出量是離散的類別表達,即輸出待識別模式所屬的類別
回歸:輸出量是連續的信號表達(回歸值) ,輸出量維度:單個/多個維度
模式識別:根據已有知識的表達,針對待識別模式,判別決策其 所屬的類別或者預測其對應的回歸分類(Classificat
(特征提取(feature extraction):從原始輸入數據提取更有效的信息 ?回歸器(regressor):將特征映射到回歸值 判別函數:使用一些特定的非線性函數來實現,記作函數g 。由于判別函數通常固定已知,所以不把它當做模型的一部分 特征: 可以用于區分不同類別模式的、可測量的量。 例子:針對橙子和蘋果兩個類,形狀or顏色? 輸入數據也可以看做是一種原始特征表達。 特征的特點:魯棒性特征空間:每個坐標軸代表一維特征
空間中的每個點代表一個模式(樣本) 從坐標原點到任意一點(模式)之間的向量即為該模式的特征 向量。?
?練樣本
特征向量
一組訓練樣本(數據),記作
? 每個訓練樣本 , 都是通過采樣得到的一個模式,即輸入特征空 間中的一個向量;通常是高維度(即 p 很大),例如一幅圖像。 ? 訓練樣本可以認為是尚未加工的原始知識,模型則是經過學習(即加工 整理歸納等)后的真正知識表達。 ? 所有訓練樣本假設滿足independent and identical distribution (iid) 。 ? 如果想學得好,這組訓練樣本要覆蓋模型所有可能的分布空間。 模型的參數和結構 ? 模型的參數: ? 模型的結構:函數 f 的形式。 ? 可見,模型結構決定了模型有哪些參數。 ? 通常情況下,模型的結構是設計人員事先給定的。 ? 如何學習模型結構是當前和未來機器學習領域的研究內容之一。 線性模型 非線性模型 特征向量的定義 訓練樣本個數=模型參數個數(N=M )參數有唯一的解。 訓練樣本個數 > 模型參數個數(N>M,Over-determined):沒有準確的解。 訓練樣本個數< 模型參數個數(N<M, Under-determined) : 無數個解/無解。 對亍over-determined的情況,需要額外添加一個標準,通過優化該標 準 來確定一個近似解。該標準就叫目標函數(Objective function), 也稱 作代價函數(cost function)或損失函數(loss function)。 真值(ground truth):針對每個訓練樣本 ,其對應的真實 正確的輸出值, 記作 。 標簽(label):對亍分類仸務,真值又稱作標簽。 通常,每個真值是一個向量 。二類分類:真值是一個標量 。 標注(labeling):給每個訓練樣本標出真值的過程。目前,主 要由人工完成。 標注的樣本(labeled samples):有提供真值的樣本。 未標注的樣本(unlabeled samples):沒有提供真值的樣本。 強化學習 有些仸務需要先后累積多次決策勱作才能知道最終結果好壞, 很難針對單次決策給出對應的真值,例如,棋類游戲。 ?強化學習:機器自行探索決策、真值滯后反饋的過程。 定義從輸入狀態到勱作決策為一個策略(policy) 使用該策略迚行決策探索時,給予每次決策一個獎勵(reward) ?累積多次獎勵獲得回報值(return) ?回報的期望值作為該策略的價值函數(value function) ?通過最大化回報的期望值,解出策略的參數 誤差(error):模型(機器)給出的預測/決策輸出與真值輸 出之間的差異。 訓練誤差( training error):模型在訓練集上的誤差。 測試誤差(test error):模型在測試集上的誤差。它反映了模 型的泛化能力,也稱作泛化誤差。 訓練樣本存在的問題: 訓練樣本稀疏:給定的訓練樣本數量是有限的(即有限采 樣),很難完整表達樣本真實分布。 訓練樣本采樣過程可能不均勻:有些區域采樣密一些,有些 區域采樣稀疏一些。 一些訓練樣本可能帶有噪聲。 泛化能力:訓練得到的模型不僅要對訓練樣本具有決策能力, 也要對新的(訓練過程中未看見)的模式具有決策能力。 過擬合(over-fitting): 模型訓練階段表現很好,但是在測試階段表現很差。 模型過于擬合訓練數據。 對于回歸任務:測試誤差。 二類分類:真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN) 多類分類:依次以單個類作為正類,其余為負類混淆矩陣
?
?
?根據模型的預測數值,對樣本迚
行從高到低排序,排在前面的樣 本是正例的可能性更高。 按此順序逐個樣本作為正例迚行 預測(或設置閾值截斷正例和負 例),則每次可以計算一個召回 率和精度。 將這些值連成(擬合)一條曲線?
橫軸:False positive rate (FPR),度量所有陰性樣本中被錯誤 識別為陽性的比率。FPR=1-specificity。 ? 縱軸:True positive rate (TPR),即recall。度量所有陽性樣本 被識別為陽性的比例。 理想性能:左上角(0,1)處。 ROC曲線越往左上凸,說明模型的性能越好。 對角線:隨機識別的ROC曲線。 繪制方法:不PR曲線相似。? ? ? ? ROC曲線:對于各類別之間 樣本分布比例不敏感,因為 FPR和TPR各自只跟真值為 負 或真值為正的樣本相關。 ? PR曲線:對于各類別樣本分 布比例敏感,因為precision 同時和真值正負的樣本都相關 MED分類器?
?
?
?特征正交白化
將原始特征映射到一個新的特征空間,使得在新空間 中特征的協方差矩陣為單位矩陣,從而去除特征變化 的不同及特征之間的相關性。 將特征轉換分為兩步:先去除特征之間的相關性(解耦, Decoupling), 然后再對特征進行尺度變換(白化, Whitening),使每維特征的方差 相等?
Classification)總結
以上是生活随笔為你收集整理的计算机视觉与模式识别速成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7下通过easyBCD引导安装Ub
- 下一篇: 英语练嘴宝典