【机器学习】一篇白话机器学习概念
前言: 應出版社約稿,計劃出個機器學習及深度學習通俗序列文章,不足之處還請多提建議。
4.1 機器學習簡介
???????????機器學習看似高深的術語,其實就在生活中,古語有云:“一葉落而知天下秋”,意思是從一片樹葉的凋落,就可以知道秋天將要到來。這其中蘊含了樸素的機器學習的思想,揭示了可以通過學習對“落葉”特征的經驗,預判秋天的到來。
????????機器學習作為人工智能領域的核心組成,是非顯式的計算機程序學習數據經驗以優化自身算法,以學習處理任務的過程。一個經典的機器學習的定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.(一個計算機程序在處理任務T上的指標表現P可以隨著學習經驗E積累而提高。)
????????如圖4.1 ,任務T即是機器學習系統如何正確處理數據樣本。指標表現P即是衡量任務正確處理的情況。經驗E可以體現在模型學習處理任務后的自身的參數值。模型參數意義即如何對各特征的有效表達以處理任務。
????????進一步的,機器學習的過程一般可以概括為:計算機程序基于給定的、有限的學習數據出發(常基于每條數據樣本是獨立同分布的假設),選擇某個的模型方法(即假設要學習的模型屬于某個函數的集合,也稱為假設空間),通過算法更新模型的參數值(經驗),以優化處理任務的指標表現,最終學習出較優的模型,并運用模型對數據進行分析與預測以完成任務。由此可見,機器學習方法有四個要素:
數據
模型
學習目標
優化算法
我們通過將機器學習方法歸納為四個要素及其相應地介紹,便于更好地理解各種算法原理的共性所在,而不是獨立去理解各式各樣的機器學習方法。
4.1.1 數據
數據是機器學習方法的基礎的原料,它通常由一條條數據(每一行)樣本組成,樣本由描述其各個維度信息的特征及目標值標簽(或無)組成。如圖4.2所示癌細胞分類任務的數據集:
4.1.2 模型
學習到“好”的模型是機器學習的直接目的。機器學習模型簡單來說,即是學習數據特征與標簽的關系或者學習數據特征內部的規律的一個函數。
機器學習模型可以看作是(如圖4.3):首先選擇某個的模型方法,再從數據樣本(x,(y))中學習,優化模型參數w以調整各特征的有效表達,最終獲得對應的決策函數f( x; w )。該函數將輸入變量 x 在參數w作用下映射到輸出預測Y,即Y= f(x; w)。
4.1.3 學習目標
學習到“好”的模型,“好”即是模型的學習目標。“好”對于模型也就是預測值與實際值之間的誤差盡可能的低。具體衡量這種誤差的函數稱為代價函數 (Cost Function)或者損失函數(Loss Function),我們即通過以極大化降低損失函數為目標去學習模型。
對于不同的任務目標,往往也需要用不同損失函數衡量,經典的損失函數如:回歸任務的均方誤差損失函數及分類任務的交叉熵損失函數等。
均方誤差損失函數
衡量模型回歸預測的誤差情況,我們可以簡單地用所有樣本的預測值減去實際值求平方后的平均值,這也就是均方誤差(Mean Squared Error)損失函數。
交叉熵損失函數
衡量分類預測模型的誤差情況,常用極大似然估計法推導出的交叉熵損失函數。通過極小化交叉熵損失,使得模型預測分布盡可能與實際數據經驗分布一致。
4.1.4 優化算法
有了極大化降低損失函數為目標去學習“好”模型,而如何達到這目標?我們第一反應可能是直接求解損失函數最小值的解析解,獲得最優的模型參數。遺憾的是,機器學習模型的損失函數通常較復雜,很難直接求最優解。幸運的是,我們可以通過優化算法(如梯度下降算法、牛頓法等)有限次迭代優化模型參數,以盡可能降低損失函數的值,得到較優的參數值(數值解)。梯度下降算法如圖4.4,可以直觀理解成一個下山的過程,將損失函數J(w)比喻成一座山,我們的目標是到達這座山的山腳(即求解最優模型參數w使得損失函數為最小值)。
要做的無非就是“往下坡的方向走,走一步算一步”,而下坡的方向也就是J(w)負梯度的方向,在每往下走到一個位置的時候,求解當前位置的梯度,向這一步所在位置沿著最陡峭最易下山的位置再走一步。這樣一步步的走下去,一直走到覺得我們已經到了山腳。
當然這樣走下去,有可能我們不是走到山腳(全局最優),而是到了某一個的小山谷(局部最優),這也后面梯度下降算法的調優的地方。
對應到算法步驟:
小結
本文我們首先介紹了機器學習的基本概念,并概括機器學習的一般過程:從數據出發,通過設定了任務的學習目標,使用算法優化模型參數去達到目標。由此,重點引出了機器學習的四個組成要素(數據、模型、學習目標及優化算法),接下來我們會進一步了解機器學習算法的類別。
文章首發于算法進階,公眾號閱讀原文可訪問[GitHub項目源碼]
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》課件合集 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【机器学习】一篇白话机器学习概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win10系统如何查看电脑是否是UEFI
- 下一篇: 系统盘怎么重装系统