ML 02、监督学习
FROM:?http://www.cnblogs.com/ronny/p/4062764.html
機(jī)器學(xué)習(xí)算法原理、實(shí)現(xiàn)與實(shí)踐——監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí),這里先討論監(jiān)督學(xué)習(xí)。?
監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)模型,使模型能夠?qū)θ我饨o定的輸入,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。
1 基本概念
1.1 輸入空間、特征空間與輸出空間
輸入與輸出所有可能取值的集合分別稱為輸入空間與輸出空間。
每個(gè)具體的輸入是一個(gè)實(shí)例(instance),通常由特征向量(feature vector)表示,這時(shí),所有特征向量存在的空間稱為特征空間。特征空間的每一維對(duì)應(yīng)于一個(gè)特征。有時(shí)假設(shè)輸入空間與特征空間為相同的空間。有時(shí)假設(shè)為不同的空間,這里需要將輸入空間映射于特征空間,這一過(guò)程稱為特征提取。模型實(shí)際上都是定義在特征空間上的。在監(jiān)督學(xué)習(xí)中,往往把輸入空間看為特征空間。通常用x表示輸入空間的一個(gè)實(shí)例?
其中,x(i)表示x的第i個(gè)特征。注意區(qū)分x(i)與xi,前者是一個(gè)實(shí)例中的第i維特征的值,而后者表示一個(gè)訓(xùn)練集中的第i個(gè)實(shí)例,它是一個(gè)向量。
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)集合中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。訓(xùn)練數(shù)據(jù)由輸入(或特征向量)與輸出對(duì)組成,訓(xùn)練集通常表示為:?
測(cè)試數(shù)據(jù)也是由相應(yīng)的輸入與輸出對(duì)組成。?
輸入與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題。輸出變量為有限個(gè)離散變量的預(yù)測(cè)稱為分類問(wèn)題;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題稱為標(biāo)注問(wèn)題。
1.2 聯(lián)合概率分布
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)。訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的。?
對(duì)于要統(tǒng)計(jì)分析的數(shù)據(jù),存在這樣的聯(lián)合概率分布P(X,Y),這是監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)的基本假設(shè)。
1.3 假設(shè)空間
監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)輸入到輸出的映射,這一映射由模型來(lái)表示。但這樣的映射往往不止一個(gè),學(xué)習(xí)的目標(biāo)在于找到最好的這樣的模型。由這樣的模型構(gòu)成的集合就是假設(shè)空間。?
監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型。由條件概率分布P(Y|X)或決策函數(shù)Y=f(X)表示。
2 監(jiān)督問(wèn)題的形式化表示
監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型,再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)。由于在這個(gè)過(guò)程中需要訓(xùn)練數(shù)據(jù)集,而訓(xùn)練數(shù)據(jù)集往往是人工給出的,所以稱為監(jiān)督學(xué)習(xí)。?
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程,由學(xué)習(xí)系統(tǒng)與預(yù)測(cè)系統(tǒng)完成,可以描述為下圖。
首先給定一個(gè)訓(xùn)練數(shù)據(jù)集:?
其中(xi,yi),i=1,2,…,N,稱為樣本或樣本點(diǎn)。xi為一個(gè)輸入的觀測(cè)值,yi為輸出的觀測(cè)值。?
監(jiān)督學(xué)習(xí)中,假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)是依聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的。
在學(xué)習(xí)的過(guò)程中,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集,通過(guò)學(xué)習(xí)得到一個(gè)模型,表示為條件概率分布P^(Y|X)或決策函數(shù)Y=f^(X)。
在預(yù)測(cè)過(guò)程中,預(yù)測(cè)系統(tǒng)對(duì)給定的測(cè)試樣本集中的輸入xN+1,由模型YN+1=argmaxyN+1P^(yN+1|xN+1)或yN+1=f^(xN+1)給出相應(yīng)的輸出yn+1
在學(xué)習(xí)的過(guò)程中,每一個(gè)(xi,yi)都會(huì)給模型帶來(lái)一些信息,具體地說(shuō)就是,對(duì)于輸入xi,一個(gè)具體的模型y=f(x)會(huì)產(chǎn)生一個(gè)輸出f(xi),然后用f(xi)與訓(xùn)練樣本的輸出yi對(duì)比,然后學(xué)習(xí)模型會(huì)根據(jù)這個(gè)差距適當(dāng)?shù)淖晕艺{(diào)整,以保證下次再遇到xi這個(gè)輸入時(shí),預(yù)測(cè)的比現(xiàn)在好。
總結(jié)
以上是生活随笔為你收集整理的ML 02、监督学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ML 01、机器学习概论
- 下一篇: ML 03、机器学习的三要素