《机器学习》 —— 第一章:绪论 学习笔记
1.1 引言
機器學(xué)習(xí)所研究的主要內(nèi)容,是關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”(learning algorithm)。
1.2 基本術(shù)語
反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項,稱為“屬性”(attribute)或“特征”(feature);
屬性上的取值稱為“屬性值”(attribute value);
屬性張成的空間稱為“屬性空間”(attribute space)、“樣本空間”(sample space)或“輸入空間”。
由于空間中的每個點對應(yīng)一個坐標(biāo)向量,因此我們也把一個示例稱為一個“特征向量”(feature vector)。
一般地,D={x1,x2,…,xm}表示包含m個示例的數(shù)據(jù)集,每個示例由d個屬性描述,則每個示例xi=(xi1,xi2,…,xid)是d維樣本空間X中的一個向量,xi∈X,其中xij是xi在第j個屬性上的取值,d稱為樣本xi的“維數(shù)”(dimensionality)。
從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”(learning)或“訓(xùn)練”(training);
訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”(learning data),其中每個樣本稱為一個“訓(xùn)練樣本”(training sample);
訓(xùn)練樣本組成的集合稱為“數(shù)據(jù)集”(training set)。
學(xué)得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律,因此亦稱“假設(shè)”(hypothesis);
這種潛在規(guī)律自身,則稱為“真相”或“真實”(ground-truth),學(xué)習(xí)過程就是為了找出或逼近真相。
有時將模型稱為“學(xué)習(xí)器”(learner),可看作學(xué)習(xí)算法在給定數(shù)據(jù)和參數(shù)空間上的實例化。
關(guān)于示例結(jié)果的信息,稱為“標(biāo)記”(label);
擁有了標(biāo)記信息的示例稱為“樣例”(example)。
一般地,用(xi,yi)表示第i個樣例,其中yi∈Y是示例xi的標(biāo)記,Y是所有標(biāo)記的集合,亦稱“標(biāo)記空間”(label space)或“輸出空間”。
若將標(biāo)記看作對象本身的一部分,則“樣例”有時也稱為“樣本”。
若預(yù)測的是離散值,此類學(xué)習(xí)任務(wù)稱為“分類”(classification);
若預(yù)測的是連續(xù)值,此類學(xué)習(xí)任務(wù)稱為“回歸”(regression)。
對只涉及兩個類別的“二分類”(binary classification)任務(wù)通常稱其中一個為“正類”(positive class),另一個類為“反類”(negative class);
涉及多個類別時,則稱為“多分類”(multi-class classification)任務(wù)。
一般地,預(yù)測任務(wù)是希望通過對訓(xùn)練集{(x1,y1),(x2,y2),…,(xm,ym)}進行學(xué)習(xí),建立一個從輸入空間X到輸出空間Y的映射f:x—>y。
對二分類任務(wù),通常令Y={-1,+1}或{0,1};
對多分類任務(wù),|Y|>2;
對回歸任務(wù),y=R,R是實數(shù)集。
學(xué)得模型后,使用其進行預(yù)測的過程稱為“測試”(testing),被預(yù)測的樣本稱為“測試樣本”(testing sample)。
聚類(clustering),即將訓(xùn)練集分成若干組,每組稱為一個“簇”(cluster);
這些自動形成的簇可能對應(yīng)一些潛在的概念劃分。
這樣的學(xué)習(xí)過程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ);
需說明的是,在聚類學(xué)習(xí)中,潛在的概念事先是不知道的,而且學(xué)習(xí)過程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”(supervised learning)和“無監(jiān)督學(xué)習(xí)”(unsupervised learning),分類和回歸是前者的代表,而聚類是則是后者的代表。
機器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”,而不是僅僅在訓(xùn)練樣本上工作的很好;即便對聚類這樣的無監(jiān)督學(xué)習(xí)任務(wù),也希望學(xué)得的簇劃分能適用于沒在訓(xùn)練集中出現(xiàn)的樣本。
學(xué)得模型適用于新樣本的能力,稱為“泛化”(generalization)能力。
具有強泛化能力的模型能很好地適用于整個樣本空間。
通常假設(shè)樣本空間中全體樣本服從一個未知“分布”(distribution)D,獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”(independent and identically distributed,簡稱i.i.d.)。
一般而言,訓(xùn)練樣本越多,得到的關(guān)于D的信息越多,這樣就越有可能通過學(xué)習(xí)獲得具有強泛化能力的模型。
1.3 假設(shè)空間
歸納(induction)與演繹(deduction)是科學(xué)推理的兩大基本手段,
前者是從特殊到一般的泛化(generalization)過程,即從具體的事實歸結(jié)出一般性規(guī)律;
后者則是從一般到特殊的“特化”(specialization)過程,即從基礎(chǔ)原理推演出具體狀況。
歸納學(xué)習(xí)有狹義和廣義之分,
廣義的歸納學(xué)習(xí)大體相當(dāng)于從樣例中學(xué)習(xí);
而狹義的歸納學(xué)習(xí)則要求從訓(xùn)練數(shù)據(jù)中學(xué)得概念(concept),因此亦稱為“概念學(xué)習(xí)”或“概念形成”。
概念學(xué)習(xí)中最基本的是布爾概念學(xué)習(xí)。
把學(xué)習(xí)過程看作一個在所有假設(shè)(hypothesis)組成的空間中進行搜索的過程,搜索目標(biāo)是找到與訓(xùn)練集“匹配”(fit)的假設(shè)。
1.4 歸納偏好
機器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好,稱為“歸納偏好”(inductive bias),或簡稱為“偏好”。
任何一個有效的機器學(xué)習(xí)算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上“等效”的假設(shè)所迷惑,而無法產(chǎn)生確定的學(xué)習(xí)結(jié)果。
歸納偏好可看作學(xué)習(xí)算法自身在一個可能很龐大的假設(shè)空間中對假設(shè)進行選擇的啟發(fā)式或“價值觀”。
“奧卡姆剃刀”(Occam’s razor)是一種常用的、自然科學(xué)研究中最基本的原則,即“若有多個假設(shè)與觀察一致,則選最簡單的那個”。
“沒有免費的午餐”定理(No Free Lunch Theorem),簡稱NFL定理。
NFL定理有一個重要前提:所有“問題”出現(xiàn)的機會相同、或所有問題同等重要。
機器學(xué)習(xí)領(lǐng)域最重要的國際學(xué)術(shù)會議
國際機器學(xué)習(xí)會議(ICML)
國際神經(jīng)信息處理系統(tǒng)會議(NIPS)
國際學(xué)習(xí)理論會議(COLT)
機器學(xué)習(xí)領(lǐng)域最重要的區(qū)域性會議
歐洲機器學(xué)習(xí)會議(ECML)
亞洲機器學(xué)習(xí)會議(ACML)
機器學(xué)習(xí)領(lǐng)域最重要的國際學(xué)術(shù)期刊
Journal of Machine Learning Research
Machine Learning
人工智能領(lǐng)域的重要會議
IJCAI
AAAI
人工智能領(lǐng)域的重要期刊
Artificial Intelligence
Journal of Artificial Intelligence Research
數(shù)據(jù)挖掘領(lǐng)域的重要會議
KDD
ICDM
數(shù)據(jù)挖掘領(lǐng)域的重要期刊
ACM Transactions on Knowledge Discovery from Data
Data Mining and Knowledge Discovery
計算機視覺與模式識別領(lǐng)域的重要會議
CVPR
計算機視覺與模式識別領(lǐng)域的重要期刊
IEEE Transactions on Pattern Analysis and Machine Intelligence
神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要期刊
Neural Computation
IEEE Transactions on Networks and Learning Systems
統(tǒng)計學(xué)領(lǐng)域的重要期刊
Annals of Statistics
國內(nèi)機器學(xué)習(xí)領(lǐng)域的重要會議
中國機器學(xué)習(xí)大會(CCML)
“機器學(xué)習(xí)及其應(yīng)用”研討會(MLA)
總結(jié)
以上是生活随笔為你收集整理的《机器学习》 —— 第一章:绪论 学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1130:找第一个只出现一次的字符
- 下一篇: 最大连续和问题