《机器学习》(西瓜书)周志华 -学习心得
第一章緒論
基本術語
記錄&示例&樣本:“=”,意思是取值為,每一條記錄是關于一個對象或事件的描述。eg:(色澤=淺白;根蒂=硬挺;敲聲=清脆)
數據集:記錄的集合 D={x~1,x~2,x~3,x~4......,x~m},其中每個示例x~i=(x~i~1,x~i~2,x~i~3,x~i~d),d為樣本空間的維度(~表示下標),x~i~j=x~i在第j個屬性上的1取值
屬性&特征:反映事件或對象在某方面的表現或性質的事項。eg:色澤,根蒂,敲聲
屬性值:屬性上的取值。eg:淺白,硬挺,清脆
屬性空間&樣本空間&輸入空間:屬性張成的空間? ? 用'X表示
特征向量:一個示例稱為一個特征向量
維數&維度:每個示例的屬性數量。eg:上述例子的維數是 3
學習&訓練:從數據中學得模型的過程
訓練數據:訓練過程使用的數據
訓練樣本:訓練數據中的每一個樣本
訓練集:訓練樣本組成的集合
假設:學得模型對應了關于數據的某種潛在的規律(主語:學得模型)
真相&真實:潛在規律自身
學習器:學得模型,可看作學習算法在給定數據和參數空間上的實例化
標記:獲得的訓練樣本的“結果”,eg:(色澤=淺白;根蒂=硬挺;敲聲=清脆)-----好瓜。這里好瓜就是標記
樣例:擁有標記信息的示例,一般用(x~i,y~i)表示第i個樣例,x~i是示例,y~i是x~i的標記,y~i∈'Y
標記空間&輸出空間:'Y,是所有標記的集合
分類學習:預測的是離散值 eg:好瓜,壞瓜
回歸學習:預測的是連續值? eg:西瓜成熟度0.95,0.37
總結:預測任務是希望通過對訓練集{(x~1,y~1),(x~2,y~2),......(x~m,y~m)}進行學習,建立一個從輸入空間`X到輸出空間`Y的映射f:`X->`Y,對二分類任務,通常令`Y={-1,+1}或{0,1};對多分類任務|`Y|>2;對回歸任務`Y=R,R為實數集
?
測試:學得模型后,使用其進行預測的過程
測試樣本:被預測的樣本
聚類:將訓練中的樣本分為若干組,每組成為一個“簇” eg:將訓練集中的西瓜分為若干組,每組為一個‘簇’,例如“本地瓜”、“外地瓜”,在聚類學習中,各個“簇”的概念事先不知道
監督學習&無監督學習:根據有無擁有標記信息,分為監督學習和無監督學習,分類和回歸是前者的代表,聚類是后者的代表
泛化:學得模型適用于新樣本的能力
獨立同分布:通常假設樣本空間中全體樣本服從一個未知的“分布”D,我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”
歸納和推理:歸納是從特殊到一般,推理是從一般到特殊,從樣例中學習是歸納過程,因此又稱歸納學習
廣義的歸納學習:大體相當于從樣例中學習
狹義的歸納學習:要求從訓練數據中學得概念,因此亦稱為“概念學習”或“概念形成”
假設空間:由所有假設組成的空間
版本空間:可能有多個假設與訓練集一直,即存在一個與訓練集一致的“假設集合”,我們稱之為“版本空間”
?
歸納偏好:機器學習在學習過程中對某種類型假設點的偏好,稱為“歸納偏好”,我們的算法必須存在某種偏好,才能產出它認為”正確“的模型
奧卡姆剃刀:若有多個假設與觀察一致,則選最簡單的那個
脫離具體問題,空談“什么學習算法更好”毫無意義
?
發展歷程:略
PS:數據庫領域的研究為數據挖掘提供數據管理技術,而機器學習和統計學為數據挖掘提供有效的學習算法
總結
以上是生活随笔為你收集整理的《机器学习》(西瓜书)周志华 -学习心得的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 路由基础之基本的路由策略配置
- 下一篇: 【特征检测】FAST特征点检测算法