吴恩达《机器学习》学习笔记一——初识机器学习
吳恩達(dá)《機(jī)器學(xué)習(xí)》學(xué)習(xí)筆記一
- 一、 什么是機(jī)器學(xué)習(xí)?
- 二、監(jiān)督學(xué)習(xí)
- 三、無(wú)監(jiān)督學(xué)習(xí)
初識(shí)機(jī)器學(xué)習(xí)
這是個(gè)人學(xué)習(xí)吳恩達(dá)《機(jī)器學(xué)習(xí)》課程的一些筆記,供自己和大家學(xué)習(xí)提升。第一篇內(nèi)容較少,日后繼續(xù)加油。
課程鏈接:https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118
一、 什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)一直沒(méi)有一個(gè)官方固定的定義。但課中給出了兩種解釋,個(gè)人認(rèn)為非常經(jīng)典,易于理解。
定義一:Field of study that gives computers the ability to learn without being explicitly programmed.—— Arthur Samuel(1959) 即無(wú)需明確編程,就使得計(jì)算機(jī)有學(xué)習(xí)能力的研究領(lǐng)域。
值得一提的是,阿瑟.塞繆爾(Arthur Samuel)在此之前(1952年)研發(fā)出了第一個(gè)計(jì)算機(jī)跳棋程序,它是世界上第一個(gè)可以自主學(xué)習(xí)的程序。通過(guò)和該跳棋程序不斷的下棋,使得該程序的跳棋技巧不斷得到提升,最終甚至超過(guò)了人類(lèi)水平,這是機(jī)器學(xué)習(xí)早期一個(gè)非常經(jīng)典的案例。
定義二:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 即計(jì)算機(jī)程序從經(jīng)驗(yàn)E上學(xué)習(xí)來(lái)處理任務(wù)T,且P為性能評(píng)估,如果在T上,由P衡量的性能隨著經(jīng)驗(yàn)E的學(xué)習(xí)而提高,這就是機(jī)器學(xué)習(xí)。
下面看一個(gè)課中給出的定義二的例子:
這是一個(gè)郵件分類(lèi)問(wèn)題,基于已知郵件是否為垃圾郵件的信息,來(lái)優(yōu)化郵件分類(lèi)系統(tǒng)。此處選項(xiàng)一:把郵件分類(lèi)為垃圾或正常郵件是機(jī)器學(xué)習(xí)的T;選項(xiàng)二:觀察你標(biāo)記的郵件是垃圾還是正常是機(jī)器學(xué)習(xí)的E;選項(xiàng)三:正確分類(lèi)郵件的數(shù)量是機(jī)器學(xué)習(xí)的P。
此外,機(jī)器學(xué)習(xí)有其分類(lèi),主要分為如下三類(lèi):
| 監(jiān)督學(xué)習(xí) | 線性回歸、SVM、決策樹(shù)等 |
| 無(wú)監(jiān)督學(xué)習(xí) | 聚類(lèi)、密度估計(jì)等 |
| 其他:強(qiáng)化學(xué)習(xí)、推薦系統(tǒng)等 | -待學(xué)習(xí)- |
所以下面分別討論了基本的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
二、監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)的特點(diǎn)是,學(xué)習(xí)數(shù)據(jù)都是有標(biāo)注的。如經(jīng)典的房?jī)r(jià)預(yù)測(cè)案例,它的數(shù)據(jù)集中數(shù)據(jù)樣本不僅給出了各自的屬性值,還給出了具體的房?jī)r(jià)大小,而這個(gè)房?jī)r(jià)大小就是所謂的標(biāo)注,也就是需要預(yù)測(cè)的屬性,模型從帶有標(biāo)注的數(shù)據(jù)中學(xué)習(xí),隨后對(duì)新的數(shù)據(jù)預(yù)測(cè)其標(biāo)簽值。如下圖所示是房?jī)r(jià)預(yù)測(cè)的一個(gè)示例。
圖中為簡(jiǎn)單起見(jiàn),只考慮了房子的一個(gè)屬性:面積(feet2),而實(shí)際還需要考慮很多其他屬性如:朝向、地段等。紅色的×表示已知的一批帶有標(biāo)注的數(shù)據(jù),要從這些數(shù)據(jù)中學(xué)習(xí)得一種模型,使得后續(xù)預(yù)測(cè)的值比較真實(shí),紅色的直線是一次函數(shù)模型,藍(lán)色的曲線是更復(fù)雜的模型,目標(biāo)都是盡可能地模擬所有數(shù)據(jù)。模型選擇的好壞,也會(huì)對(duì)預(yù)測(cè)有很大的影響(此處藍(lán)色的模型看起來(lái)要比紅色的好)。若已得到一個(gè)模型,則新給出一個(gè)輸入如:房屋面積為750feet2,根據(jù)模型則可以得到預(yù)測(cè)房?jī)r(jià)為多少。
此外,房?jī)r(jià)預(yù)測(cè)也是回歸問(wèn)題的一個(gè)實(shí)例,所謂回歸,就是預(yù)測(cè)值是連續(xù)值,此處房?jī)r(jià)是一個(gè)連續(xù)值,所以是一個(gè)回歸問(wèn)題。
與此對(duì)應(yīng),若預(yù)測(cè)值是離散的,則被稱(chēng)為分類(lèi)問(wèn)題,如上述提到的郵件分類(lèi),預(yù)測(cè)值只有垃圾郵件和正常郵件兩個(gè)值。如下圖所示,是根據(jù)腫瘤尺寸這個(gè)屬性來(lái)對(duì)乳腺腫瘤進(jìn)行分類(lèi)的數(shù)據(jù),標(biāo)簽值只有0(良性)和1(惡性)兩種。
而往往不止通過(guò)一個(gè)屬性進(jìn)行學(xué)習(xí),還可能通過(guò)細(xì)胞尺寸均勻度、細(xì)胞形狀均勻度、患者年齡等許多屬性來(lái)進(jìn)行學(xué)習(xí)。
三、無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相對(duì),當(dāng)學(xué)習(xí)數(shù)據(jù)不帶有標(biāo)簽時(shí),就可以看成是無(wú)監(jiān)督學(xué)習(xí),也可以理解為沒(méi)有正確答案的學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)在做的,更多的是找出數(shù)據(jù)之間的相似相關(guān)性。如下圖所示,x1和x2是數(shù)據(jù)的兩個(gè)屬性,數(shù)據(jù)不帶有標(biāo)簽,無(wú)監(jiān)督學(xué)習(xí)會(huì)尋找數(shù)據(jù)之間的相似性,將無(wú)標(biāo)注的數(shù)據(jù)劃分為一個(gè)個(gè)的簇。
總結(jié)
以上是生活随笔為你收集整理的吴恩达《机器学习》学习笔记一——初识机器学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: QT事件过滤器eventFilter函数
- 下一篇: sublime text插件emmet的