Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)”
Coursera公開課筆記: 斯坦福大學(xué)機器學(xué)習(xí)第一課“引言(Introduction)”
注:這是我在“我愛公開課”上做的學(xué)習(xí)筆記,會在52opencourse和這里同步更新。隨著Coursera和Udacity這樣的注重交互式的網(wǎng)絡(luò)課堂的興起,相信傳統(tǒng)教育模式即將遭到顛覆。歡迎大家在52opencourse這個問答平臺上進行交流,希望能為大家提供一個開放、免費、高質(zhì)量以及世界級的公開課中文交流平臺和橋梁。
以下轉(zhuǎn)自原文: Coursera公開課筆記: 斯坦福大學(xué)機器學(xué)習(xí)第一課“引言(Introduction)”
Coursera上于4月23號啟動了6門公開課,其中包括斯坦福大學(xué)于“機器學(xué)習(xí)”課程,由機器學(xué)習(xí)領(lǐng)域的大牛Andrew Ng教授授課:
https://www.coursera.org/course/ml
課程剛剛開始,對機器學(xué)習(xí)感興趣的同學(xué)盡量注冊,這樣即使沒有時間學(xué)習(xí),獲取相關(guān)資料特別是視頻比較方便。
由于工作繁忙的緣故,這批科目里我主要想系統(tǒng)的學(xué)習(xí)一下“機器學(xué)習(xí)”課程,所以計劃在52opencourse和52nlp上同步我的機器學(xué)習(xí)課程筆記,一方面做個記錄和總結(jié),另一方面方便后來者參考。
Coursera上機器學(xué)習(xí)的課程學(xué)習(xí)過程是這樣的:看Andrew Ng教授的授課視頻或者看看課程相關(guān)的ppt;答系統(tǒng)隨機出的題,一般5道題,單選、多選甚至填空,滿分5分;編程作業(yè),需用Octave(和 Matlab相似的開源編程語言)完成,提交給系統(tǒng)得分,在規(guī)定時間內(nèi)完成,均取最高分,超過規(guī)定時間會對得分打折。
第一周(4月23日-4月29日)的課程包括三課:
- Introduction(引言)
- Linear Regression with One Variable(單變量線性回歸)
- (Optional) Linear Algebra Review(線性代數(shù)回顧)(對于線性代數(shù)熟悉的同學(xué)可以選修)
一、機器學(xué)習(xí)概覽
1)機器學(xué)習(xí)定義:機器學(xué)習(xí)是人工智能的一個分支,目標是賦予機器一種新的能力。機器學(xué)習(xí)的應(yīng)用很廣泛,例如大規(guī)模的數(shù)據(jù)挖掘(網(wǎng)頁點擊數(shù)據(jù),醫(yī)療記錄等),無人駕駛飛機、汽車,手寫手別,大多數(shù)的自然語言處理任務(wù),計算機視覺,推薦系統(tǒng)等。 機器學(xué)習(xí)有很多定義,廣為人知的有如下兩條:
Arthur Samuel (1959): Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
注:Arthur Lee Samuel (1901–1990) 教授是美國人工智能領(lǐng)域的先驅(qū),他設(shè)計了一些下棋程序,可以通過不斷的下棋來學(xué)習(xí),從而達到很高的下棋水平。
Tom Mitchell (1998) : Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
例子:對于一個垃圾郵件識別的問題,將郵件分類為垃圾郵件或非垃圾郵件是任務(wù)T,查看哪些郵件被標記為垃圾郵件哪些被標記為非垃圾郵件是經(jīng)驗E,正確識別的垃圾郵件或非垃圾郵件的數(shù)量或比率是評測指標P。
2)機器學(xué)習(xí)算法的類型
1、有監(jiān)督學(xué)習(xí)(Supervised learning):通過生成一個函數(shù)將輸入映射為一個合適的輸出(通常也稱為標記,多數(shù)情況下訓(xùn)練集都是有人工專家標注生成的)。例如分類問題,分類器 更加輸入向量和輸出的分類標記模擬了一個函數(shù),對于新的輸入向量,得到它的分類結(jié)果。
2、無監(jiān)督學(xué)習(xí)(Unsupervised learning):與有監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒有人為標注的結(jié)果。常見的無監(jiān)督學(xué)習(xí)算法有聚類。
3、半監(jiān)督學(xué)習(xí): 介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間。
4、強化學(xué)習(xí)(Reinforcement learning): 通過觀察來學(xué)習(xí)如何做出動作,每個動作都會對環(huán)境有所影響,而環(huán)境的反饋又可以引導(dǎo)該學(xué)習(xí)算法。
其他的類型包括推薦系統(tǒng),Transduction,Learning to learn等。
3)有監(jiān)督學(xué)習(xí)詳解
有監(jiān)督學(xué)習(xí)主要會提供一些標注樣本,分為兩大問題:回歸和分類
房屋價格預(yù)測-回歸(Regression):?預(yù)測連續(xù)的輸出值(價格)
?
?
乳腺癌(良性,惡性)預(yù)測問題-分類(Classification):?預(yù)測離散的輸出值(0,?1)
?
4)?無監(jiān)督學(xué)習(xí)詳解:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的對比,看圖更形象:?????????????????????????????例子:?Google?News,?基因序列分析,社會網(wǎng)絡(luò)分析,市場切分等…
?
特別的例子:雞尾酒會問題(Cocktail?party?problem)
“?雞尾酒會問題”(cocktail?party?problem)是在計算機語音識別領(lǐng)域的一個問題,當前語音識別技術(shù)已經(jīng)可以以較高精度識別一個人所講的話,但是當說話的人數(shù)為兩人或者多人時,語音識別率就會極大的降低,這一難題被稱為雞尾酒會問題。
雞尾酒會問題算法(一行代碼):
[W,s,v]?=?svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
?
一些參考資料:
解決方法ICA?demo:?http://research.ics.tkk.fi/ica/cocktail/cocktail_en.cgi
http://www.vislab.uq.edu.au/education/sc3/2001/johan/johan.pdf
http://www.physorg.com/news75477497.html
http://en.wikipedia.org/wiki/Cocktail_party_effect
http://www.scientificamerican.com/article.cfm?id=solving-the-cocktail-party-problem
?
以下關(guān)于”cocktail party problem”的文字引用自該鏈接:http://xiaozu.renren.com/xiaozu/121443/thread/335879281
stanford機器學(xué)習(xí)公開課(ml-class.org)第一章unsupervised?learning那段視頻里解決雞尾酒會問題(cocktail?party?problem)就寫了一行代碼:
[W,s,v]?=?svd?((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
lz土人感覺是用了PCA的方法。。可是W運行出來絲毫沒有unmixing的效果。。。用的是采樣頻率16kHz的Speech-Speech和Speech-Music兩個樣例。。
google這條代碼有post說這是ICA,我就迷茫了。。。看不出來怎么是ICA了。。折騰一夜了,毫無頭緒。。。
順便求此問題的demo。。各種語言均無妨。。
本文鏈接地址:http://www.52nlp.cn/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E4%B8%80%E8%AF%BE%E5%BC%95%E8%A8%80introduct
?
總結(jié)
以上是生活随笔為你收集整理的Coursera公开课笔记: 斯坦福大学机器学习第一课“引言(Introduction)”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序员如何明智地提出好的问题
- 下一篇: Coursera公开课笔记: 斯坦福大学