ML 01、机器学习概论
http://www.cnblogs.com/ronny/p/4062658.html
機器學習原理、實現與實踐——機器學習概論
?
如果一個系統能夠通過執行某個過程改進它的性能,這就是學習。 ——— Herbert A. Simon
1. 機器學習是什么
計算機基于數據來構建概率統計模型并運用模型對數據進行預測與分析的一門學科。
從上面的機器學習的定義中,我們可以了解到以下的信息:
- 機器學習以計算機及網絡為平臺,是建立在計算機及網絡之上的;
- 機器學習以數據為研究對象。
- 機器學習的目的是對數據進行預測與分析
- 機器學習以模型為中心。構建模型、優化模型并用模型來進行預測。
- 機器學習的模型是基于概率統計的模型。里面大量用到了概率與統計的知識。
- 機器學習也是信息論 、計算理論、最優化理論及計算機科學等多個領域的交叉學科,并且在發展中逐步形成獨立的理論體系與方法論。
2. 機器學習的對象
機器學習的對象是數據,它從數據出發,提取數據的特征,抽象出數據的模型,發現數據中的知識,又回到對數據的分析與預測中去。同時,數據是多樣的,包括存在計算機及網絡上的各種數字、文字、圖像、視頻、音頻數據及它們的組合。
那么什么樣的數據可以被抽象,被學習呢,雜亂無章的數據可以嗎?
機器學習關于數據的基本假設是同類數據具有一定的統計規律性。同類數據是指具有某種共同性質的數據,由于它們具有統計規律,所以可以用概率統計方法來加以處理。可以用隨機變量描述數據數據中的特征,用概率分布描述數據的統計規律。
在實際的機器學習中,數據往往被提取為一個特征向量表示為
x=(x(1),x(2),…,x(i),x(n))T
數據可以為離散的,也可以為連續的。
3. 機器學習的目的
機器學習用于對數據進行預測與分析,特別是對未知新數據進行預測與分析。
機器學習總的目標就是考慮學習什么樣的模型和如何學習模型,以使模型能對數據進行準確的預測與分析,同理也要考慮盡可能地提高學習效率。
4. 機器學習的方法
機器學習的方法是基于數據構建統計模型從而對數據進行預測與分析。機器學習包括了監督學習、非監督學習、半監督學習和強化學習。
監督學習:從給定的、有限的、用于學習的訓練數據(training data)集合出發,假設數據是獨立同分布產生的;并且假設要學習的模型屬于某個函數集合,這個函數集合稱為假設空間(hypothesis space);應用某個評價準則,從假設空間中先取一個最優的模型,使它對已知訓練數據及未知測試數據在給定的評價準則下有最優的預測;最優模型的選擇由算法實現。
模型的假設空間、模型的選擇準則以及模型學習的算法構成了機器學習的三要素,簡稱模型、策略、算法。
機器學習的步驟可以歸納為:
5. 機器學習的應用
近20年來,機器學習無論是在理論上還是在應用方面都得到了巨大的發展,有許多重要突破,統計學習已被成功地應用到人工智能、模式識別、數據挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應用領域中。
下面是從《機器學習實戰》中摘錄的一段文字,描述了假想的一日,機器學習已經與我們的生活息息相關。
假設你想起今天是某位朋友的生日,打算通過郵局給她郵寄一張生日賀卡。你打開瀏覽器搜索趣味卡片,搜索引擎顯示了10個最相關的鏈接。你認為第二個鏈接最符合你的要求,點擊這個鏈接,搜索引擎將記錄這次點擊,并從中學習以優化下次搜索結果。然后,你檢查電子郵件系統,此時垃圾郵件過濾器已經在后臺自動過濾垃圾廣告郵件,并將其放在垃圾箱內。接著你去商店購買這張生日卡片,并給你朋友的孩子挑選了一些尿布。結賬時,收銀員給你一張1美元的優惠券,可以用于購買6罐裝的啤酒。之所以你會得到這張優惠券,是因為款臺收費軟件基于以前的統計知識,認為買尿布的人往往也會買啤酒。然后你去郵局郵寄這張賀卡,手寫識別軟件識別出郵寄地址,并將賀卡發送給正確的郵車。當天你還去了貸款申請機構,查看自己是否能夠申請貸款,辦事員并不是直接給出結果,而是將你最近的金融活動信息輸入計算機,由軟件來判定你是否合格。最后,你還去了賭場想找些樂子,當你步入前門時,尾隨你進來的一個家伙被突然出現的保安給攔了下來。“對不起,索普先生,我們不得不請你離開賭場。我們不歡迎老千”。
上面提到的所有場景,都有機器學習存在!
總結
以上是生活随笔為你收集整理的ML 01、机器学习概论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SURF算法与源码分析、下
- 下一篇: ML 02、监督学习