【机器学习实战】第1章 机器学习基础
生活随笔
收集整理的這篇文章主要介紹了
【机器学习实战】第1章 机器学习基础
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
第1章 機(jī)器學(xué)習(xí)基礎(chǔ)
機(jī)器學(xué)習(xí) 概述
機(jī)器學(xué)習(xí)就是把無(wú)序的數(shù)據(jù)轉(zhuǎn)換成有用的信息。
我們會(huì)利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義,這才是機(jī)器學(xué)習(xí)的意義。
機(jī)器學(xué)習(xí) 場(chǎng)景
例如:識(shí)別動(dòng)物貓 模式識(shí)別(官方標(biāo)準(zhǔn)):人們通過(guò)大量的經(jīng)驗(yàn),得到結(jié)論,從而判斷它就是貓。 機(jī)器學(xué)習(xí)(數(shù)據(jù)學(xué)習(xí)):人們通過(guò)閱讀進(jìn)行學(xué)習(xí),觀察它會(huì)叫、小眼睛、兩只耳朵、四條腿、一條尾巴,得到結(jié)論,從而判斷它就是貓。 深度學(xué)習(xí)(深入數(shù)據(jù)):人們通過(guò)深入了解它,發(fā)現(xiàn)它會(huì)'喵喵'的叫、與同類的貓科動(dòng)物很類似,得到結(jié)論,從而判斷它就是貓。(深度學(xué)習(xí)常用領(lǐng)域:語(yǔ)音識(shí)別、圖像識(shí)別)模式識(shí)別(pattern recognition): 模式識(shí)別是最古老的(作為一個(gè)術(shù)語(yǔ)而言,可以說(shuō)是很過(guò)時(shí)的)。我們把環(huán)境與客體統(tǒng)稱為“模式”,識(shí)別是對(duì)模式的一種認(rèn)知,是如何讓一個(gè)計(jì)算機(jī)程序去做一些看起來(lái)很“智能”的事情。通過(guò)融于智慧和直覺(jué)后,通過(guò)構(gòu)建程序,識(shí)別一些事物,而不是人,例如: 識(shí)別數(shù)字。 機(jī)器學(xué)習(xí)(machine learning): 機(jī)器學(xué)習(xí)是最基礎(chǔ)的(當(dāng)下初創(chuàng)公司和研究實(shí)驗(yàn)室的熱點(diǎn)領(lǐng)域之一)。在90年代初,人們開(kāi)始意識(shí)到一種可以更有效地構(gòu)建模式識(shí)別算法的方法,那就是用數(shù)據(jù)(可以通過(guò)廉價(jià)勞動(dòng)力采集獲得)去替換專家(具有很多圖像方面知識(shí)的人)。“機(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是,在給計(jì)算機(jī)程序(或者機(jī)器)輸入一些數(shù)據(jù)后,它必須做一些事情,那就是學(xué)習(xí)這些數(shù)據(jù),而這個(gè)學(xué)習(xí)的步驟是明確的。機(jī)器學(xué)習(xí)(Machine Learning)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。 深度學(xué)習(xí)(deep learning): 深度學(xué)習(xí)是非常嶄新和有影響力的前沿領(lǐng)域,我們甚至不會(huì)去思考-后深度學(xué)習(xí)時(shí)代。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。參考地址: http://www.csdn.net/article/2015-03-24/2824301 http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q機(jī)器學(xué)習(xí)已應(yīng)用于多個(gè)領(lǐng)域,遠(yuǎn)遠(yuǎn)超出大多數(shù)人的想象,橫跨:計(jì)算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科。
- 搜索引擎: 根據(jù)你的搜索點(diǎn)擊,優(yōu)化你下次的搜索結(jié)果。
- 垃圾郵件: 會(huì)自動(dòng)的過(guò)濾垃圾廣告郵件到垃圾箱內(nèi)。
- 超市優(yōu)惠券: 你會(huì)發(fā)現(xiàn),你在購(gòu)買小孩子尿布的時(shí)候,售貨員會(huì)贈(zèng)送你一張優(yōu)惠券可以兌換6罐啤酒。
- 郵局郵寄: 手寫(xiě)軟件自動(dòng)識(shí)別寄送賀卡的地址。
- 申請(qǐng)貸款: 通過(guò)你最近的金融活動(dòng)信息進(jìn)行綜合評(píng)定,決定你是否合格。
機(jī)器學(xué)習(xí) 組成
主要任務(wù)
- 分類:將實(shí)例數(shù)據(jù)劃分到合適的類別中。
- 回歸:主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù)。(示例:數(shù)據(jù)通過(guò)給定數(shù)據(jù)點(diǎn)來(lái)擬合最優(yōu)曲線)
監(jiān)督學(xué)習(xí)
- 必須確定目標(biāo)變量的值,以便機(jī)器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。 (包括:分類和回歸)
- 樣本集:訓(xùn)練數(shù)據(jù) + 測(cè)試數(shù)據(jù)
- 訓(xùn)練樣本 = 特征(feature) + 目標(biāo)變量(label: 分類-離散值/回歸-連續(xù)值)
- 特征通常是訓(xùn)練樣本集的列,它們是獨(dú)立測(cè)量得到的。
- 目標(biāo)變量: 目標(biāo)變量是機(jī)器學(xué)習(xí)預(yù)測(cè)算法的測(cè)試結(jié)果。
- 在分類算法中目標(biāo)變量的類型通常是標(biāo)稱型(如:真與假),而在回歸算法中通常是連續(xù)型(如:1~100)。
- 知識(shí)表示:
- 可以采用規(guī)則集的形式【例如:數(shù)學(xué)成績(jī)大于90分為優(yōu)秀】
- 可以采用概率分布的形式【例如:通過(guò)統(tǒng)計(jì)分布發(fā)現(xiàn),90%的同學(xué)數(shù)學(xué)成績(jī),在70分以下,那么大于70分定為優(yōu)秀】
- 可以使用訓(xùn)練樣本集中的一個(gè)實(shí)例【例如:通過(guò)樣本集合,我們訓(xùn)練出一個(gè)模型實(shí)例,得出 年輕,數(shù)學(xué)成績(jī)中高等,談吐優(yōu)雅,我們認(rèn)為是優(yōu)秀】
非監(jiān)督學(xué)習(xí)
- 數(shù)據(jù)沒(méi)有類別信息,也不會(huì)給定目標(biāo)值。
- 聚類:在無(wú)監(jiān)督學(xué)習(xí)中,將數(shù)據(jù)集分成由類似的對(duì)象組成多個(gè)類的過(guò)程稱為聚類。
- 密度估計(jì):將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過(guò)程稱之為密度估計(jì)。【就是:根據(jù)訓(xùn)練樣本確定x的概率分布】
- 此外,無(wú)監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。
訓(xùn)練過(guò)程
算法匯總
機(jī)器學(xué)習(xí) 使用
選擇算法需要考慮的兩個(gè)問(wèn)題
- 預(yù)測(cè)明天是否下雨,因?yàn)榭梢杂脷v史的天氣情況做預(yù)測(cè),所以選擇監(jiān)督學(xué)習(xí)算法
- 給一群陌生的人進(jìn)行分組,但是我們并沒(méi)有這些人的類別信息,所以選擇無(wú)監(jiān)督學(xué)習(xí)算法、通過(guò)他們身高、體重等特征進(jìn)行處理。
舉例
機(jī)器學(xué)習(xí) 開(kāi)發(fā)流程
* 收集數(shù)據(jù): 收集樣本數(shù)據(jù) * 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式 * 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒(méi)有垃圾數(shù)據(jù);如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源,則可以跳過(guò)該步驟;另外該步驟需要人工干預(yù),會(huì)降低自動(dòng)化系統(tǒng)的價(jià)值。 * 訓(xùn)練算法: [機(jī)器學(xué)習(xí)算法核心]如果使用無(wú)監(jiān)督學(xué)習(xí)算法,由于不存在目標(biāo)變量值,則可以跳過(guò)該步驟 * 測(cè)試算法: [機(jī)器學(xué)習(xí)算法核心]評(píng)估算法效果 * 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序Python語(yǔ)言 優(yōu)勢(shì)
- 科學(xué)函數(shù)庫(kù):SciPy、NumPy(底層語(yǔ)言:C和Fortran)
- 繪圖工具庫(kù):Matplotlib
- 作者:片刻?1988
- GitHub地址:?https://github.com/apachecn/MachineLearning
- 版權(quán)聲明:歡迎轉(zhuǎn)載學(xué)習(xí) => 請(qǐng)標(biāo)注信息來(lái)源于?ApacheCN
轉(zhuǎn)載于:https://www.cnblogs.com/jiangzhonglian/p/7560771.html
總結(jié)
以上是生活随笔為你收集整理的【机器学习实战】第1章 机器学习基础的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 关于align=absmiddle的说明
- 下一篇: [UWP]涨姿势UWP源码——Unit