文末赠书100本 | 当下最火爆的机器学习算法
1959年美國的塞繆爾(Samuel)設計了一個下棋程序,這個程序具有學習能力,它可以在不斷的對奕中改善自己的棋藝。7年年,這個程序戰勝了美國一個保持8年之久的常勝不敗的冠軍。包括最近火熱的Alpha Zero,這些機器向人們展示了它們學習的能力,也揭示著這個社會中正在出現的變革,一些機器學習的算法也伴隨著媒體報道逐步進入我們的視野,諸如:線性分析、神經網絡、深度學習、支持向量機、降維分析、聚類分析、集成學習、決策樹等。下面給大家簡單介紹下當下比較火爆的幾種簡單又常用的機器學習算法。
?
1.線性模型
?
1.1線性回歸
給定數據集,線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態分布。
回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
?
1.2 對數幾率回歸(Logistic Regression)
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數,其區別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數L將w‘x+b對應一個隱狀態p,p =L(w‘x+b),然后根據p 與1-p的大小決定因變量的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
?
2、支持向量機
支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。
在機器學習中,支持向量機(SVM,還支持矢量網絡)是與相關的學習算法有關的監督學習模型,可以分析數據,識別模式,用于分類和回歸分析。它是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力。
給定訓練樣本空間D={(x_i,y_i)},y_i={+1,-1},i=1,…,n,基于訓練集在樣本空間中找到一個劃分超平面,將不同類別的樣本點劃分開,劃分的超平面可以通過方程來描述,其中為法向量,決定了超平面的方向,b為位移項,決定了超平面和原點之間的距離,樣本空間中的任意點x到超平面的距離是距離超平面最近的幾個訓練樣本點的稱為支持向量,兩個異類支持向量到支持向量之間的距離為被稱為間隔,預找到最大間隔劃分超平面,即,
s.t.?
顯然為了最大化間隔,僅需要最大化,等價于,于是,得到支持向量機的基本型為
s.t. ?
3、神經網絡
神經網絡是具有適用性的簡單單元組成的廣泛并行的網絡,它的組織能夠模擬生物神經系統對真實世界物體作出的交互反應。
神經網絡中最基本的模型是神經元模型,神經元接受來自n個其他神經元傳遞過來的輸入信號,這些輸入信號通過帶權重的連接進行傳遞,神經元接受到的總輸入值將與神經元的閥值進行比較,然后通過“激活函數”處理產生腦神經元輸出。
理想中的激活函數有sgn(x)和sigmoid(x)。把多個這樣的神經元按照一定的結構層次鏈接起來,就得到了神經元。以下是神經網絡學習的幾個相關概念:
選擇模式:這將取決于數據的表示和應用。過于復雜的模型往往會導致問題的學習。
學習算法:在學習算法之間有無數的權衡。幾乎所有的算法為了一個特定的數據集訓練將會很好地與正確的超參數合作。然而,選擇和調整的算法上看不見的數據訓練需要顯著量的實驗。
穩健性:如果該模型中,成本函數和學習算法,適當地選擇所得到的神經網絡可以是非常健壯的。有了正確的實施,人工神經網絡,可以自然地應用于在線學習和大型數據集的應用程序。其簡單的實現和表現在結構上主要依賴本地的存在,使得在硬件快速,并行實現。
?
?
4、降維分析
?
4.1主成分分析是最常用的降維方法之一,考慮在正交屬性的空間中,用一個超平面將所有樣本點進行劃分,這個超平面應該具有:最近重構性(樣本點到達這個超平面的距離足夠近)和最大可分性(樣本點在這個超平面上的投影盡可能分開)。主成分分析的過程如下,首先對所有的樣本點進行樣本中心化,然后計算樣本的協方差矩陣,之后對協方差矩陣驚醒特征值分析,最后取出最大的d’個特征值對應的特征向量,最終輸出投影矩陣。
主成分分析是一種無監督的的線性降維方法,而監督降維方法中最著名的就是線性判別分析,通過最大化兩個變量集合之間的相關性,可以得到典型相關分析等等。
?
4.2線性判別分析
線性鑒別分析的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內距離,即模式在該空間中有最佳的可分離性。因此,它是一種有效的特征抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大,并且同時類內散布矩陣最小。就是說,它能夠保證投影后模式樣本在新的空間中有最小的類內距離和最大的類間距離,即模式在該空間中有最佳的可分離性。
?
在過去的二十年中,人類收集、存儲、運輸、處理數據的能力取得了飛速提升,人類社會的各個角落都積累了大量數據,急需要能有效的對數據進行分析利用的算法,而機器學習恰好順應了大時代對這個的迫切需求,該學科領域很自然地取得了巨大發展,受到了廣泛關注。
今天,在計算機科學的諸多學科領域中,無論是多媒體、圖形學,還是網絡通訊、軟件工程、乃至體系結構、芯片設計,都能找到機器學習技術的身影,尤其是在計算機視覺、自然語言處理等“計算機應用技術”領域,機器學習已經成為最重要的技術進步源泉之一。
?
哈哈~你想了解更多機器學習的相關知識成為一名Machine Learning大佬嘛~?!!下面要送出我們的福利了喲~
100本!
?
這本書發行三個月
就賣出了30000冊
是目前自學機器學習
最重要的參考書目之一
《機器學習》by 周志華
作者介紹
周志華,南京大學計算機系教授,ACM杰出科學家,IEEE Fellow, IAPR Fellow, IET/IEEFellow, 中國計算機學會會士。國家杰出青年科學基金獲得者、長江學者特聘教授。先后擔任多種SCI(E)期刊執行主編、副主編、副編輯、編委等。中國計算機學會人工智能與模式識別專業委員會主任,中國人工智能學會機器學習專業委員會主任,IEEE計算智能學會數據挖掘技術委員會副主席。
?
內容簡介
?機器學習是計算機科學與人工智能的重要分支領域. 本書作為該領域的入門教材,在內容上盡可能涵蓋機器學習基礎知識的各方面. 全書共16章,大致分為3 個部分:第1部分(第1~3 章)介紹機器學習的基礎知識;第2部分(第4~10 章)討論一些經典而常用的機器學習方法(決策樹、神經網絡、支持向量機、貝葉斯分類器、集成學習、聚類、降維與度量學習);第3部分(第11~16 章)為進階知識,內容涉及特征選擇與稀疏學習、計算學習理論、半監督學習、概率圖模型、規則學習以及強化學習等.每章都附有習題并介紹了相關閱讀材料,以便有興趣的讀者進一步鉆研探索。
?
本書可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考。
廢話少說
現在說說抽獎規則↓↓↓
?
?
SO EASY
1. 只需關注小象學院
2. 進入后臺點擊菜單欄“抽獎”
3. 然后按照要求操作就有機會中獎哦~
(沒關注的同學掃下面二維碼哦~)
總結
以上是生活随笔為你收集整理的文末赠书100本 | 当下最火爆的机器学习算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql xp系统时间_mysql时间
- 下一篇: 使用IDEA 连接mysql数据库,执行