数据挖掘,机器学习,统计学习的区别与联系
這三個(gè)領(lǐng)域或?qū)W科交叉和重疊部分很多,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)的概念一直有或多或少的混淆,希望同樣有我這樣的困惑的朋友讀完下面的文字能夠清晰一些。
數(shù)據(jù)庫(kù)提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。由于統(tǒng)計(jì)學(xué)界往往醉心于理論的優(yōu)美而忽視實(shí)際的效用,因此,統(tǒng)計(jì)學(xué)界提供的很多技術(shù)通常都要在機(jī)器學(xué)習(xí)界進(jìn)一步研究,變成有效的機(jī)器學(xué)習(xí)算法之后才能再進(jìn)入數(shù)據(jù)挖掘領(lǐng)域。從這個(gè)意義上說,統(tǒng)計(jì)學(xué)主要是通過機(jī)器學(xué)習(xí)來對(duì)數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)則是數(shù)據(jù)挖掘的兩大支撐技術(shù)。從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機(jī)器學(xué)習(xí)領(lǐng)域。但能否認(rèn)為數(shù)據(jù)挖掘只不過就是機(jī)器學(xué)習(xí)的簡(jiǎn)單應(yīng)用呢?答案是否定的。一個(gè)重要的區(qū)別是,傳統(tǒng)的機(jī)器學(xué)習(xí)研究并不把海量數(shù)據(jù)作為處理對(duì)象,很多技術(shù)是為處理中小規(guī)模數(shù)據(jù)設(shè)計(jì)的,如果直接把這些技術(shù)用于海量數(shù)據(jù),效果可能很差,甚至可能用不起來。因此,數(shù)據(jù)挖掘界必須對(duì)這些技術(shù)進(jìn)行專門的、不簡(jiǎn)單的改造。例如,決策樹是一種很好的機(jī)器學(xué)習(xí)技術(shù),不僅有很強(qiáng)的泛化能力,而且學(xué)得結(jié)果具有一定的可理解性,很適合數(shù)據(jù)挖掘任務(wù)的需求。但傳統(tǒng)的決策樹算法需要把所有的數(shù)據(jù)都讀到內(nèi)存中,在面對(duì)海量數(shù)據(jù)時(shí)這顯然是無法實(shí)現(xiàn)的。為了使決策樹能夠處理海量數(shù)據(jù),數(shù)據(jù)挖掘界做了很多工作,例如通過引入高效的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)調(diào)度策略等來改造決策樹學(xué)習(xí)過程,而這其實(shí)正是在利用數(shù)據(jù)庫(kù)界所擅長(zhǎng)的數(shù)據(jù)管理技術(shù)。實(shí)際上,在傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究中,在很多問題上如果能找到多項(xiàng)式時(shí)間的算法可能就已經(jīng)很好了,但在面對(duì)海量數(shù)據(jù)時(shí),可能連算法都是難以接受的,這就給算法的設(shè)計(jì)帶來了巨大的挑戰(zhàn)。
總結(jié):
1)統(tǒng)計(jì)學(xué)習(xí):是其它兩門技術(shù)的基礎(chǔ),更偏重于理論上的完善;
2)機(jī)器學(xué)習(xí):是統(tǒng)計(jì)學(xué)習(xí)對(duì)實(shí)踐技術(shù)的延伸,更偏重于解決小數(shù)據(jù)量的問題提供算法技術(shù)支撐;
3)數(shù)據(jù)挖掘:更偏重于大數(shù)據(jù)的實(shí)際問題,更注重實(shí)際問題的解決,包括真實(shí)數(shù)據(jù)的數(shù)據(jù)清洗,建模,預(yù)測(cè),等操作。
 
知乎:
 https://www.zhihu.com/question/29687860/answer/45794666?utm_campaign=rss&utm_medium=rss&utm_source=rss&utm_content=title
我愛機(jī)器學(xué)習(xí):
http://www.52ml.net/14518.html
 
 
總結(jié)
以上是生活随笔為你收集整理的数据挖掘,机器学习,统计学习的区别与联系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 观复嘟嘟:职场是个技术活-马未都
- 下一篇: c++编写断点续传和多线程下载模块【转】
