详解数据挖掘与机器学习的区别与联系
0、為什么寫這篇博文
最近有很多剛入門AI領域的小伙伴問我:數據挖掘與機器學習之間的區別與聯系。為了不每次都給他們長篇大論的解釋,故此在網上整理了一些資料,整理成此篇文章,下次誰問我直接就給他發個鏈接就好了。
本篇文章主要闡述我個人在數據挖掘、機器學習等方面的學習心得,并搜集了網上的一些權威解釋,或許不太全面,但應該會對絕大多數入門者有一個直觀地解釋。
本文主要參照周志華老師的:機器學習與數據挖掘 一文。有興趣的可以自行百度,其文對人工智能、數據挖掘、機器學習等演變歷程,有詳細介紹。
1、概念定義
首先,第一步,我們對機器學習和數據挖掘的定義做一下總結,看看大家有沒有一點體會:
機器學習:廣泛的定義為 “利用經驗來改善計算機系統的自身性能。”,事實上,由于“經驗”在計算機系統中主要是以數據的形式存在的,因此機器學習需要設法對數據進行分析,這就使得它逐漸成為智能數據分析技術的創新源之一,并且為此而受到越來越多的關注。
數據挖掘:一種解釋是“識別出巨量數據中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程”,顧名思義,數據挖掘就是試圖從海量數據中找出有用的知識。
2、關系與區別
2.1 關系
數據挖掘可以認為是數據庫技術與機器學習的交叉,它利用數據庫技術來管理海量的數據,并利用機器學習和統計分析來進行數據分析。其關系如下圖:
數據挖掘受到了很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大。粗糙地說,數據庫提供數據管理技術,機器學習和統計學提供數據分析技術。由于統計學界往往醉心于理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之后才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。
2.2 區別
數據挖掘并非只是機器學習在工業上的簡單應用,他們之間至少包含如下兩點重要區別:
傳統的機器學習研究并不把海量數據作為處理對象,因此,數據挖掘必須對這些技術和算法進行專門的、不簡單的改造。
作為一個獨立的學科,數據挖掘也有其獨特的東西,即:關聯分析。簡單地說,關聯分析就是希望從數據中找出“買尿布的人很可能會買啤酒”這樣看起來匪夷所思但可能很有意義的模式。
總結
以上是生活随笔為你收集整理的详解数据挖掘与机器学习的区别与联系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 记事本编译_肿么用记事本编译运
- 下一篇: js面向对象与java面向对象的区别,被