【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
文章目錄
- 一、 數(shù)據(jù)挖掘引入
- 二、 數(shù)據(jù)挖掘簡介
- 三、 數(shù)據(jù)挖掘 與 KDD ( Knowledge Discovery From Data ) 從數(shù)據(jù)到知識
- 四、 數(shù)據(jù)挖掘中的數(shù)據(jù)源
- 五、 數(shù)據(jù)挖掘中的特點
一、 數(shù)據(jù)挖掘引入
1 . 數(shù)據(jù)過載問題 :
① 海量數(shù)據(jù) : 自動化的數(shù)據(jù)收集工具 和 成熟的數(shù)據(jù)庫技術(shù) , 積累了海量數(shù)據(jù) ;
② 數(shù)據(jù)處理瓶頸 : 需要在 數(shù)據(jù)庫 , 數(shù)據(jù)倉庫 , 或其它信息介質(zhì)中處理海量數(shù)據(jù) ;
我們被數(shù)據(jù)淹死了 , 但是渴望知識 ; 數(shù)據(jù)太多并沒有用 , 需要將 有用的知識 和 無用的信息 分辨出來 ;
2 . 解決方案 :
① 數(shù)據(jù)倉庫技術(shù) : 數(shù)據(jù)倉庫技術(shù) 和 在線分析處理技術(shù) ;
② 數(shù)據(jù)挖掘技術(shù) : 從海量數(shù)據(jù)中 , 挖掘感興趣的知識 ;
二、 數(shù)據(jù)挖掘簡介
1 . 數(shù)據(jù)挖掘 ( Data mining ) : 其本質(zhì)目的是將數(shù)據(jù)轉(zhuǎn)換成知識 ; 從大量數(shù)據(jù)中 , 提取出感興趣的 模式 ( Patterns ) 或 知識 ( Knowledge ) ;
2 . 數(shù)據(jù)挖掘 的代名詞 :
① KDD ( 從數(shù)據(jù)到知識 ) : Knowledge Discovery From Data
② 知識抽取 : Knowledge Extraction ;
③ 數(shù)據(jù) / 模式分析 : Data / Pattern Analysis ;
④ 信息收獲 : Information Harvesting ;
⑤ 商務(wù)智能 : Business Intelligence
與數(shù)據(jù)挖掘類似的技術(shù)還有 模式識別 , 機器學(xué)習(xí)等 ;
3 . 查詢處理 與 數(shù)據(jù)挖掘 :
① 數(shù)據(jù)庫查詢操作 : 在數(shù)據(jù)庫中使用 SQL 語句查詢 , 不屬于數(shù)據(jù)挖掘范疇 , 這屬于查詢處理范疇 ;
② 查詢處理 與 數(shù)據(jù)挖掘 區(qū)別 : 數(shù)據(jù)挖掘的 知識預(yù)先是不知道的 , 挖掘出來的知識準確性也不知道 , 數(shù)據(jù)庫查詢出來的都是可預(yù)見的 , 結(jié)果是精確的 ;
三、 數(shù)據(jù)挖掘 與 KDD ( Knowledge Discovery From Data ) 從數(shù)據(jù)到知識
數(shù)據(jù)挖掘可以看做 KDD 的一個步驟 ;
KDD 概念 : Knowledge Discovery From Data , 從數(shù)據(jù)到知識 ;
KDD 完整流程 : 第六個步驟就是 數(shù)據(jù)挖掘 , 數(shù)據(jù)挖掘大約占 KDD 的 1/4 工作量 ;
① 數(shù)據(jù)源 : 數(shù)據(jù)源的海量數(shù)據(jù)
② 數(shù)據(jù)繼承 ( 過程 ) : 通過數(shù)據(jù)采集 , 從海量數(shù)據(jù)中采集目標數(shù)據(jù) ;
③ 目標數(shù)據(jù) : 產(chǎn)生目標數(shù)據(jù) ;
④ 數(shù)據(jù)預(yù)處理 ( 過程 ) : 預(yù)處理目標數(shù)據(jù) , 生成潔凈數(shù)據(jù) ;
⑤ 潔凈數(shù)據(jù) : 產(chǎn)生潔凈數(shù)據(jù) ;
⑥ 數(shù)據(jù)挖掘 ( 過程 ) : 使用數(shù)據(jù)挖掘 , 從潔凈數(shù)據(jù)中發(fā)現(xiàn)模式 ;
⑦ 模式 : 得到模式 ;
⑧ 評估表示 ( 過程 ) : 評估表示 數(shù)據(jù)挖掘得到的模式 , 得到知識 ;
⑨ 知識 : 最終得到的知識 ;
實際上工作時的數(shù)據(jù)挖掘包括了整個 KDD 所有流程 ;
四、 數(shù)據(jù)挖掘中的數(shù)據(jù)源
任何數(shù)據(jù)都可以用于數(shù)據(jù)挖掘 , 音樂數(shù)據(jù) , 圖像數(shù)據(jù) , 視頻數(shù)據(jù) , 文本數(shù)據(jù)等都可以被挖掘 ;
數(shù)據(jù)挖掘的算法本質(zhì)是一樣的 , 只是針對不同的數(shù)據(jù) , 進行對應(yīng)的修改 ;
五、 數(shù)據(jù)挖掘中的特點
1 . 用于挖掘的數(shù)數(shù)據(jù)源 必須 真實 :
① 存在的真實數(shù)據(jù) : 數(shù)據(jù)挖掘處理的數(shù)據(jù)一般是存在的真實數(shù)據(jù) , 不是專門收集的數(shù)據(jù) ;
② 數(shù)據(jù)收集 : 該工作不屬于數(shù)據(jù)挖掘范疇 , 屬于統(tǒng)計任務(wù) ;
2 . 數(shù)據(jù)必須海量 :
① 少量數(shù)據(jù)處理 : 少量數(shù)據(jù)使用統(tǒng)計方法分析 , 不必使用數(shù)據(jù)挖掘 ;
② 海量數(shù)據(jù) : 處理海量數(shù)據(jù)時 , 才使用數(shù)據(jù)挖掘 , 涉及到 有效存儲 , 快速訪問 , 合理表示 等方面的問題 ;
3 . 數(shù)據(jù)挖掘的查詢是隨機的 :
① 要求不精確 : 查詢靈活 , 沒有精確的要求 ( 無法用 SQL 語句寫出來 ) ;
② 結(jié)果正確性未知 : 查詢出來結(jié)果也不知道是否準確 ;
4 . 未知結(jié)果 :
① 挖掘結(jié)果 : 數(shù)據(jù)挖掘 挖掘出的知識是未知的 , 目的是為了發(fā)掘潛在的知識 , 模式 ;
② 知識使用 : 數(shù)據(jù)挖掘出的知識只能在特定領(lǐng)域使用 , 如金融領(lǐng)域數(shù)據(jù)挖掘結(jié)果 , 只能在金融領(lǐng)域及相關(guān)領(lǐng)域使用 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【设计模式】适配器模式 ( 概念 | 适
- 下一篇: 【设计模式】适配器模式 ( 类适配器代码