数据挖掘概念与技术——读书笔记(1)
原書第三版
Jiawei Han?????Micheline Kamber?????Jian Pei??著
第一章 引論
為什么進(jìn)行數(shù)據(jù)挖掘
解決“數(shù)據(jù)豐富,但信息貧乏”的問(wèn)題。
數(shù)據(jù)的爆炸式增長(zhǎng),廣泛可用,巨大數(shù)量??——>?? 數(shù)據(jù)時(shí)代??——>?? 需要功能強(qiáng)大和通用的工具,從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息。
什么是數(shù)據(jù)挖掘
從數(shù)據(jù)中挖掘知識(shí)。
- 數(shù)據(jù)清理(消除噪聲和刪除不一致的數(shù)據(jù))
- 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)
- 數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))
- 數(shù)據(jù)變換(通過(guò)匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式)
- 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)
- 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的數(shù)據(jù))
- 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))
可以挖掘什么類型的數(shù)據(jù)
- 數(shù)據(jù)庫(kù)數(shù)據(jù)
- 由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成。
- 關(guān)系數(shù)據(jù)庫(kù)是表的匯集(屬性—>字段或列,元祖—>記錄或行)。對(duì)象被唯一關(guān)鍵字標(biāo)識(shí),被一組屬性值描述。
- 數(shù)據(jù)倉(cāng)庫(kù)
- 從多個(gè)數(shù)據(jù)源收集的信息儲(chǔ)存庫(kù)(例如分部遍布全世界的公司的數(shù)據(jù)庫(kù))
- 從多個(gè)數(shù)據(jù)源收集的信息儲(chǔ)存庫(kù)(例如分部遍布全世界的公司的數(shù)據(jù)庫(kù))
- 事務(wù)數(shù)據(jù)
- 每個(gè)記錄代表一個(gè)事務(wù)。
- 包含一個(gè)唯一的事務(wù)標(biāo)識(shí)號(hào),以及一個(gè)組成事務(wù)的項(xiàng)。
- 例如商場(chǎng)的第50條交易記錄,用戶購(gòu)買了A,D,F這三件物品。
- 其他類型的數(shù)據(jù)
- 空間數(shù)據(jù),超文本和多媒體數(shù)據(jù)……等等
可以挖掘什么類型的模式
- 描述性(刻畫目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì))
- 預(yù)測(cè)性(在當(dāng)前數(shù)據(jù)上做出歸納,以便進(jìn)行預(yù)測(cè))
類/概念描述:特征化與區(qū)分
數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總
數(shù)據(jù)區(qū)分:將目標(biāo)類,與一個(gè)或多個(gè)可比較類進(jìn)行比較。
?????????????????例如:定期購(gòu)買電腦產(chǎn)品的客戶和不購(gòu)買電腦產(chǎn)品的客戶進(jìn)行比較。
挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
頻繁模式:在數(shù)據(jù)中頻繁出現(xiàn)的模式。
- 頻繁項(xiàng)集:頻繁在事務(wù)數(shù)據(jù)集中一起出現(xiàn)(顧客在小賣部總是一起買牛奶和面包)
- 頻繁子序列:顧客先買數(shù)碼相機(jī),再買內(nèi)存卡。
- 頻繁子結(jié)構(gòu)
關(guān)聯(lián)分析(例如分析,哪些商品總是一起被購(gòu)買)
- “computer”=>“software”[1% , 50%] 表示所有事務(wù)的1%顯示計(jì)算機(jī)和軟件被同時(shí)購(gòu)買。購(gòu)買了計(jì)算機(jī)的人,有50%的可能性會(huì)選擇購(gòu)買軟件。
相關(guān)性(相關(guān)聯(lián)的屬性-值對(duì)之間的統(tǒng)計(jì)相關(guān)性)
用于預(yù)測(cè)分析的分類和回歸
- 分類:找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),預(yù)測(cè)類別標(biāo)號(hào)。
- 回歸:建立連續(xù)值函數(shù)模型,預(yù)測(cè)缺失的或難以獲得的數(shù)值數(shù)據(jù)值。
相關(guān)分析可能需要在分類和回歸之前進(jìn)行,它試圖識(shí)別與分類和回歸過(guò)程顯著相關(guān)的屬性。
聚類分析
聚類分析:分析數(shù)據(jù)對(duì)象,而不考慮類標(biāo)號(hào)。可以使用聚類產(chǎn)生數(shù)據(jù)組群的類標(biāo)號(hào)。
—>“最大化類內(nèi)相似性,最小化類間相似性”
離群點(diǎn)分析
異常挖掘。有時(shí)看做噪聲而丟棄,但是在比如欺詐檢測(cè)等應(yīng)用中,罕見(jiàn)事件的出現(xiàn),更令人感興趣。
所有模式都是有趣的嗎?
- 易于被人理解
- 在某種確信度上,對(duì)于新的或檢驗(yàn)數(shù)據(jù)是有效的
- 潛在有用的
- 新穎的
客觀度量:支持度,置信度。
使用什么技術(shù)
- 統(tǒng)計(jì)學(xué):例如建立分類或預(yù)測(cè)模型之后,統(tǒng)計(jì)假設(shè)檢驗(yàn)來(lái)驗(yàn)證模型
- 機(jī)器學(xué)習(xí):監(jiān)督學(xué)習(xí)(基本上是分類的同義詞),無(wú)監(jiān)督學(xué)習(xí)(本質(zhì)上是聚類的同義詞),半監(jiān)督學(xué)習(xí),主動(dòng)學(xué)習(xí)
- 信息檢索:搜索文檔或文檔中信息的科學(xué)
面向什么類型的應(yīng)用
商務(wù)智能、Web搜索、生物信息學(xué)、衛(wèi)生保健信息學(xué)、金融、數(shù)字圖書館……
數(shù)據(jù)挖掘的主要問(wèn)題
- 挖掘方法
- 新的知識(shí)類型、多維空間中的知識(shí)、跨學(xué)科、網(wǎng)絡(luò)環(huán)境下的挖掘能力、模式評(píng)估
- 用戶交互
- 結(jié)合背景知識(shí)
- 表示和可視化,使知識(shí)更容易理解
- 有效性與可伸縮性
- 處理多種多樣的數(shù)據(jù)類型
- 動(dòng)態(tài)的、復(fù)雜的。
- 數(shù)據(jù)挖掘與社會(huì)
- 保護(hù)隱私
- 社會(huì)影響
自己加油加油 笨鳥后飛也要飛呀飛
總結(jié)
以上是生活随笔為你收集整理的数据挖掘概念与技术——读书笔记(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: input-获取文本框值
- 下一篇: jdbc cancel mysql_当执