数据挖掘中的概念描述
一、概念描述基本知識
1.1 兩種類型的數(shù)據(jù)挖掘
從數(shù)據(jù)分析角度出發(fā),數(shù)據(jù)挖掘可分為兩種類型:
- 描述型數(shù)據(jù)挖掘:以簡潔概要方式描述數(shù)據(jù)
- 預(yù)測型數(shù)據(jù)挖掘:預(yù)測性數(shù)據(jù)挖掘則是通過對所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個或一組數(shù)據(jù)模型,并將該模型用于預(yù)測未來新數(shù)據(jù)的有關(guān)性質(zhì)。
1.2 概念描述
描述型數(shù)據(jù)挖掘又稱為概念描述,概念描述是數(shù)據(jù)挖掘的一個重要部分。描述型數(shù)據(jù)挖掘最簡單的類型就是概念描述。概念描述描述的是數(shù)據(jù)的特征和比較描述:
- 特征描述:給定數(shù)據(jù)集的簡潔匯總
- 比較描述:多用于兩個或多個數(shù)據(jù)集
數(shù)據(jù)泛化也是一種概念描述,這類似于數(shù)據(jù)倉庫中的OLAP,但兩者之間也是有區(qū)別的:
- 復(fù)雜的數(shù)據(jù)類型和聚集:概念描述可以處理更加復(fù)雜的數(shù)據(jù)類型屬性和他們的聚集
- 用戶控制和自動處理:OLAP多是用戶的控制和操作,而數(shù)據(jù)挖掘中的概念描述更努力成為自動化的過程,具備自動知識發(fā)現(xiàn)的能力,要遠遠復(fù)雜的多
二、特征描述
數(shù)據(jù)泛化也是一種特征描述。數(shù)據(jù)泛化的概念:它是一個過程,它將龐大、任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層次抽象到較高的概念層次。具體泛化方法有兩類:
數(shù)據(jù)泛化是非常有用的,舉個例子:一個銷售系統(tǒng)中的數(shù)據(jù)庫中商品項目可能由諸如itemid,name,brand,price,category,place-made等低層次的屬性構(gòu)成,但銷售和市場經(jīng)理都希望得到在圣誕節(jié)期間大量商品基本信息的匯總描述來獲得一些信息。
2.1 面向?qū)傩缘臍w納
面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)數(shù)據(jù),然后通過觀察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行泛化。泛化可以通過屬性刪除,或者通過屬性泛化進行。
2.1.1 收集任務(wù)相關(guān)數(shù)據(jù)
通過數(shù)據(jù)挖掘查詢或者關(guān)系查詢獲取相關(guān)數(shù)據(jù),假設(shè)我們有如下關(guān)系查詢語句:
use Big_university_DB select name,gender,major,birth_place,birth_date,residence,phone,gpa from student where status in {"M.Sc","M.A","M.B.A","Ph.D"}把詞語在關(guān)系數(shù)據(jù)庫中執(zhí)行,返回如下表所示數(shù)據(jù)。該表一般被稱作初始工作表,是要進行歸納的數(shù)據(jù)。
| Jim | M | CS | Vancouver,BC,Canada | 76-12-8 | 3511,Main St,Richmand | 687-4598 | 3.67 |
| Scott | M | CS | Montreal,Que,Canada | 75-7-28 | 345,IstSt,Vancouver | 253-9106 | 3.70 |
| Lee | F | Physics | Seattle,WA,USA | 70-8-25 | 231,Austin,Burnaby | 420-5232 | 3.83 |
數(shù)據(jù)已經(jīng)準(zhǔn)備好,下面就開始進行屬性歸納,面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化,它有兩種方法:屬性刪除
2.1.2 屬性刪除
顧名思義,屬性刪除就是刪除我們不需要的數(shù)據(jù)。我們基于如下規(guī)則盤點是否采用屬性刪除方法:如果初始工作表中某個屬性有大量不同的值,(1)但是在此屬性上沒有泛化操作符;或者(2)它的較高層概念可以用其它屬性表示,該屬性應(yīng)當(dāng)從工作關(guān)系表中刪除。
舉個例子,對于情況1,因為它沒有泛化操作符,就意味著它不能被泛化,保留它則與產(chǎn)生簡潔的描述規(guī)則相矛盾,比如初始工作表中的姓名字段。對于情況2,比如屬性street可以被較高的屬性city表示,所以刪除city屬性。
2.1.3 屬性泛化
屬性泛化基于如下規(guī)則:如果初始工作表中某個屬性有大量不同的值,并且該屬性上存在泛化操作符,則應(yīng)當(dāng)選擇該泛化操作符,并將它用于該屬性。
2.1.4 屬性泛化控制
屬性刪除和屬性泛化兩個規(guī)則都表明,如果某個屬性存在大量的不同取值,就應(yīng)當(dāng)進一步泛化,那多大才算是大?這個控制過程我們就稱作屬性泛化控制。有一些方法可以控制泛化的過程,下面介紹兩種常用的方法:
2.1.5 面向?qū)傩詺w納實例
現(xiàn)在,我們就對上面的初始工作表中的每個屬性進行泛化,泛化過程如下:
所泛化過程將產(chǎn)生相等元組的組。例如,初始工作表中前兩個元組被泛化成相同的元組(即第一個元組),這些相同的元組被合并成一個,同時累計它們的計數(shù)值,這一過程最終得到如下泛化關(guān)系表:
| M | Science | Canada | 20 | Richmon | verygood | 1 |
| M | Science | Canada | 20 | Vancouve | verygood | 2 |
| F | engineer | USA | 25 | Burnaby | excellent | 2 |
2.2 數(shù)據(jù)泛化的導(dǎo)出表示
- 二維表
- 3d交叉表
- 條形圖、餅形圖
- 數(shù)據(jù)方
三、解析特征:屬性相關(guān)性分析
有時候我們很難確定哪些屬性應(yīng)當(dāng)納入類特征或類比較中,我們可以借助某些屬性相關(guān)分析方法來識別不相關(guān)或者弱相關(guān)屬性。
3.1 為什么要進行屬性分析
我們已經(jīng)在上面介紹過,數(shù)據(jù)倉庫和OLAP工具有兩個局限性:處理復(fù)雜對象和泛化過程難以自動化。
對用戶來說,確定哪些維應(yīng)當(dāng)納入到類特征分析中并不是一件很容易的事,數(shù)據(jù)關(guān)系通常有很多屬性(多的有成百上千個),對于有效的數(shù)據(jù)挖掘,應(yīng)當(dāng)選擇哪些屬性或維,用戶所知甚少。另一方面,用戶也可能包含了太多的分析屬性。
所以我們應(yīng)當(dāng)引進一些方法進行屬性相關(guān)性分析,以過濾統(tǒng)計不相關(guān)或弱相關(guān)屬性,保留對手頭挖掘任務(wù)最相關(guān)的屬性。包含屬性/維相關(guān)性分析的類特征成為解析特征,包含這種分析的類比較成為解析比較。
3.2 屬性相關(guān)分析的方法
關(guān)于屬性相關(guān)分析,在機器學(xué)習(xí)、統(tǒng)計、模糊和粗糙集理論等方面都有很多研究。屬性相關(guān)分析基本思想是計算某種度量,用于量化屬性與給定類或概念的相關(guān)性。這種度量包括信息增益、Gini索引、不確定性和相關(guān)系數(shù)。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘中的概念描述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: git clone的源码在vim打开时是
- 下一篇: 使用Xcode 7 beta免费真机调试