當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘中的概念描述

發(fā)布時間：2024/4/13 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘中的概念描述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)挖掘一般可分為描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘，概念描述講的就是描述型數(shù)據(jù)挖掘。

一、概念描述基本知識

1.1 兩種類型的數(shù)據(jù)挖掘

從數(shù)據(jù)分析角度出發(fā)，數(shù)據(jù)挖掘可分為兩種類型：

描述型數(shù)據(jù)挖掘：以簡潔概要方式描述數(shù)據(jù)
預(yù)測型數(shù)據(jù)挖掘：預(yù)測性數(shù)據(jù)挖掘則是通過對所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個或一組數(shù)據(jù)模型，并將該模型用于預(yù)測未來新數(shù)據(jù)的有關(guān)性質(zhì)。

1.2 概念描述

描述型數(shù)據(jù)挖掘又稱為概念描述，概念描述是數(shù)據(jù)挖掘的一個重要部分。描述型數(shù)據(jù)挖掘最簡單的類型就是概念描述。概念描述描述的是數(shù)據(jù)的特征和比較描述：

特征描述：給定數(shù)據(jù)集的簡潔匯總
比較描述：多用于兩個或多個數(shù)據(jù)集

數(shù)據(jù)泛化也是一種概念描述，這類似于數(shù)據(jù)倉庫中的OLAP，但兩者之間也是有區(qū)別的：

復(fù)雜的數(shù)據(jù)類型和聚集：概念描述可以處理更加復(fù)雜的數(shù)據(jù)類型屬性和他們的聚集
用戶控制和自動處理：OLAP多是用戶的控制和操作，而數(shù)據(jù)挖掘中的概念描述更努力成為自動化的過程，具備自動知識發(fā)現(xiàn)的能力，要遠遠復(fù)雜的多

二、特征描述

數(shù)據(jù)泛化也是一種特征描述。數(shù)據(jù)泛化的概念：它是一個過程，它將龐大、任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層次抽象到較高的概念層次。具體泛化方法有兩類：

數(shù)據(jù)立方：類似OLAP

面向?qū)傩缘臍w納

數(shù)據(jù)泛化是非常有用的，舉個例子：一個銷售系統(tǒng)中的數(shù)據(jù)庫中商品項目可能由諸如itemid,name,brand,price,category,place-made等低層次的屬性構(gòu)成，但銷售和市場經(jīng)理都希望得到在圣誕節(jié)期間大量商品基本信息的匯總描述來獲得一些信息。

2.1 面向?qū)傩缘臍w納

面向?qū)傩詺w納的基本思想是：首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)數(shù)據(jù)，然后通過觀察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行泛化。泛化可以通過屬性刪除，或者通過屬性泛化進行。

2.1.1 收集任務(wù)相關(guān)數(shù)據(jù)

通過數(shù)據(jù)挖掘查詢或者關(guān)系查詢獲取相關(guān)數(shù)據(jù)，假設(shè)我們有如下關(guān)系查詢語句：

use Big_university_DB select name,gender,major,birth_place,birth_date,residence,phone,gpa from student where status in {"M.Sc","M.A","M.B.A","Ph.D"}

把詞語在關(guān)系數(shù)據(jù)庫中執(zhí)行，返回如下表所示數(shù)據(jù)。該表一般被稱作初始工作表，是要進行歸納的數(shù)據(jù)。

namegendermajorbirth_placebirth_dateredidencephonegpa

Jim	M	CS	Vancouver,BC,Canada	76-12-8	3511,Main St,Richmand	687-4598	3.67
Scott	M	CS	Montreal,Que,Canada	75-7-28	345,IstSt,Vancouver	253-9106	3.70
Lee	F	Physics	Seattle,WA,USA	70-8-25	231,Austin,Burnaby	420-5232	3.83

數(shù)據(jù)已經(jīng)準(zhǔn)備好，下面就開始進行屬性歸納，面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化，它有兩種方法：屬性刪除

2.1.2 屬性刪除

顧名思義，屬性刪除就是刪除我們不需要的數(shù)據(jù)。我們基于如下規(guī)則盤點是否采用屬性刪除方法：如果初始工作表中某個屬性有大量不同的值，(1)但是在此屬性上沒有泛化操作符；或者(2)它的較高層概念可以用其它屬性表示，該屬性應(yīng)當(dāng)從工作關(guān)系表中刪除。

舉個例子，對于情況1，因為它沒有泛化操作符，就意味著它不能被泛化，保留它則與產(chǎn)生簡潔的描述規(guī)則相矛盾，比如初始工作表中的姓名字段。對于情況2，比如屬性street可以被較高的屬性city表示，所以刪除city屬性。

2.1.3 屬性泛化

屬性泛化基于如下規(guī)則：如果初始工作表中某個屬性有大量不同的值，并且該屬性上存在泛化操作符，則應(yīng)當(dāng)選擇該泛化操作符，并將它用于該屬性。

2.1.4 屬性泛化控制

屬性刪除和屬性泛化兩個規(guī)則都表明，如果某個屬性存在大量的不同取值，就應(yīng)當(dāng)進一步泛化，那多大才算是大？這個控制過程我們就稱作屬性泛化控制。有一些方法可以控制泛化的過程，下面介紹兩種常用的方法：

屬性泛化閾值控制，對所有屬性設(shè)置一個泛化閾值，或?qū)γ總€屬性設(shè)置一個泛化閾值，如果屬性不同值個數(shù)大于這個閾值，就應(yīng)當(dāng)進一步進行屬性刪除或泛化。

泛化關(guān)系閾值控制，如果泛化關(guān)系中不同元組的個數(shù)超過該閾值，則應(yīng)當(dāng)進一步泛化。

2.1.5 面向?qū)傩詺w納實例

現(xiàn)在，我們就對上面的初始工作表中的每個屬性進行泛化，泛化過程如下：

name：由于name存在大量不同的值，并且沒有泛化操作符，刪除之。

gender：只有兩個不同值，保留，無需泛化。

major：假設(shè)major數(shù)量有20，屬性泛化閾值為5，并且已定義了一個向上攀升的概念分層{arts，engineering，business}，則對major進行泛化。

birth_place：有大量不同取值，應(yīng)當(dāng)泛化。可以將birth_place屬性刪除，泛化到birth_country。

birth_date：泛化到age。

resident：可以泛化到resident_country，像是的概念層次的number,street可以刪除。

phone：從泛化中刪除。

gpa：存在概念分層，可以泛化到{excellent,very good,…}
所泛化過程將產(chǎn)生相等元組的組。例如，初始工作表中前兩個元組被泛化成相同的元組（即第一個元組），這些相同的元組被合并成一個，同時累計它們的計數(shù)值，這一過程最終得到如下泛化關(guān)系表：

gendermajorbirth_countryage_rangeredidence_citygpacount

M	Science	Canada	20	Richmon	verygood	1
M	Science	Canada	20	Vancouve	verygood	2
F	engineer	USA	25	Burnaby	excellent	2

2.2 數(shù)據(jù)泛化的導(dǎo)出表示

二維表
3d交叉表
條形圖、餅形圖
數(shù)據(jù)方

三、解析特征：屬性相關(guān)性分析

有時候我們很難確定哪些屬性應(yīng)當(dāng)納入類特征或類比較中，我們可以借助某些屬性相關(guān)分析方法來識別不相關(guān)或者弱相關(guān)屬性。

3.1 為什么要進行屬性分析

我們已經(jīng)在上面介紹過，數(shù)據(jù)倉庫和OLAP工具有兩個局限性：處理復(fù)雜對象和泛化過程難以自動化。

對用戶來說，確定哪些維應(yīng)當(dāng)納入到類特征分析中并不是一件很容易的事，數(shù)據(jù)關(guān)系通常有很多屬性(多的有成百上千個)，對于有效的數(shù)據(jù)挖掘，應(yīng)當(dāng)選擇哪些屬性或維，用戶所知甚少。另一方面，用戶也可能包含了太多的分析屬性。

所以我們應(yīng)當(dāng)引進一些方法進行屬性相關(guān)性分析，以過濾統(tǒng)計不相關(guān)或弱相關(guān)屬性，保留對手頭挖掘任務(wù)最相關(guān)的屬性。包含屬性/維相關(guān)性分析的類特征成為解析特征，包含這種分析的類比較成為解析比較。

3.2 屬性相關(guān)分析的方法

關(guān)于屬性相關(guān)分析，在機器學(xué)習(xí)、統(tǒng)計、模糊和粗糙集理論等方面都有很多研究。屬性相關(guān)分析基本思想是計算某種度量，用于量化屬性與給定類或概念的相關(guān)性。這種度量包括信息增益、Gini索引、不確定性和相關(guān)系數(shù)。

總結(jié)

以上是生活随笔為你收集整理的数据挖掘中的概念描述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： git clone的源码在vim打开时是
下一篇：使用Xcode 7 beta免费真机调试