三十七、数据泛化(面向属性的归纳)
生活随笔
收集整理的這篇文章主要介紹了
三十七、数据泛化(面向属性的归纳)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 數據泛化:面向屬性的歸納
從概念上講,數據立方體可以看做一種多維數據泛化。數據泛化通過把相對低層的值(例如,屬性年齡的數值)用較高層概念(例如,青年、中年和老年)替換來匯總數據。
- 數據特征化的面向屬性的歸納
- 面向屬性歸納的有效實現
- 類比較的面向屬性歸納
2 數據特征的面向屬性的歸納
2.1 面向屬性的歸納的基本步驟
基本操作是數據泛化,對有大量不同的屬性,進行一下操作:
- 屬性刪除
- 屬性泛化
- 屬性泛化控制
2.2 數據聚焦
-
目的是獲得跟任務相關的數據集,包括屬性或維,在DMQL中它們由in relevance to子句表示。
-
獲取Big-University數據庫中研究生的數據
use Big_University_DBselect name,gender,major,birth_place,birth_datefrom studentTo Science in “graduate”where status in “graduate” -
用戶可能引進太多的屬性
2.3 數據泛化
- 屬性刪除的使用規則:對初始工作關系中具有大量不同值的屬性,符合一下情況,應使用屬性刪除。
- 在此屬性上沒有泛化操作符(比如該屬性沒有定義相關的感念分層)
- 該屬性的較高層概念用其他屬性表示。如:屬性是street,它的高層次概念用屬性<city, province_or_state, country>
2.4 屬性概化控制
- 屬性概化的使用規則:如果初始工作關系中的某個屬性由大量不同值,且該屬性上存在概化操作符,則使用該泛化操作對該屬性進行數據泛化操作。
- 什么是“具有大量的不同值”?要將屬性概化到多高的抽象層?
- 屬性泛化控制的兩種常用方法:
- 屬性泛化臨界值控制:對所有屬性設置一個泛化臨界值或對每個屬性分別設置一個臨界值。
3 面向屬性歸納的有效實現
3.1 基本步驟
- 第一步進行的是關系查詢,把任務相關的數據收集到工作關系表W中。
- 第二步收集初始關系上的統計量。這最多需要掃描一次該關系。
- 第三部導出主觀系P。通過掃描工作關系的每個元組并把廣義元祖插入到P中完成
4 類比較的面向屬性歸納
4.1 類比較的面向屬性歸納的過程
在許多應用中,用戶可能對單個類的概念或特征不感興趣,而是希望挖掘一種描述,它將一個類與其他課比較的類相區分
- 數據收集:通過查詢處理收集數據庫中相關數據,并把它們劃分成一個目標類和對比類。
- 維相關分析:如果有多個維,則應當在這些類上進行維相關分析。
- 同步泛化:泛化在目標類上進行,泛化到用戶或領域專家指定的維閾值控制的層,產生主目標類關系。
- 導出類比較的表示:結果類比較描述可以用表、圖或規則的形式可視化。
4.2 挖掘類比較
假設我們想比較Big_University的研究生和本科生的一般性質,給定了屬性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。
首先將該查詢轉換成兩個關系查詢,收集兩個任務相關的集合:一個是初始目標類工作關系,另一個是初始對比類工作關系。
合:一個是初始目標類工作關系,另一個是初始對比類工作關系。
總結
以上是生活随笔為你收集整理的三十七、数据泛化(面向属性的归纳)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三十六、数据仓库的实现
- 下一篇: 三十八、商业智能与ETL基础知识