【数据挖掘笔记二】认识数据
?
2.認識數據
提出一些問題來開啟數據的認識。數據由什么類型的屬性或字段組成?每個屬性具有何種類型的數據值?那些屬性是離散的,那些事連續值的?數據值如何分布?什么方法更好地可視化數據可看出離群點?如何度量數據對象之間的相似性或相異性?
2.1數據對象與屬性類型
數據集是由數據對象組成。一個數據對象代表一個實體。數據對象用屬性描述。數據對象也稱樣本、實例、數據點或對象。如果數據對象存放在數據庫中,則是數據元組,數據庫的行對應于數據對象,而列對應于屬性。
1) 什么是屬性
屬性(attribute)是一個數據字段,表示數據對象的一個特征。
屬性、維(dimension)、特征(feature)和變量(variable)表示同樣概念。
“維”一般用在數據倉庫中。
“特征”用在機器學習中。
“變量”用在統計學中。
“屬性”用在數據挖掘和數據庫中。
給定屬性的觀測值稱做觀測。用來描述一個給定對象的一組屬性稱做屬性向量(或特征向量)。設計一個屬性(或變量)的數據分布稱做單變量的(univariate)。雙變量(bivariate)分布涉及兩個屬性。
一個屬性的類型由該屬性可能具有的值的集合決定。屬性可以是標稱的、二元的、序數的或數值的。
2)標稱屬性
標稱意味與名稱相關。標稱屬性(nominal attribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性也被看做是分類的(categorical),這些值不必具有有意義的序,在計算科學中,這些值也可看做是枚舉的(enumeration)。
標稱屬性值并不具有有意義的序,并且不是定量的。對于標稱屬性來說,要描述其集中趨勢,就是通過眾數(mode)來。
3)二元屬性
二元屬性(binaryattribute)是一種標稱屬性,只有兩個類別或狀態:0或1。二元屬性也稱布爾屬性。如果兩種狀態具有同等價值或相同權重,則是對稱的;如果其狀態的結果不是同樣重要的,則是非對稱的。
4)序數屬性
序數屬性(ordinalattribute),其可能的值之間具有有意義的序或秩平頂(ranking),但是相繼值之間的差是未知的,適用于記錄不能客觀度量的主管質量評估,通常用于等級評定調查。
在數據歸約中,序數屬性可通過把數值量的值域劃分為有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值。
標稱、二元和序數屬性都是定性的,即它們描述對象的特征,但不給出實際大小或數量。
5)數值屬性
數值屬性(numericattribute)是定量的,是可度量的量,用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。
區間標度(interval-scaled)屬性用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。除了值的秩評定之外,該屬性還允許比較和定量評估值之間的差。區間標度屬性是數值的,可計算均值。
比率標度(ratio-scaled)屬性具有固有零點的數值屬性。就是說,如果度量是比率標度的,則可以說一個值是另一個的倍數(或比率)。值是有序的,可計算值之間的差,也可以計算均值、眾數和中位數。
6)離散屬性與連續屬性
屬性分類標稱、二元、序數和數值類型。機器學習領域通常把屬性分成離散的或連續的。離散屬性具有有限或無限個數,可以用或不用整數表示。數值屬性和連續屬性是等同的,連續屬性一般用浮點變量表示。
2.2數據的基本統計描述
參考:http://blog.csdn.net/fjssharpsword/article/details/74911180
數據的基本統計描述可識別數據的性質,發現數據值中的噪聲或離群點,提供對數據總體情況的價值洞察,對數據清理非常有用。
1)中心趨勢度量:均值、中位數、眾數
均值對極端值敏感,可使用截尾均值(trimmed mean)。
中位數更好度量傾斜(非對稱)數據,是有序數據值的中間值,把數據較高的一半與較低的一半分開的值。
眾數(mode)是集合中出現最頻繁的值,有單峰(unimodal)、雙峰(bimodal)、三峰(trimodal)。
中列數(midrange)是數據集的最大值和最小值的平均值。
在完全對稱的數據分布的單峰頻率曲線中,均值、中位數和眾數都是相同的中心值。在數據不對稱情況下,正傾斜或負傾斜下三者則不同。
2)度量數據散步:極差、四分位數、方差、標準差和四分位數極差
極差(range)是最大值和最小值之差。
分位數(quantile)是取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。四分位數(quartile)把數據分布劃分成4個相等的部分,使得每部分表示數據分布的四分之一。100分位數稱做百分位數(percentile),把數據分布劃分成100個大小相等的連貫集。
四分位數極差(IQR):第1個和第3個四分位數之間的距離,描述被數據的中間一半所覆蓋的范圍。
分布的五數概括(five-number summary)由中位數、四分位數的第1個和第3個、最小和最大值五個觀測值組成,按min、q1、median、q3、max輸出。
盒圖(boxplot)是一種流行的分布的直觀表示。盒圖體現了五數概括:盒的端點一般在四分位數上,使得盒的長度是四分位數極差IQR;中位數用盒內的線標記;盒外的兩條線(胡須)延伸到最小和最大值。
方差和標準差指出數據分布的離散程度,低標準差意味著數據觀測趨向于非常靠近均值,而高標準差表示數據散步在一個大的值域中。標準差是數據集發散的指示器。大型數據庫中方差和標準差的計算是可伸縮的。
3)數據基本統計描述的圖形顯示
分位數圖適用觀察單變量數據分布。
直方圖(histogram)或頻率直方圖(frequency histogram)概括給定屬性X的分布的圖形方法。
散點圖(scatterplot)是確定兩個數值變量之間存在聯系、模式或趨勢的有效圖形方法,適用觀察雙變量數據分布,存在正相關、負相關、不相關三種情形。
2.3數據可視化
數據可視化(datavisualization)是通過圖形表示清晰有效地表達數據。
1)基于像素的可視化技術
基于像素的技術(pixel-oriented technique)在屏幕上為每一維創建一個窗口,記錄的m個維值映射到窗口中對應位置上的m個像素,像素的顏色反映對應的值。
空間填充曲線(space-filling curve),其范圍覆蓋了整個n維單位超立方體??梢暬翱谑嵌S的,因此使用二維空間填充曲線。
圓弓分割技術(circle segment technique)使用圓弓形窗口,可以改善維比較,將諸維窗口并肩形成一個圓。
2)幾何投影可視化技術
基于像素的可視化技術不能理解多維空間的數據分布;幾何投影技術可幫助用戶發現多維數據集的有趣投影。幾何投影技術首要是解決如何在二維顯示上可視化高維空間。
二維散點圖使用笛卡爾坐標顯示二維數據點;使用不同顏色或現狀表示不同的數據點,可以增加第三維。
三維散點圖使用笛卡爾坐標的三個坐標軸,如加上顏色,則可以顯示4維數據點。
超過四維的數據集,二維和三維散點圖都無效。
散點圖矩陣是是二維散點圖的n*n網格,提供每個維與所有其他維的可視化,支持n維數據集的可視化。
隨著維數增加,散點圖矩陣也將無效。平行坐標可以處理更高緯度。
平行坐標(parallelcoordinates)繪制n個等距離、相互平行的軸,每維一個;數據記錄用折線表示,與每個軸在對應于相關維值上相交。平行坐標技術的主要局限是不能有效地顯示具有很多記錄的數據集。即便對于數千個記錄的數據集,視覺上的簇和重疊都會降低可視化的可讀性,自然就很難發現模式。
3)基于圖符的可視化技術
基于圖符的(icon-based)可視化技術使用少量圖符表示多維數據值。
切爾諾夫臉(Chernofffaces)是統計學家赫爾曼?切爾諾夫于1973年引入,把多達18個變量(維)的多維數據以卡通人臉顯示。切爾諾夫臉利用人的思維能力,識別面部特征的微小差異并立即消化理解許多面部特征。通過濃縮數據,切爾諾夫臉使得數據容易被用戶消化理解,有助于數據的規律和不規律性的可視化。不過在表示多重聯系的能力上存在局限性,且未能顯示具體的數據值。非對稱的切爾諾夫臉做了技術擴展。因為臉具有垂直對稱性,兩邊是相同的,對稱就浪費,所以采用非對稱可以使面部特征加倍,允許現實多達36維。
人物線條畫(stickfigure)可視化技術把多維數據映射到5-段人物線條畫,其中每個畫都有四肢和一個軀體;兩個維映射到現實軸(x和y),其余的維映射到四肢角度或長度。
4)層次可視化技術
層次可視化技術把所有維劃分成子集(即子空間),這些子空間按層次可視化。
世界中的世界(worlds-within-worlds),也稱n-Vision,是一種具有代表性的可視化方法。假定6維數據集可視化,先固定三維的數據值,然后對其他三維建立三維圖觀察,這樣構成一個內世界的三維和外世界的三維。
樹圖(tree-map),把層次數據顯示成嵌套矩形的集合。
5)可視化復雜對象和關系
可視化技術主要用于數值數據,但現在非數值數據,如文本和社會網絡也要可視化和分析。
標簽云(tagcloud)是用戶產生的標簽的統計量的可視化。標簽云可分單個標簽的大小表示和多個標簽的人氣表示。
除了復雜的數據,數據項之間的復雜關系也對可視化提出了挑戰。
可視化為探索數據提供了有效的工具。
2.4度量數據的相似性和相異性
數據對象的相似性和相異性都稱鄰近性(proximity)。
1)數據矩陣和相異性矩陣
數據矩陣用于存放數據對象,相異性矩陣用于存放數據對象對的相異性值。對象是關系數據庫的元組,也稱數據樣本或特征向量。相似性和相異性主要基于內存的聚類和最近鄰算法并在數據矩陣和相異性矩陣兩類數據結構上運行。
數據矩陣(datamatrix)或稱對象-屬性結構,用矩陣n*p表示(n個對象p個屬性)存在n個數據對象。
相異性矩陣(dissimilaritymatrix)或稱對象-對象結構:存放n個對象兩兩之間的鄰近度(proximity),用n*n矩陣表示;其中d(i,j)是對象i和對象j之間的相異性或差別的度量,是一個非負值,對象i和j高度相似或接近時,值接近0,d(i,j)=d(j,i)矩陣是對稱的。相似性度量可以表示稱相異性度量的函數,如對于標稱數據,sim(i,j)=1-d(i,j)是對象i和j之間的相似性。
數據矩陣由兩種實體或事物組成,即行(代表對象)和列(代表屬性),因而數據矩陣經常被稱為二模(two-mode)矩陣;相異性矩陣只包含一類實體,因此稱為單模(one-mode)矩陣。
2)標稱屬性的鄰近性度量
設一個標稱屬性的狀態數目是M,狀態可以用字母、符號或者一組整數表示(整數只用于數據處理,不代表任何特定的順序)。
兩個對象i和j之間的相異性根據不匹配率來計算:d(i,j)=(p-m)/p,其中m是匹配的數目(即i和j取值相同狀態的屬性數),而p是刻畫對象的屬性總數??赏ㄟ^賦予m較大的權重,或賦給有較多狀態的屬性的匹配更大的權重來增加m的影響。相似性公式sim(i,j)=1-d(i,j)=m/p。
3)二元屬性的鄰近性度量
基于對稱二元屬性(每個狀態同等重要)的相異性稱做對稱的二元相異性;如果兩個狀態不是同等重要的,則稱為非對稱的二元相異性。|
| 對象j | |||
| 對象i |
| 1 | 0 | sum |
| 1 | q | r | q+r | |
| 0 | s | t | s+t | |
| sum | q+s | r+t | p | |
其中q是對象i和對象j都取1的屬性數,r是對象i取1、對象j取0的屬性數,r是對象i取0、對象j取1,t是對象i和j都取0的屬性數,屬性總數是p=q+r+s+t。
對稱的二元相異性:d(i,j)=(r+s)/(q+r+s+t)。
非對稱的二元相異性:d(i,j)=(r+s)/(q+r+s),假設0值是不重要的,則t可認為是不重要而被忽略。
非對稱的二元相似性:sim(i,j)=1-d(i,j)=q/(q+r+s),同樣假設0值是不重要的,忽略t值,稱做Jccard系數。
4)數值屬性的相異性:閔可夫斯基距離
數值屬性刻畫的對象的相異性的距離度量,包括歐幾里得距離、曼哈頓距離和閔可夫斯基距離。
5)序數屬性的鄰近性度量
序數屬性的值之間是有意義的序或排位,而相繼值之間的量值未知。序數屬性也可以通過把數值屬性的值域劃分成有限個類別,對數值屬性離散化得到。
令序數屬性可能的狀態數為M,這些有序的狀態定義一個排位1,…,Mf。在計算對象間的相異性時,序數屬性的處理與數值屬性類似。假設f是用于描述n個對象的一組序數屬性之一,關于f的相異性計算步驟如下:
第一:第i個對象的f值為xif,屬性f有Mf個有序的狀態,表示排位1,…, Mf,用對應的排位rif∈{1,…, Mf}取代xif;
第二:每個序數屬性都有不同的狀態數,所以將每個屬性的值域映射到[0,1]上,以便每個屬性都有相同的權重。用zif代替第i個對象rif來實現數據規格化,zif=(rif-1)/( Mf-1);
第三:相異性計算可以參照數值屬性的距離度量來計算,使用zif作為第i個對象的f值。
6)混合類型屬性的相異性
一般情況下,一個對象是由混合多種類型屬性所刻畫的。如果對每種類型單獨分析,獨立結果的整合并不有效的。因此需要將所有屬性類型一起處理,將不同的屬性組合在單個相異性矩陣中,把所有有意義的屬性轉換到共同區間[0,1]上。
?
2.5小結
1)數據集是由數據對象組成。數據對象代表實體。數據對象用屬性描述。屬性可以使標稱的、二元的、序數的或數值的。
2)標稱(或分類)屬性的值是符號或事物的名字,其中每個值達標某種類別、編碼或狀態。
3)二元屬性是僅有兩個可能狀態(如1和0,真和假)的標稱屬性。如果兩個狀態同等重要,則該屬性是對稱的,否則它是非對稱的。
4)序數屬性是其可能的值之間具有有意義的序或排位,但相繼值之間的量值未知的屬性。
5)數值屬性是定量的(即可測量的量),用整數或實數值表示。數值屬性的類型可以是區間標度的或比率標度的。區間標度屬性的值用固定的、相等的單位測量。比率標度屬性是具有固有0點的數值屬性。
6)基本統計描述為數據預處理提供了分析基礎。數據概括的基本統計度量包括度量數據中心趨勢的均值、加權平均、中位數和眾數,以及度量數據散布的極差、分位數、四分位數、四分位數極差、方差和標準差。圖形表示(如盒圖、分位數圖、分位數-分位數圖、直方圖和散點圖)有助于數據的可視化考察,因為對數據預處理和挖掘是有用的。
7)數據可視化技術可以是基于像素的、基于幾何學的、基于圖標的或層次的。這些方法用于多維關系數據。已經提出了可用于復雜數據(如文本和社會網絡)可視化的技術。
8)對象相似性和相異性度量用于諸如聚類、離群點分析、最近鄰分類等數據挖掘應用中。這種鄰近性度量可用每種屬性類型或混合屬性類型的計算方法計算,如用于非對稱二元屬性的Jaccard系數、用于數值屬性的歐幾里得距離、曼哈頓距離、閔可夫斯基距離和上確界距離。對于涉及稀疏數值數據向量(如詞頻向量)的應用,余弦度量和Tanimoto系數通常用于相似性評估。
總結
以上是生活随笔為你收集整理的【数据挖掘笔记二】认识数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【正一专栏】评深圳西乡砍人案——不要无辜
- 下一篇: 【Python学习系列二十四】sciki