【数据挖掘笔记八】分类:基本概念
?
8.分類:基本概念
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型,這種模型稱為分類器,預(yù)測(cè)分類的(離散的、無(wú)序的)類標(biāo)號(hào)。
8.1?基本概念
分類和回歸(數(shù)值預(yù)測(cè))是預(yù)測(cè)問(wèn)題的兩種主要類型。數(shù)據(jù)分類是一個(gè)兩階段過(guò)程,包括學(xué)習(xí)階段構(gòu)建分類模型和分類階段使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào)。
學(xué)習(xí)階段由于提供了每個(gè)訓(xùn)練元組的類標(biāo)號(hào),也稱為監(jiān)督學(xué)習(xí),不同于無(wú)監(jiān)督學(xué)習(xí),每個(gè)訓(xùn)練元組的類標(biāo)號(hào)是未知的,并且要學(xué)習(xí)的類的個(gè)數(shù)或集合實(shí)現(xiàn)也可能不知情。
分類階段首先要評(píng)估分類器的預(yù)測(cè)準(zhǔn)確率,存在過(guò)擬合情況(即在學(xué)習(xí)期間,學(xué)習(xí)器可能包含了訓(xùn)練數(shù)據(jù)中的某些特定的異常,但這些異常不在一般的數(shù)據(jù)集中出現(xiàn)),需要使用由檢驗(yàn)元組和與它們相關(guān)聯(lián)的類標(biāo)號(hào)組成的檢驗(yàn)集,獨(dú)立于訓(xùn)練集。分類器在給定檢驗(yàn)集上的準(zhǔn)確率是分類器正確分類的檢驗(yàn)元組所占的百分比。
8.2?決策樹(shù)歸納
決策樹(shù)歸納是從有類標(biāo)號(hào)的訓(xùn)練元組中學(xué)習(xí)決策樹(shù)。在決策樹(shù)構(gòu)造中,使用屬性選擇度量來(lái)選擇將元組最好地劃分成不同的類的屬性。決策樹(shù)建立時(shí),許多分枝可能反應(yīng)訓(xùn)練數(shù)據(jù)中的噪聲或離群點(diǎn),樹(shù)剪枝試圖識(shí)別并剪去這種分枝,以提高在未知數(shù)據(jù)上分類的準(zhǔn)確率。ID3、C4.5和CART都采用貪心(非回溯的)方法,其中決策樹(shù)以自頂向下遞歸的分治方式構(gòu)造。
屬性選擇度量是決策樹(shù)選擇分類的準(zhǔn)則,把給定類標(biāo)記的訓(xùn)練元組的數(shù)據(jù)分區(qū)最好地劃分成單獨(dú)類的啟發(fā)式方法。屬性選擇度量為描述給定訓(xùn)練元組的每個(gè)屬性提供了秩評(píng)定。具有最好度量得分的屬性被選為元組的分裂屬性。信息增益、增益率和基尼指數(shù)是三種常見(jiàn)的屬性選擇度量。信息增益偏向多值屬性,增益率調(diào)整了這種偏倚,但也傾向于產(chǎn)生不平衡的劃分,其中一個(gè)分區(qū)比其他分區(qū)小得多。基尼指數(shù)偏向于多值屬性,并且當(dāng)類的數(shù)量很大時(shí)會(huì)有困難,還傾向于導(dǎo)致相等大小的分區(qū)和純度。
決策樹(shù)剪枝方法有先剪枝和后剪枝:
1)先剪枝方法中,通過(guò)提前停止樹(shù)的構(gòu)建(如通過(guò)決定在給定的結(jié)點(diǎn)不再分裂或劃分訓(xùn)練元組的子集)而對(duì)樹(shù)剪枝,一旦停止,結(jié)點(diǎn)就成為樹(shù)葉,該樹(shù)葉持有子集元組中最頻繁的類或這些原則的概率分布。在構(gòu)造樹(shù)時(shí),可以使用統(tǒng)計(jì)顯著性、信息增益、基尼指數(shù)等度量來(lái)評(píng)估劃分的優(yōu)劣。
2)后剪枝方法,在完全生長(zhǎng)的樹(shù)再剪去分枝,通過(guò)刪除結(jié)點(diǎn)的分枝并用樹(shù)葉替換它而剪掉給定結(jié)點(diǎn)上的子樹(shù)。CART使用的代價(jià)復(fù)雜度剪枝算法是后剪枝方法的一個(gè)實(shí)例。該方法把樹(shù)的復(fù)雜度看做樹(shù)中樹(shù)葉結(jié)點(diǎn)的個(gè)數(shù)和樹(shù)的錯(cuò)誤率的函數(shù)。從樹(shù)的底部開(kāi)始,對(duì)每個(gè)內(nèi)部結(jié)點(diǎn)N,計(jì)算N的子樹(shù)的代價(jià)復(fù)雜度和該子樹(shù)剪枝后N的子樹(shù)的代價(jià)復(fù)雜度,比較這兩個(gè)值,如果剪去結(jié)點(diǎn)N的子樹(shù)導(dǎo)致較小的代價(jià)復(fù)雜度,則剪掉該子樹(shù)。
訓(xùn)練集過(guò)大,在主存和高速緩存換進(jìn)換出,計(jì)算成本大,要研究可以處理可伸縮的決策樹(shù)算法,如RainForest,能適應(yīng)可用的內(nèi)存量,并可用于任意決策樹(shù)歸納算法;如BOAT自助樂(lè)觀算法使用自助法的統(tǒng)計(jì)學(xué)技術(shù)。
基于感知的分類是一種基于多維可視化技術(shù)的交互式方法,允許用戶在構(gòu)建決策樹(shù)時(shí)加上關(guān)于數(shù)據(jù)的背景知識(shí)。
8.3?貝葉斯分類方法
貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測(cè)類隸屬關(guān)系的概率,如一個(gè)給定的元組屬于一個(gè)特定類的概率。貝葉斯分類基于貝葉斯定理。貝葉斯定義是后驗(yàn)概率和先驗(yàn)概率以及證據(jù)構(gòu)成。
樸素貝葉斯分類法假定一個(gè)屬性值在給定類上的影響?yīng)毩⒂谄渌麑傩缘闹?#xff0c;即類條件獨(dú)立性。
8.4?基于規(guī)則的分類
基于規(guī)則的分類器使用一組IF-THEN規(guī)則進(jìn)行分類。IF是規(guī)則的前提,THEN是規(guī)則的結(jié)論。規(guī)則可以用覆蓋率和準(zhǔn)確率來(lái)評(píng)估。IF-THEN規(guī)則可從決策樹(shù)中提取。使用順序覆蓋算法(sequential?covering?algorithm)可以直接從訓(xùn)練數(shù)據(jù)中提取IT-THEN規(guī)則而不必產(chǎn)生決策樹(shù)。
8.5?模型評(píng)估與選擇
評(píng)估分類器性能的度量中混淆矩陣是一種有用的工具,相關(guān)指標(biāo)有準(zhǔn)確率、錯(cuò)誤率、誤分類率、靈敏性、特效性、精度、召回率、ROC曲線。
除了基于準(zhǔn)確率的度量外,還可以在其他方面比較分類器:
1)速度:產(chǎn)生和使用分類器的計(jì)算開(kāi)銷;
2)魯棒性:假定數(shù)據(jù)有噪聲或有缺失值時(shí)分類器做出正確預(yù)測(cè)的能力,通常,魯棒性用噪聲和缺失值漸增的一系列合成數(shù)據(jù)集評(píng)估;
3)可伸縮性:涉及給定大量數(shù)據(jù)集,有效地構(gòu)造分類器的能力,通常,可伸縮性用規(guī)模漸增的一系列數(shù)據(jù)集評(píng)估;
4)可解釋性:分類器或預(yù)測(cè)器提供的理解和洞察水平。
模型評(píng)估還對(duì)樣本抽樣采用一定技術(shù),如交叉驗(yàn)證、自助法(有放回的均勻采樣)、留一法。模型選擇上也采用統(tǒng)計(jì)檢驗(yàn)方法。
8.6?提高分類準(zhǔn)確率的技術(shù)
組合分類器(ensemble)是一個(gè)復(fù)合模型,由多個(gè)分類器組合而成。組合分類方法,包括裝袋、提升。組合分類器比它的基分類器更準(zhǔn)確。
1)裝袋Bagging:有放回抽樣選擇N個(gè)訓(xùn)練集,給N個(gè)基分類器訓(xùn)練,分類結(jié)果采用投票機(jī)制確定,并行集成。
2)提升Boosting:權(quán)重賦予每個(gè)訓(xùn)練元組,迭代地學(xué)習(xí)k個(gè)分類器,前一個(gè)學(xué)習(xí)后更新權(quán)重再開(kāi)始后一個(gè)學(xué)習(xí)。
? 隨機(jī)森林是Bagging的案例,Adaboost是Boosting的案例。
提高準(zhǔn)確率除了在模型上下功夫意外,對(duì)樣本也是有研究的,通過(guò)提高類不平衡數(shù)據(jù)可提高類別準(zhǔn)確率。傳統(tǒng)的分類算法旨在最小化分類誤差。提高不平衡數(shù)據(jù)分類準(zhǔn)確率的方法包括:過(guò)抽樣、欠抽樣、閾值移動(dòng)、組合技術(shù)。
8.7?小結(jié)
1)分類是一種數(shù)據(jù)分析形式,它提取描述數(shù)據(jù)類的模型。分類器或分類模型預(yù)測(cè)類別標(biāo)號(hào)。數(shù)值預(yù)測(cè)建立連續(xù)值函數(shù)模型。分類和數(shù)值預(yù)測(cè)是兩類主要的預(yù)測(cè)問(wèn)題。
2)決策樹(shù)歸納是一種自頂向下遞歸樹(shù)歸納算法,它使用一種屬性選擇度量為樹(shù)的每個(gè)非樹(shù)葉結(jié)點(diǎn)選擇屬性測(cè)試。ID3、C4.5和CART是這個(gè)算法的例子,他們使用不同的屬性選擇度量。樹(shù)剪枝是算法試圖通過(guò)剪去反映數(shù)據(jù)中噪聲的分枝,提高準(zhǔn)確率。早起的決策樹(shù)算法通常假定數(shù)據(jù)是駐留內(nèi)存的,已經(jīng)為可伸縮性的數(shù)歸納提出了一些可伸縮算法,如Rainforest。
3)樸素貝葉斯基于后驗(yàn)概率的貝葉斯定力,它假定類條件獨(dú)立,即一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩缘闹怠?/p>
4)基于規(guī)則的分類器使用IT-THEN規(guī)則進(jìn)行分類。規(guī)則可以從決策樹(shù)中提取,或者使用順序覆蓋算法直接由訓(xùn)練數(shù)據(jù)產(chǎn)生。
5)混淆矩陣可以用來(lái)評(píng)估分類器的質(zhì)量。對(duì)于兩類問(wèn)題,它顯示真正例、真負(fù)例、假正例、假負(fù)例。評(píng)估分類器預(yù)測(cè)能力的度量包括準(zhǔn)確率、靈敏度(召回率)、特效性、精度、F等。當(dāng)感興趣的主類占少數(shù)時(shí),過(guò)分依賴準(zhǔn)確率度量可能受騙。
6)分類器的構(gòu)造和評(píng)估需要把標(biāo)記的數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集。保持、隨機(jī)抽樣、交叉驗(yàn)證和自助法都用于這種劃分的典型方法。
7)顯著性檢驗(yàn)和ROC曲線對(duì)于模型選擇是有用的。顯著性檢驗(yàn)可以用來(lái)評(píng)估兩個(gè)分類器準(zhǔn)確率的差別是否出于偶然。ROC曲線繪制一個(gè)或多個(gè)分類器的真正例率(或靈敏性)與假正例率(或1-specificity)。
8)組合方法可以通過(guò)學(xué)習(xí)和組合一系列個(gè)體(基)分類器模型提高總體準(zhǔn)確率。裝袋、提升和隨機(jī)森林是流行的組合方法。
9)當(dāng)感興趣的主類只有少量元組代表時(shí)就會(huì)出現(xiàn)類不平衡問(wèn)題。處理這一問(wèn)題的策略包括過(guò)抽樣、欠抽樣、閾值移動(dòng)和組合技術(shù)。
?
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘笔记八】分类:基本概念的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【数据挖掘笔记七】高级模式挖掘
- 下一篇: 【数据挖掘笔记九】分类:高级方法