【数据挖掘笔记九】分类:高级方法
?
9.分類:高級方法
9.1?貝葉斯信念網絡
貝葉斯信念網絡是一種概率的圖模型,不假定類條件獨立性,說明聯合條件概率分布,允許在變量的子集間定義類條件獨立性,提供一種因果關系的圖形模型,可以在其上進行學習。
貝葉斯信念網絡由兩個成分定義,有向無環圖和條件概率表的集合。網絡變量可以是可觀測的,或隱藏在所有或某些訓練元組中。隱藏數據的情況也稱為缺失值或不完全數據。如果網絡拓撲已知并且變量是可觀測的,則訓練網絡是直接的。當網絡拓撲給定,而某些變量是隱藏時,可以選擇不同的方法來訓練信念網絡,如梯度下降法。
信念網絡是計算密集的。因為信念網絡提供了因果結構的顯示表示,因此專家可以用網絡拓撲和/或條件概率值的形式提供先驗知識。
9.2?用后向傳播分類
后向傳播是一種神經網絡學習算法。神經網絡的優點包括其對噪聲數據的高承受能力,以及它對未經訓練的數據的模式分類能力。在缺乏屬性與類之間的聯系時適用。
后向傳播算法在多層前饋神經網絡上學習,迭代地學習用于元組類標號預測的一組權重。多層前饋神經網絡由一個輸入層、一個或多個隱藏層和一個輸出層組成。網絡的輸入對應于每個訓練元組的觀測屬性。
訓練之前,要定義神經網絡的拓撲結構,包括輸入層單元數、隱藏層數、每個隱藏層的單元數和輸出層的單元數。
后向傳播通過迭代地處理訓練元組數據集,把每個元組的網絡預測與實際已知的目標值相比較進行學習。目標值可以是訓練元組已知類標號或者是連續值,對于每個訓練樣本,修改權重使得網絡預測和實際目標值之間的均方誤差最小。
算法整個過程:初始化權重、向前傳播輸入、向后傳播誤差、終止迭代。
9.3?支持向量機
支持向量機(Support?Vector?Machine,SVM),一種對線性和非線性數據進行分類的方法。SVM使用一種非線性映射,把原訓練數據映射到較高的維上,在新的維上,搜索最佳分離超平面(即將一個類的元組與其他類分離的決策邊界)。映射到足夠高維上的、合適的非線性映射,兩個類的數據總可以被超平面分開。SVM使用支持向量(基本訓練元組)和邊緣(由支持向量定義)發現超平面。
對于非線性可分的情況,采用核技巧實現原輸入數據到較高維空間的非線性變換。通過核函數,避免在高維空間計算點積(計算成本和開銷大),而直接通過核函數在原數據空間計算實現高維空間的點積。核函數包括多項式、高斯徑向、S型等。
核方法的理解參考:http://blog.csdn.net/fjssharpsword/article/details/79092082
9.4?使用頻繁模式分類
頻繁模式顯示了頻繁地出現在給定數據集中的屬性-值對之間的有趣聯系。把每個屬性-值對看做一個項,因此搜索這種頻繁模式稱做頻繁模式挖掘或頻繁項集挖掘。
關聯分類的三種方法:CBR基于分類的關聯、CMAR基于多關聯規則的分類和基于預測關聯規則的分類CPAR。關聯規則的分類一般包括以下步驟:
1)挖掘數據,得到頻繁項集,即找出數據中經常出現的屬性-值對;
2)分析頻繁項集,產生每個類的關聯規則,它們滿足置信度和支持度標準;
3)組織規則,形成基于規則的分類器。
基于有區別力的頻繁模式分類,一般框架如下:
1)特征產生:根據類標號劃分數據集D,使用頻繁項集挖掘,發現每個分區中滿足最小支持度的頻繁模式。頻繁模式的集合F形成候選特征。
2)特征選擇:對F進行特征選擇,得到選擇后(更有區別能力)頻繁模式集Fs。可以使用信息增益、Fisher得分或其他評估度量。也可以把相關性檢驗應用于清除冗余模式。數據集D變換成D’,其中特征空間現在包含單個特征和選擇的頻繁模式Fs。
3)學習分類模型:在數據集D’上建立分類器。
9.5?惰性學習法(近鄰學習)
急切學習法(eager?learner)在接收待分類的新元組(如檢驗元組)之前就構造泛化模型(即分類模型),通俗地說,學習后的模型準備就緒,可以隨時對未見過的元組進行分類。
惰性學習法(lazy?learner)簡單存儲,并且一直等待,直到給定一個檢驗元組。僅當它看到檢驗元組時,才進行泛化,以便根據與存儲的訓練元組的相似性對該元組進行分類。惰性學習在提供訓練元組時只做少量工作,而在進行分類或數值預測時做更多的工作。惰性學習存儲訓練元組或實例,也稱為基于實例的學習法。
在做分類或數值預測時,惰性學習法的計算開銷相當大,需要有效的存儲技術,并且非常適合在并行硬件上實現。它們不提供多少解釋或對數據結構的洞察。然后,惰性學習法天生地支持增量學習,它們也能對具有超多邊形形狀的復雜決策空間建模。
K-最近近鄰分類法搜索模式空間,找出最接近未知元組的k個訓練元組。未知元組被指派到它的k個最近鄰中的多數類。最近鄰分類法使用基于距離的比較,本質上賦予每個屬性相等的權重。因此,當數據存在噪聲或不相關屬性時,其準確率會受到影響。改進的方法中,結合屬性加權和噪聲數據元組的剪枝。距離度量的選擇也很重要。最近鄰分類法檢驗元組分類時會比較慢。加快分類速度的技術包括使用部分距離計算和編輯存儲的元組。部分距離方法基于n個屬性的子集計算距離。如果該距離超過閾值,則停止給定存儲元組的進一步計算,該過程轉向下一個存儲元組。編輯方法可以刪除被證明是無用的元組,也叫剪枝或精簡,大大減少了存儲元組的總數。
基于案例的推進(Case-Based?Reasoning,CBR)分類法使用一個存放問題解的數據庫來求解新問題。和最近鄰分類法把訓練元組作為歐氏空間的點存儲不同,CBR把問題解決方案的元組或案例作為復雜的符號描述存儲。
9.6?其他分類方法
1)遺傳算法:易于并行,用于分類和其他優化問題,在挖掘中也可用于評估其他算法的擬合度。
2)粗糙集方法:用于分類,發現不準確數據或噪聲數據內的結構聯系,用于離散值屬性。
3)模糊集方法:可能性理論,處理模糊或不精確的事實。
9.7?關于分類的其他問題
1)多類分類:一對所有OVA(one?versus?all),所有對所有AVA(all?versus?all),使用糾錯碼提高多類分類的準確性。
2)半監督分類:使用有類標號的數據和無類標號的數據構建分類器。自我訓練和協同訓練。
3)主動學習:一種迭代的監督學習,適合數據豐富但類標號稀缺或獲取昂貴的情況。有目的地向用戶(如專家、智者)詢問類標號。這種方法用于學習概念的元組數遠少于典型的監督學習所需要的數量。主動學習程序的目標是使用盡可能少的有標號實例來獲得高準確率。
4)遷移學習:旨在從一個或多個源任務提取知識,并將這種知識用于目標任務。
9.8?小結
1)貝葉斯信念網絡允許在變量子集之間定義類條件獨立性,提供了一種因果關系的圖形模型,在其上進行學習。訓練后的貝葉斯信念網絡可用來分類。
2)后向傳播是一種用于分類的使用梯度下降法的神經網絡算法。它搜索一組權重,對數據建模,使得數據元組的網絡類預測和實際類標號之間的平均平方距離最小。可以從訓練過的神經網絡提取規則,幫助改進學習網絡的可解釋性。
3)支持向量機SVM是一種用于線性和非線性數據的分類算法,把源數據變換到較高維空間,使用支持向量的基本元組,從中發現分離數據的超平面。
4)頻繁模式反映數據中屬性-值對或項之間的強關聯,可以用于基于頻繁模式的分類。方法包括關聯分類和基于有區別能力的頻繁模式分類。在關聯分類中,使用從頻繁莫歐式產生的關聯規則構建分類器。在基于有區別能力的頻繁模式分類中,在建立分類模型時,除考慮單個特征之外,頻繁模式充當組合特征。
5)急切學習方法都使用訓練原則構造一個泛化模型,從而為新元組的分類做好準備。惰性學習存儲訓練元組,等到檢驗原則出現才泛化。惰性學習需要有效的索引技術。
6)在遺傳算法中,規則總體通過交叉和變異操作進化,直到總體中所有的規則都滿足指定的閾值。粗糙集理論可以用來近似地定義類,這些類基于可用的屬性是不可區分的。模糊集方法用隸屬度函數替換連續值屬性的脆弱的閾值。
7)可以調整二元分類方法,如支持向量機,處理多類分類,涉及構造二元分類器的組合分類器,可以使用糾錯碼提高組合分類器的準確率。
8)當存在大量無標號的數據時,半監督學習是有用的。半監督學習使用有標號和無標號數據建立分類器。半監督分類的例子包括自我訓練和協同訓練。
9)主動學習是一種監督學習,適合數據豐富、但類標號稀缺或難以獲得的情況。學習算法可以主動地向用戶詢問類標號。為了保持低代價,主動學習的目標是使用盡可能少的有標號的實例來獲得高準確率。
10)遷移學習旨在從一個或多個源任務提取知識,并把這些知識運用于目標任務。TrAdaBoost是進行遷移學習的基于實例方法的一個例子,它對來自源任務的某些元組重新加權,并使用它們學習目標任務,因此只需要很少有標號的目標任務元組。
總結
以上是生活随笔為你收集整理的【数据挖掘笔记九】分类:高级方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘笔记八】分类:基本概念
- 下一篇: 【数据挖掘笔记十】聚类分析:基本概念和方