overfitting(过度拟合)的概念
來自:http://blog.csdn.net/fengzhe0411/article/details/7165549
最近幾天在看模式識(shí)別方面的資料,多次遇到“overfitting”這個(gè)概念,最終覺得以下解釋比較容易接受,就拿出來分享下。
?
overfittingt是這樣一種現(xiàn)象:一個(gè)假設(shè)在訓(xùn)練數(shù)據(jù)上能夠獲得比其他假設(shè)更好的擬合,但是在訓(xùn)練數(shù)據(jù)外的數(shù)據(jù)集上卻不能很好的擬合數(shù)據(jù)。此時(shí)我們就叫這個(gè)假設(shè)出現(xiàn)了overfitting的現(xiàn)象。出現(xiàn)這種現(xiàn)象的主要原因是訓(xùn)練數(shù)據(jù)中存在噪音或者訓(xùn)練數(shù)據(jù)太少。而解決overfit的方法主要有兩種:提前停止樹的增長(zhǎng)或者對(duì)已經(jīng)生成的樹按照一定的規(guī)則進(jìn)行后剪枝。
?
百度中關(guān)于overfitting的標(biāo)準(zhǔn)定義:給定一個(gè)假設(shè)空間H,一個(gè)假設(shè)h屬于H,如果存在其他的假設(shè)h’屬于H,使得在訓(xùn)練樣例上h的錯(cuò)誤率比h’小,但在整個(gè)實(shí)例分布上h’比h的錯(cuò)誤率小,那么就說假設(shè)h過度擬合訓(xùn)練數(shù)據(jù)。
?
..........................
以下概念由本人摘自《數(shù)據(jù)挖掘-概念與技術(shù)》
P186 過分?jǐn)M合 即在機(jī)器學(xué)習(xí)期間,它可能并入了訓(xùn)練數(shù)據(jù)中的某些特殊的異常點(diǎn),這些異常不在一般數(shù)據(jù)集中出現(xiàn)。
P212 由于規(guī)則可能過分?jǐn)M合這些數(shù)據(jù),因此這種評(píng)論是樂觀的。也就是說,規(guī)則可能在訓(xùn)練數(shù)據(jù)上行能很好,但是在以后的數(shù)據(jù)上九不那么好。
?
............................
補(bǔ)充c4.5算法中的介紹 這個(gè)通俗易懂
決策樹為什么要剪枝?原因就是避免決策樹“過擬合”樣本。前面的算法生成的決策樹非常的詳細(xì)而龐大,每個(gè)屬性都被詳細(xì)地加以考慮,決策樹的樹葉節(jié)點(diǎn)所覆蓋的訓(xùn)練樣本都是“純”的。因此用這個(gè)決策樹來對(duì)訓(xùn)練樣本進(jìn)行分類的話,你會(huì)發(fā)現(xiàn)對(duì)于訓(xùn)練樣本而言,這個(gè)樹表現(xiàn)堪稱完美,它可以100%完美正確得對(duì)訓(xùn)練樣本集中的樣本進(jìn)行分類(因?yàn)闆Q策樹本身就是100%完美擬合訓(xùn)練樣本的產(chǎn)物)。但是,這會(huì)帶來一個(gè)問題,如果訓(xùn)練樣本中包含了一些錯(cuò)誤,按照前面的算法,這些錯(cuò)誤也會(huì)100%一點(diǎn)不留得被決策樹學(xué)習(xí)了,這就是“過擬合”。C4.5的締造者昆蘭教授很早就發(fā)現(xiàn)了這個(gè)問題,他作過一個(gè)試驗(yàn),在某一個(gè)數(shù)據(jù)集中,過擬合的決策樹的錯(cuò)誤率比一個(gè)經(jīng)過簡(jiǎn)化了的決策樹的錯(cuò)誤率要高。那么現(xiàn)在的問題就來了,如何在原生的過擬合決策樹的基礎(chǔ)上,通過剪枝生成一個(gè)簡(jiǎn)化了的決策樹?
?
最近在看TLD中的2bitBP特征,其中一個(gè)就提到了2bitBP能夠防止過擬合的特點(diǎn),除此之外這種特征在跟蹤過程中還可以克服光照的影響,而且輸出只有4中編碼。屬于輕量級(jí)別的。
隨機(jī)森林的好處就是計(jì)算量很小,并且很精確。
轉(zhuǎn)載于:https://www.cnblogs.com/lxy2017/p/4037368.html
總結(jié)
以上是生活随笔為你收集整理的overfitting(过度拟合)的概念的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奔驰E级、宝马5系犯难!新款奥迪A6L今
- 下一篇: DCC是什么?境外刷卡的坑要了解!