OA(part2)--Outlier Evaluation Techniques
學(xué)習(xí)筆記,僅供參考,有錯必糾
機(jī)翻,建議看英文原著
Outlier Evaluation Techniques
一個關(guān)鍵的問題是如何評估離群點檢測算法的有效性。不幸的是,這通常是一項困難的任務(wù),因為根據(jù)定義,異常值很少。這意味著將數(shù)據(jù)點標(biāo)記為異常值或非異常值通常是不可用的。對于無監(jiān)督算法來說尤其如此,因為如果基本事實確實可用,它可以用來創(chuàng)建更有效的有監(jiān)督算法。在無監(jiān)督的情況下(沒有基本事實),通常很難以嚴(yán)格的方式判斷底層算法的有效性。因此,許多研究文獻(xiàn)使用案例研究來提供對無監(jiān)督場景中潛在異常值的直觀定性評估。
在像數(shù)據(jù)聚類這樣的其他無監(jiān)督問題中,一種常見的方法是使用內(nèi)部有效性度量,其中使用“好”的模型來度量算法的有效性。例如,數(shù)據(jù)聚類中的一個常見的好的度量是聚類的均方半徑。這些措施的主要問題在于,它們僅僅提供了一個概念,即“善”的模型與學(xué)習(xí)的模型匹配得有多好。畢竟,在無監(jiān)督的問題中,沒有辦法知道善的“正確”模型;矛盾的是,如果我們知道這個正確的模型,那么我們應(yīng)該在算法中使用它,而不是用于評估。事實上,通過選擇一個與優(yōu)度模型相關(guān)的算法來博弈這樣的內(nèi)部有效性模型相對容易;這個問題在聚類領(lǐng)域是眾所周知的[33]。這也稱為內(nèi)部評價中的過擬合問題。在離群點檢測中,這個問題要嚴(yán)重得多,因為離群點標(biāo)簽中的少量變化會極大地影響性能。例如,與線性(例如,基于主成分分析)技術(shù)相比,基于距離的內(nèi)部測量更傾向于基于距離的算法。相反,內(nèi)部有效性的線性模型更傾向于基于主成分分析的技術(shù)?
總結(jié)
以上是生活随笔為你收集整理的OA(part2)--Outlier Evaluation Techniques的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 境界斩魂之刃碎蜂强度怎么样 碎蜂值得换吗
- 下一篇: 文献学习(part65)--稳健主成分聚