【Datawhale第25期组队学习】Task01:异常检测概念和方法
文章目錄
- 前言
- 一、異常檢測的基本概念
- 1.異常類別
- 2.任務(wù)分類&難點
- 二、異常檢測方法
- 1. 基于統(tǒng)計學(xué)的方法
- 2.線性模型
- 3.基于鄰近度的方法
- 4.集成方法
- 5.機器學(xué)習(xí)
前言
第一次寫學(xué)習(xí)筆記,因為作業(yè)堆積有些匆忙。
正文沒有全部照搬,只摘抄自己新get到的。
剛好下周該我分享論文了,所以想正好分享個跟異常檢測有關(guān)的論文,結(jié)果發(fā)現(xiàn)論文大都是cv方向或者金融里的fraud detection,結(jié)果搜了好長時間也沒找到滿意的,(自己能看懂,且頁數(shù)少的(狗頭))。好不容易找到個日志的異常檢測結(jié)果發(fā)現(xiàn)上上周學(xué)長剛講過一個。遂還是按著原先想法找了個Xgboost的相關(guān)的,不過發(fā)現(xiàn)雖然論文題目沒有anomaly detection但是里面寫了,耶斯莫拉,人生總是這么陰差陽錯,機緣巧合。
一、異常檢測的基本概念
所謂異常當然是少數(shù)啦,顧名思義,是識別與正常數(shù)據(jù)不同的數(shù)據(jù),與預(yù)期行為差異大的數(shù)據(jù)。
1.異常類別
點異常(point anomalies)指的是少數(shù)個體實例是異常的,大多數(shù)個體實例是正常的,例如正常人與病人的健康指標;
條件異常(conditional anomalies),又稱上下文異常,指的是在特定情境下個體實例是異常的,在其他情境下都是正常的,例如在特定時間下的溫度突然上升或下降,在特定場景中的快速信用卡交易;
條件異常確實是新get啦。
群體異常(group anomalies)指的是在群體集合中的個體實例出現(xiàn)異常的情況,而該個體實例自身可能不是異常,在入侵或欺詐檢測等應(yīng)用中,離群點對應(yīng)于多個數(shù)據(jù)點的序列,而不是單個數(shù)據(jù)點。例如社交網(wǎng)絡(luò)中虛假賬號形成的集合作為群體異常子集,但子集中的個體節(jié)點可能與真實賬號一樣正常。
2.任務(wù)分類&難點
有監(jiān)督:訓(xùn)練集的正例和反例均有標簽
無監(jiān)督:訓(xùn)練集無標簽
半監(jiān)督:在訓(xùn)練集中只有正例,異常實例不參與訓(xùn)練
1.數(shù)據(jù)量少異常檢測任務(wù)通常情況下負樣本(異常樣本)是比較少的,有時候依賴于人工標簽,屬于樣本不平衡問題。
2.噪音異常和噪音有時候很難分清,如下圖,圖a的A點位于數(shù)據(jù)的稀疏區(qū)域,與其他數(shù)據(jù)非常不同,因此可以斷定為異常,但是像圖b的A點,周圍有也有很多點分布,我們很難把A點識別出來。
二、異常檢測方法
1. 基于統(tǒng)計學(xué)的方法
在我這周分享的論文里有這樣一段話:
網(wǎng)絡(luò)入侵檢測根據(jù)使用的方法大致可以分為異常檢測和誤用檢測兩類。
異常檢測建立一個正常的網(wǎng)絡(luò)流量行為模型。不符合正常模型的行為被定義為入侵。這種檢測可以識別未知的攻擊。(基于統(tǒng)計學(xué)的方法:它們假定正常的數(shù)據(jù)對象由一個統(tǒng)計模型產(chǎn)生,而不遵守該模型
的數(shù)據(jù)是異常點。統(tǒng)計學(xué)方法的有效性高度依賴于對給定數(shù)據(jù)所做的統(tǒng)計模型假定是否成立。
)
而誤用檢測則是基于異常行為建立入侵模型。匹配此模型的行為被定義為入侵。
2.線性模型
PCA降維。
3.基于鄰近度的方法
代碼如下(示例):
4.集成方法
集成啊,我熟(狗頭)。
這次找的論文也是兩個融合在一起。
哈哈哈這里的孤立森林就是上次學(xué)長分享的論文里用的模型。
孤立森林:孤立森林假設(shè)我們用一個隨機超平面來切割數(shù)據(jù)空間,切一次可以生成兩個子空間。然后我們繼續(xù)用隨機超平面來切割每個子空間并循環(huán),直到每個子空間只有一個數(shù)據(jù)點為止。直觀上來講,那些具有高密度的簇需要被切很多次才會將其分離,而那些低密度的點很快就被單獨分配到一個子空間了。孤立森林認為這些很快被孤立的點就是異常點。
5.機器學(xué)習(xí)
在有標簽的情況下,可以使用樹模型(gbdt,xgboost等)進行分類,缺點是異常檢測場景下數(shù)據(jù)標簽是不均衡的,但是利用機器學(xué)習(xí)算法的好處是可以構(gòu)造不同特征。
(Xgboost愛了愛了)
數(shù)據(jù)挖掘異常檢測的算法:https://www.zhihu.com/answer/417091151
Xgboost講解:https://www.cnblogs.com/mantch/p/11164221.html
孤立森林講解:https://www.jianshu.com/p/d9fb673301a3
總結(jié)
以上是生活随笔為你收集整理的【Datawhale第25期组队学习】Task01:异常检测概念和方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: opencv保存视频文件很大
- 下一篇: 计算机设备管理cmd命令,打开设备管理器