多元高斯分布(Multivariate Gaussian Distribution)
from:https://www.jianshu.com/p/d6c8ca915f69
還是對(duì)計(jì)算機(jī)的監(jiān)測(cè),我們發(fā)現(xiàn)CPU負(fù)載和占用內(nèi)存之間,存在正相關(guān)關(guān)系。
CPU負(fù)負(fù)載增加的時(shí)候占用內(nèi)存也會(huì)增加:
假如我們有一個(gè)數(shù)據(jù),x1的值是在 0.4 和 0.6 之間,x2的值是在 1.6 和 1.8 之間,就是下圖中的綠點(diǎn):
它明顯偏離了正常的范圍,所以是一個(gè)異常的數(shù)據(jù)。
但如果單獨(dú)從CPU負(fù)載和占用內(nèi)存的角度來看,該數(shù)據(jù)卻是混雜正常數(shù)據(jù)之中,處于正常的范圍:
這個(gè)異常的數(shù)據(jù)會(huì)被認(rèn)為是正常的,因?yàn)槲覀兊玫侥P偷妮喞獔D是這樣的:
為了改良這樣的情況,我們需要把特征之間的相關(guān)性考慮進(jìn)來。
第一種方式我們?cè)谏弦黄P記中有提到,就是增加一個(gè)新的特征 x3,把兩者的相關(guān)性考慮進(jìn)去:
?
另一種方式:多元高斯分布(Multivariate Gaussian Distribution),自動(dòng)捕捉特征之間的相關(guān)性,公式如下:
?
其中 μ 為特征的均值,是一個(gè) n*1 的向量:
?
Σ 為 特征的協(xié)方差,是一個(gè) n*n 的矩陣:
?
假設(shè)我們的均值與協(xié)方差的初始值和對(duì)應(yīng)的三維圖形與輪廓圖如下:
?
μ 決定的是中心的位置,改變 μ 的值意味著中心的移動(dòng):
?
協(xié)方差矩陣控制的是對(duì)概率密度的敏感度。
例如某個(gè)方向的協(xié)方差越小,那么隨著在該方向上的水平位移,高度的變化就越大。
首先我們看看各個(gè)特征不相關(guān)(正交)的情況:
?
?
?
我們?cè)倏匆幌驴紤]特征相關(guān)性的情況,下面兩個(gè)圖片分別到正相關(guān)和負(fù)相關(guān)的變化:
?
?
你看之前的模型 p(x) 會(huì)把異常數(shù)據(jù)認(rèn)定為正常,而到了多元高斯分布的模型中,就得到了很好的解決:
?
之前的模型:
?
?
其實(shí)是多元高斯分布的一種特例,就是協(xié)方差矩陣 Σ 為對(duì)角矩陣的情況:
?
進(jìn)行一個(gè)簡單的推演你就明白了。
假設(shè)我們只有兩個(gè)特征:
?
那么均值和協(xié)方差矩陣分別是:
?
把它們代入到多元高斯分布的公式中,可以推演得到:
?
二元高斯分布的密度函數(shù),其實(shí)就是兩個(gè)獨(dú)立的高斯分部密度的乘積,特征更多的情況也是類似的。
需要注意的是,這里的推導(dǎo)不是證明的過程,僅僅是為了讓你更好地理解兩者的關(guān)系。
我們知道有這么兩種方式可以處理特征之間的相關(guān)關(guān)系,那么應(yīng)該如何選擇呢?
這個(gè)需要根據(jù)具體的現(xiàn)實(shí)條件進(jìn)行選擇。
下表是兩者的對(duì)比:
?
轉(zhuǎn)載于:https://www.cnblogs.com/newbyang/p/10338697.html
總結(jié)
以上是生活随笔為你收集整理的多元高斯分布(Multivariate Gaussian Distribution)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: InputStream 转 String
- 下一篇: [Swift]LeetCode463.