数据挖掘十大算法--K-均值聚类算法
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘十大算法--K-均值聚类算法
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一、相異度計(jì)算
在正式討論聚類前,我們要先弄清楚一個(gè)問(wèn)題:如何定量計(jì)算兩個(gè)可比較元素間的相異度。用通俗的話說(shuō),相異度就是兩個(gè)東西差別有多大,例如人類與章魚的相異度明顯大于人類與黑猩猩的相異度,這是能我們直觀感受到的。但是,計(jì)算機(jī)沒(méi)有這種直觀感受能力,我們必須對(duì)相異度在數(shù)學(xué)上進(jìn)行定量定義。
設(shè) ,其中X,Y是兩個(gè)元素項(xiàng),各自具有n個(gè)可度量特征屬性,那么X和Y的相異度定義為:
,其中R為實(shí)數(shù)域。也就是說(shuō)相異度是兩個(gè)元素對(duì)實(shí)數(shù)域的一個(gè)映射,所映射的實(shí)數(shù)定量表示兩個(gè)元素的相異度。
下面介紹不同類型變量
總結(jié)
以上是生活随笔為你收集整理的数据挖掘十大算法--K-均值聚类算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数据挖掘十大算法--Apriori算法
- 下一篇: K近邻算法基础:KD树的操作