【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
文章目錄
- I . 基于方格的聚類方法 簡介
- II . 基于方格的聚類方法 圖示
- III . STING 方法
- IV . CLIQUE 方法
I . 基于方格的聚類方法 簡介
1 . 基于方格的聚類方法 :
① 數據結構 劃分 : 將 多維數據 空間 , 劃分成一定數目的單元 ;
② 數據結構 操作 : 在上述 劃分好的 數據單元 數據結構 上 , 進行聚類操作 ;
2 . 基于方格聚類方法 優缺點 :
① 優點速度快 : 聚類速度很快 , 其聚類速度 與 數據集樣本個數無關 , 與劃分的單元個數有關 ;
② 缺點準確率低 : 聚類的準確率會大大降低 , 劃分的方格越大 , 準確率越低 , 但速度越快 ;
3 . 如 : 有 111 億數據 , 如果按照樣本數量進行聚類很慢 , 如果將其劃分成 100100100 個聚類 , 相當于劃分成了 100100100 個數據單元 , 其速度相當于 100100100 個樣本進行聚類 , 速度很快 ;
II . 基于方格的聚類方法 圖示
如下圖的二維空間 , 二維空間中分布著 100100100 個點 , 將其劃分成 999 個方格 , 然后對 999 個方格進行聚類 , 不再考慮對樣本進行聚類了 ;
999 個方格 , 將每個方格當做一個 樣本對象 , 進行聚類分組 ;
III . STING 方法
1 . STING 方法 簡介 :
① 全稱 : STING , Statistical Information Grid , 統計信息網格 , 是一種 多分辨率聚類技術 ;
② 劃分方格 : 將數據空間 劃分成矩形區域 ;
③ 劃分分辨率 : 不同層次的 矩形方格 劃分成的 數據單元 , 其分辨率不同 ;
④ 層次結構 : 這些 不同分辨率 的 數據單元 , 構成層次結構 , 如下示例 , 綠色的矩形 ( 數據單元 ) 中 , 包含紫色的 矩形 ( 數據單元 ) ;
2 . 單元統計 :
① 統計信息 : 每個單元 都有 數據統計信息 , 如 單元所有樣本的 平均值 , 最大值 , 最小值 , 數據分布 等數據 ;
② 預先計算 : 統計信息需要預先計算出來 , 供之后的聚類操作使用 ;
③ 聚類分組 : 根據每個 數據單元 的統計信息 , 為 數據單元 進行 聚類分組 ;
IV . CLIQUE 方法
1 . CLIQUE 方法 : 是 基于密度 和 基于方法 結合后的算法 ;
① 劃分 方格 : 將多維 數據集 樣本 , 在 多維數據空間 中 , 劃分成 互不相交 的矩形單元 , 這些單元之間互相不能覆蓋 ;
② 密集單元 : 如果 某個 數據單元 的樣本個數 大于 一個閾值 , 這個 數據單元 就是 密集單元 ;
③ 閾值 : 這個閾值一般是開始時 , 用戶輸入的參數 ;
④ 聚類 : 密集單元 相互連接 構成一個集合 , 就是一個聚類分組 ;
2 . CLIQUE 算法優點 :
① 性能高 : CLIQUE 算法可以 找出 具有 高密度 數據樣本 對象所在的數據單元 ,
② 擴展性好 : 這些數據的 輸入順序 , 數據的分布 , 不會影響最終的數據分布 ;
3 . CLIQUE 算法缺點 : 聚類的準確度較低 :
總結
以上是生活随笔為你收集整理的【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】基于层次的聚类方法 ( 聚合
- 下一篇: 【约束布局】ConstraintLayo