【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )
文章目錄
- I . 核心距離 概念
- II . 核心距離值
- III . 核心距離 示例
- IV . 可達距離
- V . 可達距離 示例
- VI . 可達距離 總結(jié)
- VII . 族序 ( Cluster Ordering ) 概念
I . 核心距離 概念
1 . 核心距離概念引入 : 必須是核心對象 , 才有核心距離 ;
2 . 已知條件 :
① 數(shù)據(jù)集合 : 給定 數(shù)據(jù)集 DDD ;
② 參數(shù) : 給定兩個參數(shù) , ε\varepsilonε-鄰域半徑參數(shù) ε\varepsilonε , MinPts 參數(shù) ( ε\varepsilonε-鄰域中樣本個數(shù)最小閾值 ) ;
③ 數(shù)據(jù)樣對象 : 給定一個數(shù)據(jù)樣本 OOO ;
3 . 樣本 OOO 是核心對象 : 此類情況 核心距離有意義 , 如果是邊界對象無意義 ;
① 核心距離概念引入 : 如果該樣本對象 OOO 是核心對象 , 那么 OOO 對象的 核心距離 , 就是使樣本 OOO 能夠成為 核心對象 的 最小半徑值 ε\varepsilonε 參數(shù) ;
② 核心距離要求 ( 恰好核心的最小距離 ) : 是使得 OOO 能成為 核心對象 的 最小距離 , 不是 之前設(shè)定的 ε\varepsilonε 參數(shù) , 該核心距離小于等于 ε\varepsilonε 參數(shù) , 樣本 OOO 的 ε\varepsilonε-鄰域 內(nèi)可能有多于 MinPts 個樣本 , 但是我們只取其半徑范圍內(nèi) 恰好 有 MinPts 樣本的 半徑值 ε\varepsilonε 作為其核心距離 ;
③ 核心距離種類個數(shù) : 不同的樣本 , 核心距離可能不同 , 101010 個樣本 , 可能有 101010 個核心距離 ;
④ 樣本 OOO 是核心對象判定條件 : 以樣本 OOO 為中心點 , 再其 ε\varepsilonε 半徑區(qū)域范圍內(nèi) ( ε\varepsilonε-鄰域 ) , 樣本個數(shù)多于 MinPts 最小閾值 ;
4 . 樣本 OOO 不是核心對象 : 如果該樣本對象 OOO 不是核心對象 , 是 邊界對象 , 那么 該樣本的 核心距離 概念沒有意義 ;
II . 核心距離值
核心距離確定 :
① 樣本 OOO 是 邊界對象 : 核心距離 無窮大 ; 樣本 OOO 的 ε\varepsilonε-鄰域 的樣本個數(shù)小于 MinPts 個 ;
② 樣本 OOO 是 核心對象 : 核心距離 是保證 半徑范圍內(nèi)恰好有 MinPts 個樣本的最小半徑 , 一定要注意 , 就是 卡著第 MinPts 個樣本點的圓的半徑 , 從 OOO 核心對象到第 MinPts 個樣本的距離 / 半徑 ;
III . 核心距離 示例
1 . 已知條件 :
① ε\varepsilonε-鄰域 半徑參數(shù) : ε\varepsilonε ;
② MinPts 閾值參數(shù) : MinPts =5= 5=5 , ε\varepsilonε-鄰域中樣本個數(shù)最小閾值 , 達到該閾值 , 樣本才能算作核心對象 ;
③ 核心對象 : 紅色點是 核心對象 ;
④ ε\varepsilonε-鄰域 : 外層的圓 , 以核心對象 ( 紅色樣本 ) 為中心 , ε\varepsilonε 參數(shù)為半徑 , 的區(qū)域范圍 , 是 ε\varepsilonε-鄰域 ;
2 . 核心距離分析 :
① 核心距離要求 : 樣本的 核心距離 是保證 半徑范圍內(nèi)恰好有 MinPts 個樣本的最小半徑 ;
② ε\varepsilonε 半徑說明 : 這里 ε\varepsilonε 半徑內(nèi)有 111111 個樣本 , 這個 ε\varepsilonε 不是我們要的核心距離 ;
③ 本案例的核心距離 : 要恰好保證有 核心距離半徑范圍內(nèi) MinPts =5= 5=5 樣本 , 的最小半徑值 ;
④ 注意兩點 : 第一 , 恰好保證區(qū)域內(nèi)有 555 個樣本 ; 第二 , 最小半徑 ;
⑤ 核心距離確定 : 這兩個條件唯一確定了一個半徑值 ε′\varepsilon'ε′ ;
IV . 可達距離
1 . 可達距離概念引入 : 必須是核心對象 , 才有可達距離 ;
2 . 已知條件 :
① 數(shù)據(jù)集合 : 給定 數(shù)據(jù)集 DDD ;
② 參數(shù) : 給定兩個參數(shù) , ε\varepsilonε-鄰域半徑參數(shù) ε\varepsilonε , MinPts 參數(shù) ( ε\varepsilonε-鄰域中樣本個數(shù)最小閾值 ) ;
③ 數(shù)據(jù)樣對象 : 給定一個數(shù)據(jù)樣本 OOO ;
3 . 樣本 OOO 是核心對象 : 此類情況 可達距離有意義 , 如果是邊界對象 可達距離 無意義 ;
4 . 可達距離概念 :
① 前提 : 樣本 OOO 必須是核心對象 ;
② 核心距離 : 樣本 OOO 的核心距離 ;
③ 歐幾里得距離 : OOO 和 ppp 之間的 歐幾里得距離 , 這里與 曼哈頓距離 對照 ;
④ 可達距離 : 樣本 OOO 與樣本 ppp 之間的可達距離是 , 核心距離 與 歐幾里得距離 的 較大的值 ;
V . 可達距離 示例
1 . 已知條件 :
① ε\varepsilonε-鄰域 半徑參數(shù) : ε\varepsilonε ;
② MinPts 閾值參數(shù) : MinPts =5= 5=5 , ε\varepsilonε-鄰域中樣本個數(shù)最小閾值 , 達到該閾值 , 樣本才能算作核心對象 ;
③ 樣本 OOO : 是核心對象 , 中心的紅點 ;
④ ε\varepsilonε-鄰域 : 外層的圓 , 以核心對象 ( 紅色樣本 ) 為中心 , ε\varepsilonε 參數(shù)為半徑 , 的區(qū)域范圍 , 是 ε\varepsilonε-鄰域 ;
⑤ 樣本 p1p_1p1? : 在 樣本 OOO 核心距離范圍內(nèi) ;
⑥ 樣本 p2p_2p2? : 在樣本 OOO 核心距離范圍外 , 在 ε\varepsilonε 半徑之內(nèi) ;
2 . 可達距離 :
① 樣本 OOO 與 樣本 p1p_1p1? 的可達距離 : 在 核心距離 ε′\varepsilon'ε′ 與 OOO 與 p1p_1p1? 歐幾里得距離 選較大的那個 , 選擇 核心距離 ;
② 樣本 OOO 與 樣本 p2p_2p2? 的可達距離 : 在 核心距離 ε′\varepsilon'ε′ 與 OOO 與 p2p_2p2? 歐幾里得距離 選較大的那個 , 選擇 歐幾里得距離 ;
VI . 可達距離 總結(jié)
可達距離總結(jié) :
① 核心距離內(nèi) : 樣本 OOO 與其核心距離內(nèi)的樣本的可達距離 都是 核心距離 值 ;
② 核心距離外 ( ε\varepsilonε-鄰域內(nèi) ) : 樣本 OOO 與其核心距離外的樣本的可達距離 都是 樣本 OOO 與其它樣本的 歐幾里得距離 ;
VII . 族序 ( Cluster Ordering ) 概念
1 . 族序 ( Cluster Ordering ) 概念 :
① 多層次同時聚類 : 不同層次的聚類分組 , 可以同時進行構(gòu)建 ;
② 順序處理樣本 : 處理數(shù)據(jù)集樣本對象時 , 使用特定的順序進行處理 ;
③ 順序擴展 : 數(shù)據(jù)集樣本對外擴展時 , 按照該順序進行擴展 ,
④ 族序概念 : 該特定順序就是 族序 ( Cluster Ordering ) ;
2 . 聚類順序 : 從 低層 到 高層 ; 從 稠密 到 稀疏 ;
聚類時 , 低層 的聚類分組 要首先構(gòu)建完成 , 也就是 ε\varepsilonε 參數(shù) 較小的聚類分組 ;
3 . 密度可達的兩種情況情況 : 兩個樣本 密度可達 , 有兩種情況 :
① ε\varepsilonε 參數(shù)小 : 一種情況是 ε\varepsilonε 參數(shù) 較小的時候 , 這兩個樣本就可以密度可達 ;
② ε\varepsilonε 參數(shù)大 : 另一種情況是 ε\varepsilonε 參數(shù) 取值很大時 , 才可以密度可達 ;
4 . 擴展樣本優(yōu)先級 : 擴展樣本對象時 , 優(yōu)先選擇第一種情況 , ε\varepsilonε 參數(shù) 較小的時候 就可以密度可達的樣本 ;
5 . 每個樣本對象需要存儲兩個值 : 核心距離 與 可達距離 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】基于密度的聚类方法 - OPTICS 方法 ( 核心距离 | 可达距离 | 族序 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】基于密度的聚类方法 - DB
- 下一篇: 【数据挖掘】基于层次的聚类方法 ( 聚合