一致性 Hash 算法学习(分布式或均衡算法)
簡介:
一致性哈希算法在1997年由麻省理工學院提出的一種分布式哈希(DHT)實現算法,設計目標是為了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似。一致性哈希修正了CARP使用的簡單哈希算法帶來的問題,使得分布式哈希(DHT)可以在P2P環境中真正得到應用。
場景引入:
比如你有 N 個 cache 服務器(后面簡稱 cache ),那么如何將一個對象 object 映射到 N 個 cache 上呢,你很可能會采用類似下面的通用方法計算 object 的 hash 值,然后均勻的映射到到 N 個 cache :
hash(object)%N上面取模的方法一般稱為簡單 hash 算法 。通過簡單 hash 算法確實能夠比較均勻地實現分布式布置(映射),但是我們來考慮下面兩種情形:
1) 某個 cache 服務器 m down 掉了(在實際應用中必須要考慮這種情況),這樣所有映射到 cache m 的對象都會失效,怎么辦,需要把 cache m 從 cache 中移除,這時候 cache 是 N-1 臺,映射公式變成了 hash(object)%(N-1) ;
2) 由于訪問加重,需要添加 cache ,這時候 cache 是 N+1 臺,映射公式變成了 hash(object)%(N+1) ;
1) 和 2) 意味著什么?這意味著無論是添加或移除 cache 服務器,突然之間幾乎所有的 cache 都失效了。對于服務器而言,這是一場災難,洪水般的訪問都會直接沖向后臺服務器;
為了解決上面的問題,我們引入一致性 Hash 算法(consistent hashing)。
hash 算法和單調性
Hash 算法的一個衡量指標是單調性( Monotonicity ),定義如下:
單調性是指如果已經有一些內容通過哈希分派到了相應的緩沖中,又有新的緩沖加入到系統中。哈希的結果應能夠保證原有已分配的內容可以被映射到新的緩沖中去,而不會被映射到舊的緩沖集合中的其他緩沖區。
簡單的說,單調性要求在移除 / 添加一個 cache(機器,ip)時,它能夠盡可能小的改變已存在 key 映射關系。
容易看到,上面的簡單 hash 算法 hash(object)%N 難以滿足單調性要求。因為 N 的變化會使取模結果發生變化。
一致性 Hash 算法原理:
一致性 Hash 算法簡單的說,在移除 / 添加一個 cache 時,它能夠盡可能小的改變已存在 key 映射關系,盡可能的滿足單調性的要求。
下面就來按照 6 個步驟簡單講講一致性 Hash 算法的基本原理。
步驟一:環形 hash 空間
考慮通常的 hash 算法都是將 value 映射到一個 32 位的 key 值(然后取模),也即是 0~2^32-1 次方的數值空間;我們可以將這個空間想象成一個首( 0 )尾( 2^32-1 )相接的圓環。如下圖所示:
步驟二:把對象處理成整數并映射到環形 hash 空間
例如現在我們有四個對象 object1~object4,通過 hash 函數將四個對象處理成整數 key:
key1 = hash(object1);?
key2 = hash(object2);?
key3 = hash(object3);?
key4 = hash(object4);
然后將這些對象按照 key 的值映射到環形 hash 空間上:
步驟三:把 cache 映射到環形 hash 空間
一致性 Hash 算法的基本思想就是將對象和 cache 都映射到同一個 hash 數值空間中,并且使用相同的 hash 算法。
假設現在有三臺 cache 服務器:cacheA、cacheB、cacheC,通過 hash 函數處理獲取對應的key值:
keyA = hash(cacheA);?
keyB = hash(cacheB);?
keyC = hash(cacheC);
將三個 cache 服務器按照 key 的值映射到環形 hash 空間上:
說到這里,順便提一下 cache 的 hash 計算,一般的方法可以使用 cache 機器的 IP 地址或者機器名作為 hash 輸入。
經過上面的步驟,我們把對象和cache 服務器都映射到同一個環形 hash 空間上。下面考慮的是如何將對象映射到 cache 服務器上。
步驟四:將對象映射到 cache 服務器
我們沿著圓環順時針方向的對象 key (圖中的 key1)出發,直到遇到一個cache服務器為止(cacheB),把對象key對應的對象映射到這個服務器上。因為對象和 cache 的 hash 值是固定的,因此這個 cache 必然是唯一和確定的。按照這樣的方法,可以得出:對象 object 1 映射到 cacheB,object2、object3 映射到 cacheC,object4 映射到 cacheA。如圖:
前面講過,普通 hash 算法(通過 hash 然后求余的方法)帶來的最大問題就在于不能滿足單調性,當 cache 數量有所變動時(添加/移除), 幾乎所有的 cache 會失效,進而對后臺服務器造成巨大的沖擊,接下來分析一致 hash 算法。
步驟五:添加 cache 服務器
現在假如訪問加重,需要增加 cacheD 服務器,經過 hash 函數計算(keyD = hash(cacheD))發現數值介于 key3 和 key2 之間,即在圓環上的位置也是介于它們之間。這時候受到影響的是沿著 KeyD 逆時針出發直到遇到下一個 cache 服務器(keyB)之間的對象(這些對象原本是映射到 cacheC 上的),將這些對象重新映射到 cacheD 即可。
在我們的例子中僅僅是 object2(key2)需要變動,將其重新映射到 cacheD 即可:
步驟六:移除 cache 服務器
還是按照原來的圖(步驟五之前)分析,假如現在 cacheB 服務器 down 掉了,需要把 cacheB 服務器移除,這時候受到影響的僅是那些沿著 keyB 逆時針出發知道遇到下一個服務器(cacheA)之間的對象,也就是本來映射到 cacheB 上的那些對象。
我們的例子中僅僅是 object1(key1)需要變動,將其重新映射到 cacheC 即可:
平衡性與虛擬節點:
考量 Hash 算法的另一個指標是平衡性 (Balance) ,定義如下:
平衡性
平衡性是指哈希的結果能夠盡可能分布到所有的緩沖中去,這樣可以使得所有的緩沖空間都得到利用。
hash 算法并不是保證絕對的平衡,如果 cache 較少的話,對象并不能被均勻的映射到 cache 上,比如在上面的例子中,僅部署 cache A 和 cache C 的情況下,在 4 個對象中, cache A 僅存儲了 object1 ,而 cache C 則存儲了 object2 、 object3 和 object4 ;分布是很不均衡的。
為了解決這種情況, 一致性 Hash 算法引入了“虛擬節點”的概念,它可以如下定義:
虛擬節點
“虛擬節點”( virtual node )是實際節點在 hash 空間的復制品( replica ),一實際個節點對應了若干個“虛擬節點”,這個對應個數也成為“復制個數”,“虛擬節點”在 hash 空間中以 hash 值排列。
仍以僅部署 cache A 和 cache C 的情況為例,在移除 cacheB 服務器圖中我們已經看到, cache 分布并不均勻。現在我們引入虛擬節點,并設置“復制個數”為 2 ,這就意味著一共會存在 4 個“虛擬節點”, cache A1, cache A2 代表了 cache A ; cache C1, cache C2 代表了 cache C ;假設一種比較理想的情況,如圖:
此時,對象到“虛擬節點”的映射關系為:
objec1->cache C2 ; objec2->cache A1 ; objec3->cache C1 ; objec4->cache A2 ;
因此對象 object4 和 object2 都被映射到了 cache A 上,而 object3 和 object1 映射到了 cache C 上;平衡性有了很大提高。
引入“虛擬節點”后,映射關系就從 { 對象 -> 節點 } 轉換到了 { 對象 -> 虛擬節點 } 。查詢物體所在 cache 時的映射關系如圖所示。
“虛擬節點”的 hash 計算可以采用對應節點的 IP 地址加數字后綴的方式。例如假設 cache A 的 IP 地址為 202.168.14.241 。
引入“虛擬節點”前,計算 cache A 的 hash 值:
Hash(“202.168.14.241”);
引入“虛擬節點”后,計算“虛擬節”點 cache A1 和 cache A2 的 hash 值:
Hash(“202.168.14.241#1”); // cache A1
Hash(“202.168.14.241#2”); // cache A2
一個PHP的例子:
<?php class FlexiHash{private $serverList = array(); //服務器列表private $isSorted = false; //服務器列表是否已經排過序//hash函數function mhash($key){$md5 = substr(md5($key)0,8);$seed = 31;$hash = 0;for($i = 0;$i < 8;$i ++){$hash = $hash * $seed + ord($md5{$i});}return $hash & 0x7FFFFFFF;}//添加服務器function addServer($server){$hash = $this->mhash($server);if(!isset($this->serverList[$hash])){$this->serverList[$hash] = $server;}$this->isSorted = false;return true;}//移除服務器function removeServer($server){$hash = $this->mhash($server);if(isset($this->serverList[$hash])){unset($this->serverList[$hash]);}$this->isSorted = false;return true;}//查找映射服務器(算法實現函數)function lookup($key){$hash = $this->mhash($key);if(!$this->isSorted){krsort($this->serverList,SORT_NUMERIC);$this->isSorted = true;}foreach($this->serverList as $pos => $server){if($hash >= $pos){return $server;}}return reset($this->serverList); //返回第一個元素} }上面僅是一個簡單的實現一致性 Hash 算法的例子,并沒有考慮虛擬節點,有興趣的同學可以試試。
本篇博客參考自http://blog.csdn.net/sparkliang/article/details/5279393和書本《PHP核心技術與最佳算法》
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的一致性 Hash 算法学习(分布式或均衡算法)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php 二维数组去重
- 下一篇: nginx.conf文件配置后访问边下载