程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> 一致性哈希算法以及其PHP實現詳細解析

一致性哈希算法以及其PHP實現詳細解析

編輯:關於PHP編程

在做服務器負載均衡時候可供選擇的負載均衡的算法有很多,包括:  輪循算法(Round Robin)、哈希算法(HASH)、最少連接算法(Least Connection)、響應速度算法(Response Time)、加權法(Weighted )等。其中哈希算法是最為常用的算法.

典型的應用場景是: 有N台服務器提供緩存服務,需要對服務器進行負載均衡,將請求平均分發到每台服務器上,每台機器負責1/N的服務。

常用的算法是對hash結果取余數 (hash() mod N):對機器編號從0到N-1,按照自定義的hash()算法,對每個請求的hash()值按N取模,得到余數i,然後將請求分發到編號為i的機器。但這樣的算法方法存在致命問題,如果某一台機器宕機,那麼應該落在該機器的請求就無法得到正確的處理,這時需要將當掉的服務器從算法從去除,此時候會有(N-1)/N的服務器的緩存數據需要重新進行計算;如果新增一台機器,會有N /(N+1)的服務器的緩存數據需要進行重新計算。對於系統而言,這通常是不可接受的顛簸(因為這意味著大量緩存的失效或者數據需要轉移)。那麼,如何設計一個負載均衡策略,使得受到影響的請求盡可能的少呢?

在Memcached、Key-Value Store、Bittorrent DHT、LVS中都采用了Consistent Hashing算法,可以說Consistent Hashing 是分布式系統負載均衡的首選算法。

1、Consistent Hashing算法描述

下面以Memcached中的Consisten Hashing算法為例說明。
由於hash算法結果一般為unsigned int型,因此對於hash函數的結果應該均勻分布在[0,232-1]間,如果我們把一個圓環用232 個點來進行均勻切割,首先按照hash(key)函數算出服務器(節點)的哈希值, 並將其分布到0~232的圓上。

用同樣的hash(key)函數求出需要存儲數據的鍵的哈希值,並映射到圓上。然後從數據映射到的位置開始順時針查找,將數據保存到找到的第一個服務器(節點)上。

 Consistent Hashing原理示意圖

新增一個節點的時候,只有在圓環上新增節點逆時針方向的第一個節點的數據會受到影響。刪除一個節點的時候,只有在圓環上原來刪除節點順時針方向的第一個節點的數據會受到影響,因此通過Consistent Hashing很好地解決了負載均衡中由於新增節點、刪除節點引起的hash值顛簸問題。

 Consistent Hashing添加服務器示意圖

虛擬節點(virtual nodes):之所以要引進虛擬節點是因為在服務器(節點)數較少的情況下(例如只有3台服務器),通過hash(key)算出節點的哈希值在圓環上並不是均勻分布的(稀疏的),仍然會出現各節點負載不均衡的問題。虛擬節點可以認為是實際節點的復制品(replicas),本質上與實際節點實際上是一樣的(key並不相同)。引入虛擬節點後,通過將每個實際的服務器(節點)數按照一定的比例(例如200倍)擴大後並計算其hash(key)值以均勻分布到圓環上。在進行負載均衡時候,落到虛擬節點的哈希值實際就落到了實際的節點上。由於所有的實際節點是按照相同的比例復制成虛擬節點的,因此解決了節點數較少的情況下哈希值在圓環上均勻分布的問題。

 

虛擬節點對Consistent Hashing結果的影響

從上圖可以看出,在節點數為10個的情況下,每個實際節點的虛擬節點數為實際節點的100-200倍的時候,結果還是很均衡的。

第3段中有這些文字:“但這樣的算法方法存在致命問題,如果某一台機器宕機,那麼應該落在該機器的請求就無法得到正確的處理,這時需要將當掉的服務器從算法從去除,此時候會有(N-1)/N的服務器的緩存數據需要重新進行計算;”

為何是 (N-1)/N 呢?解釋如下:

比如有 3 台機器,hash值 1-6 在這3台上的分布就是:
host 1: 1 4
host 2: 2 5
host 3: 3 6
如果掛掉一台,只剩兩台,模數取 2 ,那麼分布情況就變成:
host 1: 1 3 5
host 2: 2 4 6

可以看到,還在數據位置不變的只有2個: 1,2,位置發生改變的有4個,占共6個數據的比率是 4/6 = 2/3這樣的話,受影響的數據太多了,勢必太多的數據需要重新從 DB 加載到 cache 中,嚴重影響性能

【consistent hashing 的辦法】
上面提到的 hash 取模,模數取的比較小,一般是負載的數量,而 consistent hashing 的本質是將模數取的比較大,為 2的32次方減1,即一個最大的 32 位整數。然後,就可以從容的安排數據導向了,那個圖還是挺直觀的。
以下部分為一致性哈希算法的一種PHP實現。點擊下載

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved