下面為您介紹的Mysql分表處理是基於Hash算法的,在了解該MySQL分表處理方法之前,讓我們先來了解一下Hash算法。
我們知道Hash表就是通過某個特殊的Hash算法計算出的一個值,這個值必須是惟一的,並且能夠使用這個計算出來的值查找到需要的值,這個叫做哈希表。
我們在分表裡的hash算法跟這個思想類似:通過一個原始目標的ID或者名稱通過一定的hash算法計算出數據存儲表的表名,然後訪問相應的表。
繼續拿上面的貼吧來說,每個貼吧有版塊名稱和版塊ID,那麼這兩項值是固定的,並且是惟一的,那麼我們就可以考慮通過對這兩項值中的一項進行一些運算得出一個目標表的名稱。
現在假如我們針對我們這個貼吧系統,假設系統最大允許1億條數據,考慮每個表保存100萬條記錄,那麼整個系統就不超過100個表就能夠容納。按照這個標准,我們假設在貼吧的版塊ID上進行hash,獲得一個key值,這個值就是我們的表名,然後訪問相應的表。
我們構造一個簡單的hash算法:
function get_hash($id){
$str = bin2hex($id);
$hash = substr($str, 0, 4);
if (strlen($hash)<4){
$hash = str_pad($hash, 4, "0");
}
return $hash;
}
算法大致就是傳入一個版塊ID值,然後函數返回一個4位的字符串,如果字符串長度不夠,使用0進行補全。
比如:get_hash(1),輸出的結果是“3100”,輸入:get_hash(23819),得到的結果是:3233,那麼我們經過簡單的跟表前綴組合,就能夠訪問這個表了。那麼我們需要訪問ID為1的內容時候哦,組合的表將是:topic_3100、reply_3100,那麼就可以直接對目標表進行訪問了。
當然,使用hash算法後,有部分數據是可能在同一個表的,這一點跟hash表不同,hash表是盡量解決沖突,我們這裡不需要,當然同樣需要預測和分析表數據可能保存的表名。
如果需要存儲的數據更多,同樣的,可以對版塊的名字進行hash操作,比如也是上面的二進制轉換成十六進制,因為漢字比數字和字母要多很多,那麼重復幾率更小,但是可能組合成的表就更多了,相應就必須考慮一些其它的問題。
歸根結底,使用hash方式的話必須選擇一個好的hash算法,才能生成更多的表,然數據查詢的更迅速。