什麼是數據庫分表技術 一、概述 分表是個目前算是比較炒的比較流行的概念,特別是在大負載的情況下,分表是一個良好分散數據庫壓力的好方法。 首先要了解為什麼要分表,分表的好處是什麼。我們先來大概了解以下一個數據庫執行SQL的過程: 接收到SQL --> 放入SQL執行隊列 --> 使用分析器分解SQL --> 按照分析結果進行數據的提取或者修改 --> 返回處理結果 當 然,這個流程圖不一定正確,這只是我自己主觀意識上這麼我認為。那麼這個處理過程當中,最容易出現問題的是什麼?就是說,如果前一個SQL沒有執行完畢的 話,後面的SQL是不會執行的,因為為了保證數據的完整性,必須對數據表文件進行鎖定,包括共享鎖和獨享鎖兩種鎖定。共享鎖是在鎖定的期間,其它線程也可 以訪問這個數據文件,但是不允許修改操作,相應的,獨享鎖就是整個文件就是歸一個線程所有,其它線程無法訪問這個數據文件。一般MySQL中最快的存儲引 擎MyISAM,它是基於表鎖定的,就是說如果一鎖定的話,那麼整個數據文件外部都無法訪問,必須等前一個操作完成後,才能接收下一個操作,那麼在這個前 一個操作沒有執行完成,後一個操作等待在隊列裡無法執行的情況叫做阻塞,一般我們通俗意義上叫做“鎖表”。 鎖表直接導致的後果是什麼?就是大量的SQL無法立即執行,必須等隊列前面的SQL全部執行完畢才能繼續執行。這個無法執行的SQL就會導致沒有結果,或者延遲嚴重,影響用戶體驗。 特別是對於一些使用比較頻繁的表,比如SNS系統中的用戶信息表、論壇系統中的帖子表等等,都是訪問量大很大的表,為了保證數據的快速提取返回給用戶,必須使用一些處理方式來解決這個問題,這個就是我今天要聊到的分表技術。 分 表技術顧名思義,就是把若干個存儲相同類型數據的表分成幾個表分表存儲,在提取數據的時候,不同的用戶訪問不同的表,互不沖突,減少鎖表的幾率。比如,目 前保存用戶分表有兩個表,一個是user_1表,還有一個是 user_2 表,兩個表保存了不同的用戶信息,user_1 保存了前10萬的用戶信息,user_2保存了後10萬名用戶的信息,現在如果同時查詢用戶 heiyeluren1 和 heiyeluren2 這個兩個用戶,那麼就是分表從不同的表提取出來,減少鎖表的可能。 我下面要講述的兩種分表方法我自己都沒有實驗過,不保證准確能用,只是提供一個設計思路。下面關於分表的例子我假設是在一個貼吧系統的基礎上來進行處理和構建的。(如果沒有用過貼吧的用戶趕緊Google一下) 二、基於基礎表的分表處理 這 個基於基礎表的分表處理方式大致的思想就是:一個主要表,保存了所有的基本信息,如果某個項目需要找到它所存儲的表,那麼必須從這個基礎表中查找出對應的 表名等項目,好直接訪問這個表。如果覺得這個基礎表速度不夠快,可以完全把整個基礎表保存在緩存或者內存中,方便有效的查詢。 我們基於貼吧的情況,構建假設如下的3張表: 1. 貼吧版塊表: 保存貼吧中版塊的信息 2. 貼吧主題表:保存貼吧中版塊中的主題信息,用於浏覽 3. 貼吧回復表:保存主題的原始內容和回復內容 “貼吧版塊表”包含如下字段:
版塊ID board_id int(10) 版塊名稱 board_name char(50) 子表ID table_id smallint(5) 產生時間 created datetime “貼吧主題表”包含如下字段: 主題ID topic_id int(10) 主題名稱 topic_name char(255) 版塊ID board_id int(10) 創建時間 created datetime “貼吧回復表”的字段如下: 回復ID reply_id int(10) 回復內容 reply_text text 主題 ID topic_id int(10) 版塊ID board_id int(10) 創建時間 created datetime
那麼上面保存了我們整個貼吧中的表結構信息,三個表對應的關系是: 版塊 --> 多個主題 主題 --> 多個回復 那麼就是說,表文件大小的關系是: 版塊表文件 < 主題表文件 < 回復表文件 所以基本可以確定需要對主題表和回復表進行分表,已增加我們數據檢索查詢更改時候的速度和性能。 看了上面的表結構,會明顯發現,在“版塊表”中保存了一個"table_id"字段,這個字段就是用於保存一個版塊對應的主題和回復都是分表保存在什麼表裡的。 比如我們有一個叫做“PHP”的貼吧,board_id是1,子表ID也是1,那麼這條記錄就是: board_id | board_name | table_id | created 1 | PHP | 1 | 2007-01-19 00:30:12 相應的,如果我需要提取“PHP”吧裡的所有主題,那麼就必須按照表裡保存的table_id來組合一個存儲了主題的表名稱,比如我們主題表的前綴是 “topic_”,那麼組合出來“PHP”吧對應的主題表應該是:“topic_1”,那麼我們執行: 基於Hash算法的分表處理 我們知道Hash表就是通過某個特殊的Hash算法計算出的一個值,這個值必須是惟一的,並且能夠使用這個計算出來的值查找到需要的值,這個叫做哈希表。 我們在分表裡的hash算法跟這個思想類似:通過一個原始目標的ID或者名稱通過一定的hash算法計算出數據存儲表的表名,然後訪問相應的表。 繼續拿上面的貼吧來說,每個貼吧有版塊名稱和版塊ID,那麼這兩項值是固定的,並且是惟一的,那麼我們就可以考慮通過對這兩項值中的一項進行一些運算得出一個目標表的名稱。 現在假如我們針對我們這個貼吧系統,假設系統最大允許1億條數據,考慮每個表保存100萬條記錄,那麼整個系統就不超過100個表就能夠容納。按照這個標准,我們假設在貼吧的版塊ID上進行hash,獲得一個key值,這個值就是我們的表名,然後訪問相應的表。 我們構造一個簡單的hash算法:
function get_hash($id){ $str = bin2hex($id); $hash = substr($str, 0, 4); if (strlen($hash)<4){ $hash = str_pad($hash, 4, "0"); } return $hash; }
算法大致就是傳入一個版塊ID值,然後函數返回一個4位的字符串,如果字符串長度不夠,使用0進行補全。 比 如:get_hash(1),輸出的結果是“3100”,輸入:get_hash(23819),得到的結果是:3233,那麼我們經過簡單的跟表前綴組 合,就能夠訪問這個表了。那麼我們需要訪問ID為1的內容時候哦,組合的表將是:topic_3100、reply_3100,那麼就可以直接對目標表進 行訪問了。 當然,使用hash算法後,有部分數據是可能在同一個表的,這一點跟hash表不同,hash表是盡量解決沖突,我們這裡不需要,當然同樣需要預測和分析表數據可能保存的表名。 如果需要存儲的數據更多,同樣的,可以對版塊的名字進行hash操作,比如也是上面的二進制轉換成十六進制,因為漢字比數字和字母要多很多,那麼重復幾率更小,但是可能組合成的表就更多了,相應就必須考慮一些其它的問題。 歸根結底,使用hash 方式的話必須選擇一個好的hash算法,才能生成更多的表,然數據查詢的更迅速。 【優點hash算法直接得出目標表名稱,效率很高】通過 【劣勢】擴展性比較差,選擇了一個hash算法,定義了多少數據量,以後只能在這個數據量上跑,不能超過過這個數據量,可擴展性稍差 四、其它問題 1. 搜索問題 現在我們已經進行分表了,那麼就無法直接對表進行搜索,因為你無法對可能系統中已經存在的幾十或者幾百個表進行檢索,所以搜索必須借助第三方的組件來進行,比如Lucene作為站內搜索引擎是個不錯的選擇。 2. 表文件問題 我 們知道MySQL的MyISAM引擎每個表都會生成三個文件,*.frm、*.MYD、*.MYI 三個文件,分表用來保存表結構、表數據和表索引。Linux下面每個目錄下的文件數量最好不要超過1000個,不然檢索數據將更慢,那麼每個表都會生成三 個文件,相應的如果分表超過300個表,那麼將檢索非常慢,所以這時候就必須再進行分,比如在進行數據庫的分離。 使用基礎表,我們可以新增加一個字段,用來保存這個表保存在什麼數據。使用Hash的方式,我們必須截取hash值中第幾位來作為數據庫的名字。這樣,完好的解決這個問題。