1. 如果不建立索引,那麼查詢都需要全表掃描;如果建立了索引,則數據庫會保存一個索引文件通常是特殊的結構比如B樹,這樣查詢起來不需要全表掃描,一下子能夠找到滿足要求的記錄。
2. 一般是對Where之後的條件建立索引,數據庫中的主鍵是已經建立了索引的。數據庫中可以建立多個索引。
3. 可以對不同類型的列建立索引。
對於Text類型等,可以使用MySQL的全文檢索功能建立全文索引。它利用了自然語言的方法去在文本中檢索關鍵詞。
舉個例子:如果使用=號的話可能需要使用like以及%等去匹配。而使用MySQL的全文檢索可以使用Match函數即可檢索出包含關鍵詞的列。
詳細情況參看MySQL參考手冊關於全文檢索的部分。
4.1使用索引
我們首先討論索引,因為它是加快查詢的最重要的工具。還有其他加快查詢的技術,但是最有效的莫過於恰當地使用索引了。在MySQL的郵件清單上,人們通常詢問關於使查詢更快的問題。在大量的案例中,都是因為表上沒有索引,一般只要加上索引就可以立即解決問題。但這樣也並非總是有效,因為優化並非總是那樣簡單。然而,如果不使用索引,在許多情形下,用其他手段改善性能只會是浪費時間。應該首先考慮使用索引取得最大的性能改善,然後再尋求其他可能有幫助的技術。
本節介紹索引是什麼、它怎樣改善查詢性能、索引在什麼情況下可能會降低性能,以及怎樣為表選擇索引。下一節,我們將討論MySQL的查詢優化程序。除了知道怎樣創建索引外,了解一些優化程序的知識也是有好處的,因為這樣可以更好地利用所創建的索引。某些編寫查詢的方法實際上會妨礙索引的效果,應該避免這種情況出現。(雖然並非總會這樣。有時也會希望忽略優化程序的作用。我們也將介紹這些情況。)
4.1.1索引的益處
讓我們從一個無索引的表著手來考察索引是怎樣起作用的。無索引的表就是一個無序的行集。例如,圖4 - 1給出了我們在第1章“MySQL與SQL 介紹” 中首先看到的ad 表。這個表上沒有索引,因此如果我們查找某個特定公司的行時,必須查看表中的每一行,看它是否與所需的值匹配。這是一個全表掃描,很慢,如果表中只有少數幾個記錄與搜索條件相匹配,則其效率是相當低的。
圖4 - 2給出了相同的表,但在表的company_num 列上增加了一個索引。此索引包含表中每行的一項,但此索引是在company_num 上排序的。現在,不需要逐行搜索全表查找匹配的條款,而是可以利用索引進行查找。假如我們要查找公司13的所有行,那麼可以掃描索引,結果得出3行。然後到達公司14的行,這是一個比我們正在查找的要大的號碼。索引值是排序的,因此在讀到包含14的記錄時,我們知道不會再有匹配的記錄,可以退出了。如果查找一個值,它在索引表中某個中間點以前不會出現,那麼也有找到其第一個匹配索引項的定位算法,而不用進行表的順序掃描(如二分查找法)。這樣,可以快速定位到第一個匹配的值,以節省大量搜索時間。數據庫利用了各種各樣的快速定位索引值的技術,這些技術是什麼並不重要,重要的是它們工作正常,索引技術是個好東西。
有人會問,為什麼不只對數據文件進行排序,省掉索引文件?這樣不也在搜索時產生相同的效果嗎?問得好,如果只有單個索引時,
是這樣的。不過有可能會用到第二個索引,但同時以兩種不同的方法對同一個數據文件進行排序是不可能的。(如,想要一個顧客名的索
引,同時又要一個顧客ID 號或電話號碼的索引。)將索引文件作為一個與數據文件獨立的實體就解決了這個問題,而且允許創建多個索
引。此外,索引中的行一般要比數據文件中的行短。在插入或刪除值時,為保持排序順序而移動較短的索引值與移動較長的數據行相比更
為容易。
這個例子與MySQL索引表的方法相符。表的數據行保存在數據文件中,而索引值保存在索引文件中。一個表上可有不止一個索引;如果確實有不止一個索引,它們都保存在同一個索引文件中。索引文件中的每個索引由排過序的用來快速訪問數據文件的鍵記錄數組構成。
前面的討論描述了單表查詢中索引的好處,其中使用索引消除了全表掃描,極大地加快了搜索的速度。在執行涉及多個表的連接查詢時,索引甚至會更有價值。在單個表的查詢中,每列需要查看的值的數目就是表中行的數目。而在多個表的查詢中,可能的組合數目極大,因為這個數目為各表中行數之積。
假如有三個未索引的表t 1、t 2、t 3,分別只包含列c 1、c 2、c 3,每個表分別由含有數值1到1000 的1000 行組成。查找對應值相等的表行組合的查詢如下所示:
SELECT c1,c2,c3
FROM t1,t2,t3
WHERE c1=c2 AND c1=c3
此查詢的結果應該為1000 行,每個組合包含3 個相等的值。如果我們在無索引的情況下處理此查詢,則不可能知道哪些行包含那些值。因此,必須尋找出所有組合以便得出與WHERE 子句相配的那些組合。可能的組合數目為10 0 0??0 0 0??0 0 0(十億),比匹配數目多一百萬倍。很多工作都浪費了,並且這個查詢將會非常慢,即使在如像MySQL這樣快的數據庫中執行也會很慢。而這還是每個表中只有1000 行的情形。如果每個表中有一百萬行時,將會怎樣?很顯然,這樣將會產生性能極為低下的結果。如果對每個表進行索引,就能極大地加速查詢進程,因為利用索引的查詢處理如下:
1) 如下從表t1中選擇第一行,查看此行所包含的值。
2) 使用表t2 上的索引,直接跳到t2 中與來自t1的值匹配的行。類似,利用表t3 上的索引,直接跳到t3 中與來自t1的值匹配的行。
3) 進到表t1的下一行並重復前面的過程直到t1中所有的行已經查過。在此情形下,我們仍然對表t1執行了一個完全掃描,但能夠在表t2 和t3 上進行索引查找直接取出這些表中的行。從道理上說,這時的查詢比未用索引時要快一百萬倍。如上所述,MySQL利用索引加速了WHERE 子句中與條件相配的行的搜索,或者說在執行連接時加快了與其他表中的行匹配的行的搜索。它也利用索引來改進其他操作的性能:
■ 在使用MIN( ) 和MAX( ) 函數時,能夠快速找到索引列的最小或最大值。
■ MySQL常常能夠利用索引來完成ORDER BY 子句的排序操作。
■ 有時,MySQL可避免對整個數據文件的讀取。假如從一個索引數值列中選擇值,而且不選擇表中其他列。這時,通過對索引值的讀取,就已經得到了讀取數據文件所要得到的值。沒有對相同的值進行兩次讀取的必要,因此,甚至無需涉及數據文件。
4.1.2 索引的弊端
一般情況下,如果MySQL能夠知道怎樣用索引來更快地處理查詢,它就會這樣做。這表示,在大多數情況下,如果您不對表進行索引,則損害的是您自己的利益。可以看出,作者描繪了索引的諸多好處。但有不利之處嗎?是的,有。實際上,這些缺點被優點所掩蓋了,
但應該對它們有所了解。
首先,索引文件要占磁盤空間。如果有大量的索引,索引文件可能會比數據文件更快地達到最大的文件尺寸。其次,索引文件加快了檢索,但增加了插入和刪除,以及更新索引列中的值的時間(即,降低了大多數涉及寫入的操作的時間),因為寫操作不僅涉及數據行,而且還常常涉及索引。一個表擁有的索引越多,則寫操作的平均性能下降就越大。在4 . 4節“有效地裝載數據”中,我們將更為詳細地介紹這些性能問題,並討論怎樣解決。
4.1.3 選擇索引
創建索引的語法已經在3 . 4 . 3節“創建和刪除索引”中進行了介紹。這裡,我們假定您已經閱讀過該節。但是知道語法並不能幫助確定表怎樣進行索引。要決定表怎樣進行索引需要考慮表的使用方式。本節介紹一些關於怎樣確定和挑選索引列的准則:
■ 搜索的索引列,不一定是所要選擇的列。換句話說,最適合索引的列是出現在WHERE 子句中的列,或連接子句中指定的列,而不是出現在SELECT 關鍵字後的選擇列表中的列:
當然,所選擇的列和用於WHERE 子句的列也可能是相同的。關鍵是,列出現在選擇列表中不是該列應該索引的標志。出現在連接子句中的列或出現在形如col1= col2 的表達式中的列是很適合索引的列。查詢中的col_b 和col_c 就是這樣的例子。如果MySQL能利用連接列來優化一個查詢,表示它通過消除全表掃描相當可觀地減少了表行的組合。
■ 使用惟一索引。考慮某列中值的分布。對於惟一值的列,索引的效果最好,而具有多個重復值的列,其索引效果最差。例如,存放年齡的列具有不同值,很容易區分各行。而用來記錄性別的列,只含有“ M”和“F”,則對此列進行索引沒有多大用處(不管搜索哪個值,都會得出大約一半的行)。
■ 使用短索引。如果對串列進行索引,應該指定一個前綴長度,只要有可能就應該這樣做。例如,如果有一個CHAR(200) 列,如果在前10 個或20 個字符內,多數值是惟一的,那麼就不要對整個列進行索引。對前10 個或20 個字符進行索引能夠節省大量索引空間,也可能會使查詢更快。較小的索引涉及的磁盤I/O 較少,較短的值比較起來更快。更為重要的是,對於較短的鍵值,索引高速緩存中的塊能容納更多的鍵值,因此,MySQL也可以在內存中容納更多的值。這增加了找到行而不用讀取索引中較多塊的可能性。(當然,應該利用一些常識。如僅用列值的第一個字符進行索引是不可能有多大好處的,因為這個索引中不會有許多不同的值。)
■ 利用最左前綴。在創建一個n 列的索引時,實際是創建了MySQL可利用的n 個索引。多列索引可起幾個索引的作用,因為可利用索引中最左邊的列集來匹配行。這樣的列集稱為最左前綴。(這與索引一個列的前綴不同,索引一個列的前綴是利用該的前n 個字符作為索引值。)
假如一個表在分別名為s t a t e、city 和zip 的三個列上有一個索引。索引中的行是按state/city/zip 的次序存放的,因此,索引中的行也會自動按state/city 的順序和state 的順序存放。這表示,即使在查詢中只指定state 值或只指定state 和city 的值,MySQL也可以利用索引。因此,此索引可用來搜索下列的列組合:
state,city,zip
state,city
sate
MySQL不能使用不涉及左前綴的搜索。例如,如果按city 或zip 進行搜索,則不能使用該索引。如果要搜索某個州以及某個zip 代碼(索引中的列1和列3),則此索引不能用於相應值的組合。但是,可利用索引來尋找與該州相符的行,以減少搜索范圍。