程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> SQL SERVER教程：查詢性能調優和索引優化那些事

SQL SERVER教程：查詢性能調優和索引優化那些事

編輯：關於SqlServer

來點廢話，最近裸辭，投了一批簡歷，陸陸續續接到很多面試電話，說來也巧，剛回北京，昨天去面試了第一家，跟研發經理聊了十幾分鐘，就把工作落實下來了，實在是出乎我所料，實在感激他的知遇之恩。於是我就琢磨著下邊的一篇關於數據庫查詢性能調優的筆記，有問題請大家一起指正。

查詢性能調優是個很大的話題，這裡邊涉及到的技術非常廣泛，但是我們一般可以把它大致分為以下幾個層次：

1.減少數據訪問。相關的技術就是建立合適的索引，將全表掃描、索引掃描（scan）等耗時的操作轉化為索引查找（seek）。建立正確的索引，能讓數據庫查詢性能提升100-1000倍甚至更高，就好比一本非常厚的詞典，如果沒有任何索引，你要查一個東西，那可是相當費盡，需要整本書查一遍，有索引就可以直接根據索引定位了。這是最重要的改善性能的途徑。

2.減少返回的數據。在網絡中傳輸數據，帶寬是有限的，如果能按需提取最少量的數據，會起到不錯的作用。這裡需要注意的是，在SQL中，不要出現select *，而是需要什麼字段，就提取什麼字段。

3.減少與數據庫交互次數。網絡資源有限，顯然，頻繁與數據庫交互，也是制約性能的一個因素。一個良好的建議就是，使用存儲過程，或者批處理語句，這樣能減少與數據庫的交互，提升一部分性能。

4.減少CPU的負荷。這裡，主要是使用緩存計劃。在查詢中，盡量使用參數化的查詢。這樣的話，數據庫會對查詢參數進行緩存，從而復用查詢計劃。

5.提升硬件性能。這是最後一招了，如果其他方面都已經做得非常不錯了，性能瓶頸在CPU，內存和磁盤上，那采取提升硬件性能的方案就會顯得比較合適了，否則還是先去優化其他的地方吧。

以上5個層次的優化帶來的性能改善，是依次下降的，是一個倒置的金字塔。

下邊詳細討論一下索引的那些事。

百度百科上對索引的描述是：“數據庫索引是對數據庫表中一列或多列的值進行排序的一種結構，使用索引可快速訪問數據庫表中的特定信息。”

索引，分為聚集索引（clustered index)和非聚集索引（nonclustered index）兩種。

a.聚集索引

含有聚集索引的表，叫做聚集表，它的數據行的組織方式，是跟聚集索引的順序是一致的。聚集索引覆蓋的列，叫做聚集鍵。

用新華字典來比喻的話，正文的每一個字就是一個數據行，他們的組織順序是根據拼音，如果拼音相同，就會根據筆畫（不一定准確，見諒），因此，新華字典裡的聚集索引覆蓋的列就是拼音和筆畫。

很容易理解的是，正文只能按照一種既定的順序去排序，同理，在一張表裡，只能有一個聚集索引，從而決定著數據行的組織方式。

b.非聚集索引

非聚集索引，用新華字典來比喻的話，就是字典正文之前的那些按拼音查找，按部首查找，按筆畫查找的附錄。它們描述了正文中的文字的排序位置，但是他們跟正文是分開的。非聚集索引，它跟數據的組織順序是毫無關系的，它用一系列指針來指向數據行，從而來描述數據行的位置。

不含有聚集索引的表，叫做堆表，它的數據行組織順序，是沒有特定順序的，類似於一堆書，增加一本書就放在這堆書的上面（在堆表中，具體實現方式可能不一樣）。

聚集索引對查詢性能影響非常大。聚集表中，非聚集索引是根據聚集鍵來定位的，而堆表中，非聚集索引是根據數據行號來定位的。這將有很大的性能區別，前者的性能大大優於後者。所以，建立合適的聚集索引，是非常必要的。一個好的建議是，使用小字段的且值唯一的列來建立索引，而且最好是單列，可以是代理鍵。因為如果字段太大太多，用來進行排序的開銷將會很大，得不償失；如果列值不唯一，數據庫會為該重復值附加4字節的信息來標識重復值，增加了不必要的開銷。

通常，我們在創建表的時候會指定主鍵，如果不顯式指定索引類型的話，將默認創建聚集索引。比如：add constraint pk_tbl primary key (sid)，將創建以sid為序的聚集索引。可以顯式指定主鍵上的索引類型，比如，add constraint pk_tbl primary key nonclustered (sid)，將創建一個非聚集索引的主鍵。所以，在創建主鍵的時候，一定得小心了，有多主鍵的情況，要注意顯式指定索引類型。

索引能大幅度提高查詢和排序性能，但是，在插入，刪除，以及修改了主鍵的操作中，是需要維護索引順序的。如果一張頻繁變更的表，是不宜建立過多的索引的，索引帶來的負面性能影響，將會得不償失。

索引優化，是一個很考究的事情，它需要找到一個平衡點。

一般來說，有以下幾個建議來創建合適的索引：

1.超過300行的數據表要創建索引

2.聚集索引字段不能過多，最好是單字段，而且列值唯一

3.對於數據字段特別多的表，而且這些字段有很多出現在where中，不宜在每一個字段上建立單獨的索引，而是創建組合索引。組合索引中，列的順序是很講究的，越是選擇性大而且唯一的列要放在前面，這對查詢優化器優化有很大的幫助。不宜在那些大量重復的列值上建立索引，比如在一個true，false的列上建索引，是毫無意義的。

4.如果查詢中，查詢的字段不多，可以考慮建立覆蓋索引，將字段都包含在索引裡，可以僅僅訪問索引就能查詢到所有數據，而不用表掃描。

查詢語句性能調優，下篇會繼續講。