數據庫系統性能的提升不僅有賴於對數據庫本身性能的優化,還需要對應用程序的性能進行優化。本文主要從應用程序方面進行介紹。
一個數據庫系統的生命周期可以分成設計、開發和成品三個階段。在設計階段進行數據庫性能優化的成本最低,收益最大。在成品階段進行數據庫性能優化的成本最高,收益最小。數據庫的優化可以通過對網絡、硬件、操作系統、數據庫參數和應用程序的優化來進行。最常見的優化手段就是對硬件的升級。據統計,對網絡、硬件、操作系統、數據庫參數進行優化所獲得的性能提升,全部加起來只占數據庫系統性能提升的40%左右,其余的60%系統性能提升來自對應用程序的優化。許多優化專家認為,對應用程序的優化可以得到80%的系統性能的提升。
數據庫性能的優化
數據庫設計是應用程序設計的基礎,其性能直接影響應用程序的性能。數據庫性能包括存儲空間需求量的大小和查詢響應時間的長短兩個方面。為了優化數據庫性能,需要對數據庫中的表進行規范化。規范化的范式可分為第一范式、第二范式、第三范式、BCNF范式、第四范式和第五范式。一般來說,邏輯數據庫設計會滿足規范化的前3級標准,但由於滿足第三范式的表結構容易維護且基本滿足實際應用的要求。因此,實際應用中一般都按照第三范式的標准進行規范化。但是,規范化也有缺點:由於將一個表拆分成為多個表,在查詢時需要多表連接,降低了查詢速度。
由於規范化有可能導致查詢速度慢的缺點,考慮到一些應用需要較快的響應速度,在設計表時應同時考慮對某些表進行反規范化。反規范化可以采用以下幾種方法:
1. 分割表
分割表包括水平分割和垂直分割。
水平分割是按照行將一個表分割為多個表,這可以提高每個表的查詢速度,但查詢、更新時要選擇不同的表,統計時要匯總多個表,因此應用程序會更復雜。
垂直分割是對於一個列很多的表,若某些列的訪問頻率遠遠高於其它列,就可以將主鍵和這些列作為一個表,將主鍵和其它列作為另外一個表。通過減少列的寬度,增加了每個數據頁的行數,一次I/O就可以掃描更多的行,從而提高了訪問每一個表的速度。但是由於造成了多表連接,所以應該在同時查詢或更新不同分割表中的列的情況比較少的情況下使用。
2. 保留冗余列
當兩個或多個表在查詢中經常需要連接時,可以在其中一個表上增加若干冗余的列,以避免表之間的連接過於頻繁。由於對冗余列的更新操作必須對多個表同步進行,所以一般在冗余列的數據不經常變動的情況下使用。
3. 增加派生列
派生列是由表中的其它多個列計算所得,增加派生列可以減少統計運算,在數據匯總時可以大大縮短運算時間。
應用程序性能的優化
應用程序的優化通常可分為兩個方面:源代碼和SQL語句。由於涉及到對程序邏輯的改變,源代碼的優化在時間成本和風險上代價很高,而對數據庫系統性能的提升收效有限,因此應用程序的優化應著重在SQL語句的優化。對於海量數據,劣質SQL語句和優質SQL語句之間的速度差別可以達到上百倍,可見對於一個系統不是簡單地能實現其功能就行,而是要寫出高質量的SQL語句,提高系統的可用性。
下面就某些SQL語句的where子句編寫中需要注意的問題作詳細介紹。在這些where子句中,即使某些列存在索引,但是由於編寫了劣質的SQL,系統在運行該SQL語句時也不能使用該索引,而同樣使用全表掃描,這就造成了響應速度的極大降低。
1. IS NULL 與 IS NOT NULL
不能用null作索引,任何包含null值的列都將不會被包含在索引中。即使索引有多列的情況下,只要這些列中有一列含有null,該列就會從索引中排除。也就是說如果某列存在空值,即使對該列建索引也不會提高性能。
任何在where子句中使用is null或is not null的語句優化器是不允許使用索引的。
2. 聯接列
對於有聯接的列,即使最後的聯接值為一個靜態值,優化器不會使用索引的。例如,假定有一個職工表(employee),對於一個職工的姓和名分成兩列存放(FIRST_NAME和LAST_NAME),現在要查詢一個叫喬治·布什(George Bush)的職工。 下面是一個采用聯接查詢的SQL語句:
select * from employee where first_name||''||last_name ='George Bush';
上面這條語句完全可以查詢出是否有George Bush這個員工,但是這裡需要注意,系統優化器對基於last_name創建的索引沒有使用。
當采用下面這種SQL語句的編寫,Oracle系統就可以采用基於last_name創建的索引:
Select * From employee where first_name ='George' and last_name ='Bush';
遇到下面這種情況又如何處理呢?如果一個變量(name)中存放著George Bush這個員工的姓名,對於這種情況我們又如何避免全程遍歷使用索引呢?可以使用一個函數,將變量name中的姓和名分開就可以了,但是有一點需要注意,這個函數是不能作用在索引列上。下面是SQL查詢腳本:
select * from employee where first_name = SUBSTR('&&name',1,INSTR('&&name',' ')-1)
and last_name = SUBSTR('&&name',INSTR('&&name’,' ')+1) ;
3. 帶通配符(%)的like語句
同樣以上面的例子來看這種情況。目前的需求是這樣的,要求在職工表中查詢名字中包含Bush的人。可以采用如下的查詢SQL語句:
select * from employee where last_name like '%Bush%';
這裡由於通配符(%)在搜尋詞首出現,所以Oracle系統不使用last_name的索引。在很多情況下可能無法避免這種情況,但是一定要心中有底,通配符如此使用會降低查詢速度。然而當通配符出現在字符串其他位置時,優化器就能利用索引。例如,在下面的查詢中索引得到了使用:
select * from employee where last_name like 'c%';