程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> DB2數據庫 >> DB2教程 >> DB2數據庫裡面正確更新執行計劃的操作步驟

DB2數據庫裡面正確更新執行計劃的操作步驟

編輯:DB2教程

在DB2數據庫裡面正確更新執行計劃的實際操作步驟是本文的主要內容,我們大家都知道DB2數據庫的優化器實際上是一個標准規則集合,一般來說我們只要告訴DB2要檢索什麼,而不是如何檢索。

和Oracle數據庫一樣,DB2數據庫裡面也是通過優化器來分析你的SQL,生成它認為最優的執行計劃(Access Plan)。DB2的優化器實際上是一個標准規則集合,一般來說我們只要告訴DB2要檢索什麼,而不是如何檢索。

那麼DB2的優化器是根據什麼來判斷SQL的最優存取路徑呢?

DB2的優化器是基於成本的優化器,也就是CBO(Cost Based Optmizer)。也就是說DB2 優化器會應用查詢成本公式,該公式對每條可能的存取路徑的四個因素進行評估和權衡:CPU 成本、I/O 成本、DB2 系統目錄中的統計信息和實際的 SQL 語句。

那麼我們來簡單看一下DB2的優化器的工作流程:

1.DB2的優化器,在接收到SQL語句後,會首先校驗SQL的語法,確保是正確的SQL

2.根據當前的系統環境信息,生成最優的執行計劃來優化SQL語句

3.把SQL翻譯成計算機指令語言,並執行這個優化後的SQL

4.返回結果,或者存儲它們,以便將來的執行

在我們看來,DB2 系統目錄中統計信息是讓DB2優化器正確工作的一個非常重要的依據。這些統計信息向優化器提供了與正在被優化的 SQL 語句將要訪問的表狀態相關的信息。這些信息主要包括:

Table--包括表的記錄數、PAGE、PCTFREE以及COMPRESS等信息,相關的系統視圖是:sysstat.tables、syscat.tables

Columns—包括COLUMNS的數量、長度、分布特征以及COMPRESS等信息,相關的系統視圖是:sysstat.columns、syscat. columns

Index--包括是否存在索引、索引的組織(葉子頁的數量和級別的數量)、索引鍵的離散值的數量以及是否群集索引, 相關的系統視圖是:sysstat.indexes、syscat. indexes

其他的還有分區/節點組信息和表空間的信息

如何及時更新這些信息呢?保證DB2優化器正確的工作,在DB2裡面提供了以下的辦法。

1.RUNSTATS與REOGCHK

Runstats這個命令的功能主要就是收集數據庫對象的狀態信息,這對DB2數據庫使用合理的ACCESS PLAN是至關重要的。一般來說,以下幾種情況下面,我們需要用runstats來收集統計信息:

1.在給表創建一個index後,我們最好做一次runstat。這個情況也是大家經常忽略的。很多時候大家在給表增加了一個index後,分析執行計劃,發現沒有變化,覺得很奇怪。其實這個時候,你需要做一次runstats,就可以了。在8.2裡面,DB2做了很好的改進,可以避免這個問題,在創建index的時候,可以立即更新你的信息。

2.在對table做了一次reorg後,記得要做一次runstats。因為對表做reorg,會修改表的很多信息,比如高水位等,所以做一次runstats,可以更新統計信息。

3.當你的表裡面的數據發生了比較大的變化,一般來說,大約表裡面的數據量的10%-20%發生了變化,就應該作一次runstats。這些變化包括刪除,修改,插入。對於一些非常大的表,比方在數據倉庫的項目裡面,某些事實表非常巨大。這個時候,完整的對一個大表作runstats可能花費時間相當大,DB2 8.1裡面支持我們對這些大表作抽樣,比方說只對20%的數據作runstats,這樣的話,一般來說也能保證得到正確的執行計劃。當然首先要確保這個表裡面的數據最好分布比較均勻。

4.當你在分區(DPF)數據庫裡面使用了REDISTRIBUTE DATABASE PARTITION GROUP這個命令,那麼就需要用runstats來收集新的統計信息。

RUNSTATS命令的語法如下:

如果表名為DB2INST1.STAFF,表上有索引,則可以用下面的例子完成RUNSTATS命令:

db2 runstats on table db2inst1.staff with distribution and detailed indexes all

在實際的項目裡面,對於變化比較大的表,需要我們定時對數據庫做runstats,一般來說runstats和reorg可以結合起來做,首先對表作reorg,然後做runstats,最後REBIND數據庫根據最新的統計信息生成合適的統計計劃。

值得注意的是,如果我們要處理的表數據量是快速變化的,比如在電信移動行業,需要在月末進行處理的匯總表。在不長的時間范圍內數據量變化特別大,從而使得RUNSTATS 得到的統計信息不准確,原因是這些統計信息只是某個時間點的信息。您可以用這條語句來把表修改為volatile。

alter table table_name volatile cardinality

這樣優化器將考慮使用索引掃描而不是表掃描。無論統計信息如何,優化器將使用索引掃描而不是使用表掃描。

IBM的文檔裡面還提供了REORGCHK這個命令,可以根據統計公式計算表是否需要重整。

比如可以分為對系統表和用戶表兩部分分別進行REORGCHK:

1) 針對系統表進行REORGCHK

db2 reorgchk update statistics on table system

2) 針對用戶表進行REORGCHK

db2 reorgchk update statistics on table user

需要注意的是,如果數據庫中數據量比較大,這些操作一般所需時間比較長,所以盡量安排在數據庫比較空閒的時候做。

db2 update db cfg using AUTO_MAINT off AUTO_TBL_MAINT off AUTO_RUNSTATS off

在DB2 8.2裡面數據庫可以自動進行統計信息收集,不過這樣的動作還是會帶來額外的負載,一般情況下面可以關掉,只在我們需要的時候運行就可以了。

2.LOAD

Load這個工具是DB2裡面一個非常強大的數據遷移工具。一般用作大批量的數據插入。因為Load操作不記日志,所以效率非常好。筆者曾經在RS6000平台上面實現50-60m/s的速度Load數據。在這裡我想討論的是在DB2數據庫裡面如何用load來影響你的catalog視圖的統計信息。

在Load的時候使用statistics選項可以在裝入的過程中生成統計數據,這些統計數據可以供優化器確定最有效的執行sql語句的方式。

4.當你在分區(DPF)數據庫裡面使用了REDISTRIBUTE DATABASE PARTITION GROUP這個命令,那麼就需要用runstats來收集新的統計信息。

RUNSTATS命令的語法如下:

如果表名為DB2INST1.STAFF,表上有索引,則可以用下面的例子完成RUNSTATS命令:

db2 runstats on table db2inst1.staff with distribution and detailed indexes all

在實際的項目裡面,對於變化比較大的表,需要我們定時對DB2數據庫做runstats,一般來說runstats和reorg可以結合起來做,首先對表作reorg,然後做runstats,最後REBIND數據庫根據最新的統計信息生成合適的統計計劃。

值得注意的是,如果我們要處理的表數據量是快速變化的,比如在電信移動行業,需要在月末進行處理的匯總表。在不長的時間范圍內數據量變化特別大,從而使得RUNSTATS 得到的統計信息不准確,原因是這些統計信息只是某個時間點的信息。您可以用這條語句來把表修改為volatile。

alter table table_name volatile cardinality

這樣優化器將考慮使用索引掃描而不是表掃描。無論統計信息如何,優化器將使用索引掃描而不是使用表掃描。

IBM的文檔裡面還提供了REORGCHK這個命令,可以根據統計公式計算表是否需要重整。

比如可以分為對系統表和用戶表兩部分分別進行REORGCHK:

1) 針對系統表進行REORGCHK

db2 reorgchk update statistics on table system

2) 針對用戶表進行REORGCHK

db2 reorgchk update statistics on table user

需要注意的是,如果數據庫中數據量比較大,這些操作一般所需時間比較長,所以盡量安排在數據庫比較空閒的時候做。

db2 update db cfg using AUTO_MAINT off AUTO_TBL_MAINT off AUTO_RUNSTATS off

在DB2 8.2裡面數據庫可以自動進行統計信息收集,不過這樣的動作還是會帶來額外的負載,一般情況下面可以關掉,只在我們需要的時候運行就可以了。

2.LOAD

Load這個工具是DB2裡面一個非常強大的數據遷移工具。一般用作大批量的數據插入。因為Load操作不記日志,所以效率非常好。筆者曾經在RS6000平台上面實現50-60m/s的速度Load數據。在這裡我想討論的是在DB2數據庫裡面如何用load來影響你的catalog視圖的統計信息。

在Load的時候使用statistics選項可以在裝入的過程中生成統計數據,這些統計數據可以供優化器確定最有效的執行sql語句的方式。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved