創建測試表
我們創建以下測試表:
T1 表擁有 10000 行數據。參加進行 JOIN 操作的列 join1 數據均勻分布,取值范圍在 0 ~ 29 之間,沒有空值。對 T1 進行過濾的列 filter1 數據也均勻分布,取值在在 0 ~ 24 之間。 V1 列從 0 自然增長到 9999 。
T2 表擁有 10000 行數據。參加進行 JOIN 操作的列 join2 數據均勻分布,取值范圍在 0 ~ 29 之間,沒有空值。對 T2 進行過濾的列 filte2r 數據也均勻分布,取值在在 0 ~ 24 之間。 V2 列從 0 自然增長到 9999 。
- drop table db2inst1.t1;
- CREATE TABLE db2inst1.t1
- ( Filter1 int, join1 int , v1 int, padding1 char(1)
- )
- NOT LOGGED INITIALLY
- ;
- INSERT INTO db2inst1.t1 (filter1, join1, v1,padding1)
- WITH TEMP (COUNTER, filter1, join1, v1,padding1) AS
- ( VALUES (0, MOD(INT(RAND() * 1000), 25),MOD(INT(RAND() * 1000), 30), 0, 'A')
- UNION ALL SELECT (COUNTER + 1),MOD(INT(RAND() * 1000), 25),
- MOD(INT(RAND() * 1000), 30), (COUNTER + 1), 'A' FROM TEMP WHERE (COUNTER + 1) < 10000
- )
- SELECT Filter1, join1, v1,padding1
- FROM TEMP
- ;
- drop table db2inst1.t2;
- CREATE TABLE db2inst1.t2
- ( Filter2 int, Join2 int , V2 int, Padding2 char(1)
- )
- NOT LOGGED INITIALLY
- ;
- INSERT INTO db2inst1.t2 (filter2, join2, v2,padding2)
- WITH TEMP (COUNTER, filter2, join2, v2,padding2) AS
- ( VALUES (0, MOD(INT(RAND() * 1000), 50),MOD(INT(RAND() * 1000), 40), 0, 'A')
- UNION ALL SELECT (COUNTER + 1),MOD(INT(RAND() * 1000), 50),MOD(INT(RAND() * 1000), 40),
- (COUNTER + 1), 'A' FROM TEMP WHERE (COUNTER + 1) < 10000
- )
- SELECT Filter2, join2, v2,padding2
- FROM TEMP
- ;
在表創建完成後,我們收集 T1 和 T2 的統計信息,在收集統計信息是只包括表的基本統計和列的統計信息,不包括列的分布信息。
- db2 "runstats on table db2inst1.t1 on all COLUMNS "
- db2 "runstats on table db2inst1.t2 on all COLUMNS "
使用 db2look 從系統統計視圖中提取 T1、T2 的統計信息如下。
表 1. T1 統計信息
統計屬性 值 說明
表 CARD 10000 表的行數
表 NPAGES 68 表占用的頁面數
列 FILTER1 的 COLCARD 25 列的不同取值個數
列 FILTER1 的 NUMNULLS 0 列的空值行數
列 JOIN1 的 COLCARD 30 列的不同取值個數
列 JOIN1 的 NUMNULLS 0 列的空值行數
表 2. T2 統計信息
統計屬性 值 說明
表 CARD 10000 表的行數
表 NPAGES 68 表占用的頁面數
列 FILTER2 的 COLCARD 50 列的不同取值個數
列 FILTER2 的 NUMNULLS 0 列的空值行數
列 JOIN2 的 COLCARD 40 列的不同取值個數
列 JOIN2 的 NUMNULLS 0 列的空值行數
測試一
我們首先執行以下查詢來驗證公式。
- select count(*)
- from (
- select
- t1.v1, t2.v1
- from
- t1,
- t2
- where
- t1.filter = 1
- and t2.join1 = t1.join1
- and t2.filter = 1 )
- as b;
在表創建完成後,我們收集 T1 和 T2 的統計信息,在收集統計信息是只包括表的基本統計和列的統計信息,不包括列的分布信息。
- db2 "runstats on table db2inst1.t1 on all COLUMNS "
- db2 "runstats on table db2inst1.t2 on all COLUMNS "
使用 db2look 從系統統計視圖中提取 T1、T2 的統計信息如下。
表 1. T1 統計信息
統計屬性 值 說明
表 CARD 10000 表的行數
表 NPAGES 68 表占用的頁面數
列 FILTER1 的 COLCARD 25 列的不同取值個數
列 FILTER1 的 NUMNULLS 0 列的空值行數
列 JOIN1 的 COLCARD 30 列的不同取值個數
列 JOIN1 的 NUMNULLS 0 列的空值行數
表 2. T2 統計信息
統計屬性 值 說明
表 CARD 10000 表的行數
表 NPAGES 68 表占用的頁面數
列 FILTER2 的 COLCARD 50 列的不同取值個數
列 FILTER2 的 NUMNULLS 0 列的空值行數
列 JOIN2 的 COLCARD 40 列的不同取值個數
列 JOIN2 的 NUMNULLS 0 列的空值行數
測試一
我們首先執行以下查詢來驗證公式。
- select count(*)
- from (
- select
- t1.v1, t2.v1
- from
- t1,
- t2
- where
- t1.filter = 1
- and t2.join1 = t1.join1
- and t2.filter = 1 )
- as b;
以上的相關內容就是對DB2 優化器中針對 JOIN 語句的結果集估計的介紹,望你能有所收獲。