您正在看的ORACLE教程是:Oracle數據庫執行計劃的一些基本概念 (2)。
三.表之間的連接
Join是一種試圖將兩個表結合在一起的謂詞,一次只能連接2個表,表連接也可以被稱為表關聯。在後面的敘述中,我們將會使用”row source”來代替”表”,因為使用row source更嚴謹一些,並且將參與連接的2個row source分別稱為row source1和row source 2。Join過程的各個步驟經常是串行操作,即使相關的row source可以被並行訪問,即可以並行的讀取做join連接的兩個row source的數據,但是在將表中符合限制條件的數據讀入到內存形成row source後,join的其它步驟一般是串行的。有多種方法可以將2個表連接起來,當然每種方法都有自己的優缺點,每種連接類型只有在特定的條件下才會發揮出其最大優勢。
row source(表)之間的連接順序對於查詢的效率有非常大的影響。通過首先存取特定的表,即將該表作為驅動表,這樣可以先應用某些限制條件,從而得到一個較小的row source,使連接的效率較高,這也就是我們常說的要先執行限制條件的原因。一般是在將表讀入內存時,應用where子句中對該表的限制條件。
根據2個row source的連接條件的中操作符的不同,可以將連接分為等值連接(如WHERE A.COL3 = B.COL4)、非等值連接(WHERE A.COL3 > B.COL4)、外連接(WHERE A.COL3 = B.COL4(+))。上面的各個連接的連接原理都基本一樣,所以為了簡單期間,下面以等值連接為例進行介紹。
在後面的介紹中,都已:
SELECT A.COL1, B.COL2
FROM A, B
WHERE A.COL3 = B.COL4;為例進行說明,假設A表為Row Soruce1,則其對應的連接操作關聯列為COL 3;B表為Row Soruce2,則其對應的連接操作關聯列為COL 4;
連接類型:
目前為止,無論連接操作符如何,典型的連接類型共有3種:
排序 - - 合並連接(Sort Merge Join (SMJ) )
嵌套循環(Nested Loops (NL) )
哈希連接(Hash Join)
排序 - - 合並連接(Sort Merge Join, SMJ)
內部連接過程:
1) 首先生成row source1需要的數據,然後對這些數據按照連接操作關聯列(如A.col3)進行排序。
2) 隨後生成row source2需要的數據,然後對這些數據按照與sort source1對應的連接操作關聯列(如B.col4)進行排序。
3) 最後兩邊已排序的行被放在一起執行合並操作,即將2個row source按照連接條件連接起來
下面是連接步驟的圖形表示:
MERGE
/
SORTSORT
||
Row Source 1Row Source 2如果row source已經在連接關聯列上被排序,則該連接操作就不需要再進行sort操作,這樣可以大大提高這種連接操作的連接速度,因為排序是個極其費資源的操作,特別是對於較大的表。預先排序的row source包括已經被索引的列(如a.col3或b.col4上有索引)或row source已經在前面的步驟中被排序了。盡管合並兩個row source的過程是串行的,但是可以並行訪問這兩個row source(如並行讀入數據,並行排序).
SMJ連接的例子:
SQL> explain plan forselect /*+ ordered */ e.deptno,
d.deptnofrom emp e,
dept dwhere e.deptno = d.deptnoorder by e.deptno,
d.deptno;
Query Plan-------------------------------------
SELECT STATEMENT [CHOOSE] Cost=17
MERGE JOINSORT JOINTABLE ACCESS FULL EMP
[ANALYZED]SORT JOINTABLE ACCESS FULL DEPT [ANALYZED]排序是一個費時、費資源的操作,特別對於大表。基於這個原因,SMJ經常不是一個特別有效的連接方法,但是如果2個row source都已經預先排序,則這種連接方法的效率也是蠻高的。
嵌套循環(Nested Loops, NL)
這個連接方法有驅動表(外部表)的概念。其實,該連接過程就是一個2層嵌套循環,所以外層循環的次數越少越好,這也就是我們為什麼將小表或返回較小row source的表作為驅動表(用於外層循環)的理論依據。但是這個理論只是一般指導原則,因為遵循這個理論並不能總保證使語句產生的I/O次數最少。有時不遵守這個理論依據,反而會獲得更好的效率。如果使用這種方法,決定使用哪個表作為驅動表很重要。有時如果驅動表選擇不正確,將會導致語句的性能很差、很差。
內部連接過程:
Row source1的Row 1 ---------------- Probe ->Row source 2
Row source1的Row 2 ---------------- Probe ->Row source 2
Row source1的Row 3 ---------------- Probe ->Row source 2
…….
Row source1的Row n ---------------- Probe ->Row source 2從內部連接過程來看,需要用row source1中的每一行,去匹配row source2中的所有行,所以此時保持row source1盡可能的小與高效的訪問row source2(一般通過索引實現)是影響這個連接效率的關鍵問題。這只是理論指導原則,目的是使整個連接操作產生最少的物理I/O次數,而且如果遵守這個原則,一般也會使總的物理I/O數最少。但是如果不遵從這個指導原則,反而能用更少的物理I/O實現連接操作,那盡管違反指導原則吧!因為最少的物理I/O次數才是我們應該遵從的真正的指導原則,在後面的具體案例分析中就給出這樣的例子。
在上面的連接過程中,我們稱Row source1為驅動表或外部表。