程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> 關於MYSQL數據庫 >> SQL查詢優化 LEFT JOIN和INNER JOIN

SQL查詢優化 LEFT JOIN和INNER JOIN

編輯:關於MYSQL數據庫
1,
連接了八個數據庫表,而且全部使用LEFT JOIN,如下所示:
Resource_Resources A
LEFT JOIN Resource_ClIEnts B ON A.ResourceId = B.ResourceId
LEFT JOIN Resource_Files C on B.ClientId=C.ClIEntId
LEFT JOIN Resource_ClientsModels D ON B.ClientId = D.ClIEntId
LEFT JOIN Mobile_Models E ON D.ModelId = E.ModelId
LEFT JOIN dbo.Resource_Images F ON A.ResourceId = F.ResourceId
LEFT JOIN dbo.Resource_Tags G ON G.ResourceId = A.ResourceId
LEFT JOIN Website_Tags H ON G.TagId = H.TagId
LEFT JOIN dbo.Resource_CategorIEs I ON A.CategoryId = I.CategoryId

WHERE 部分有四個查詢條件
A.Name LIKE
C.Extend LIKE
D.ModelId =
H.Name LIKE
I.Code LIKE
E.Name LIKE

此時的查詢比較費力,經歷了將近一分鐘的漫長查詢,通過WEB訪問已經超時。只好將部分查詢條件去掉。

其中A表20000條記錄,B表記錄數大於A表記錄數,C表記錄數大於B表記錄數,H表記錄數較大

經過修改後,表連接減少為六個,將部分LEFT JOIN改為INNER JOIN,如下所示:
Resource_Resources A
INNER JOIN dbo.Resource_ClIEnts B ON A.ResourceId = B.ResourceId
INNER JOIN dbo.Resource_Files C on B.ClientId = C.ClIEntId
LEFT JOIN dbo.Resource_ClientsModels D ON B.ClientId = D.ResourceClIEntId
LEFT JOIN dbo.Resource_Tags G ON G.ResourceId = A.ResourceId
INNER JOIN dbo.Website_Tags H ON G.TagId = H.TagId
INNER JOIN dbo.Resource_CategorIEs I ON A.CategoryId = I.CategoryId

WHERE 部分查詢條件也有所減少,僅保留兩個查詢條件:
A.Name LIKE
H.Name LIKE

經過上面的修改後,查詢在1秒內完成,基本達到通過WEB訪問的要求,沒有長時間等待。

2,
原來的:

SELECT
M.clIEntid,
M.CardFaceID,
N.NormalBanalce,
D.DateWorth,
T.TimesWorth,
B.BookingWorth,
B.BookingTimesManyBalance
FROM SELECT
   clIEntid,CardFaceID
FROM
cimain
) M  
Left Join
(SELECT
   clIEntid,
   sum( case when IfGive='是' then Balance * ItemZkl else Balance end) as NormalBanalce
FROM ccNormal  
Group By clientid ) N on M.clientid=N.clIEntid
Left Join          
(SELECT
   clIEntid,
   sum(   ConsumeBalance * ItemZkl ) as DateWorth
FROM ccDate   
Group By clientid ) D on M.clientid=D.clIEntid
Left Join
(SELECT
   clIEntid,
   sum(   AveragePrice * TimesBalance * ItemZKL   ) as TimesWorth     
FROM ccTimes  
Group By clientid ) T on M.clientid=T.clIEntid
Left Join
(SELECT
   clIEntid,
   sum(   PriceDiscount * TimesBalance   ) as BookingWorth,
   sum(TimesBalance) as BookingTimesManyBalance        
FROM ccBooking  
Group By clientid ) B on M.clientid=B.clIEntid

優化後:
SELECT
    M.clIEntid ,
    M.CardFaceID,
    (SELECT sum(case IfGive when '是' then Balance*ItemZkl else Balance end) FROM ccNormal WHERE clientid=M.clIEntid) AS NormalBanalce,
    (SELECT sum(ConsumeBalance*ItemZkl) FROM ccDate WHERE clientid=M.clIEntid) AS DateWorth,
    (SELECT sum(AveragePrice*TimesBalance*ItemZKL) FROM ccTimes WHERE clientid=M.clIEntid) AS TimesWorth,
    (SELECT sum(PriceDiscount*TimesBalance) FROM ccBooking WHERE clientid=M.clIEntid) AS BookingWorth,
    (SELECT sum(TimesBalance) FROM ccBooking WHERE clientid=M.clIEntid) AS BookingTimesManyBalance
FROM
    cimain M

3,
SELECT
COUNT(DISTINCT T1.A1) + COUNT(DISTINCT T2.B1) +
COUNT(DISTINCT T3.C1) FROM T1
LEFT JOIN T2 on T1.A1 = T2.A1
LEFT JOIN T3 on T1.A1 = T3.A1
LEFT JOIN T4 on T3.C1 = T4.C1
GROUP BY T1.A2, T1.A3

優化:
1、因為T1表式主表,所以
【select COUNT(DISTINCT T1.A1) from T1】和你求出的
【COUNT(DISTINCT T1.A1)】值是一樣的。
2、而由於T2等是從表並且你使用了【COUNT(DISTINCT T2.B1)】因此null值會被排除掉,實際上和下面的語句求出的值是一樣的
select COUNT(DISTINCT T2.B1) from T1 inner join T2 on T1.A1 = T2.A1;
3、從上面的分析可以看出你使用【left join】的目的只有一個就是得到【T1】表全部數據的【COUNT(DISTINCT T1.A1)】,所以試試改成下面的sql是否性能能夠快些

select cnt1+cnt2+cnt3 from(
(select COUNT(DISTINCT T1.A1) cnt1 from T1 GROUP BY T1.A2, T1.A3)t1,
(select COUNT(DISTINCT T2.B1) cnt2 from T1 inner join T2 on T1.A1 = T2.A1 GROUP BY T1.A2, T1.A3)t2,
(select COUNT(DISTINCT T3.C1) cnt3 from T1 inner join T3 on T1.A1 = T3.A1 inner join T4 on T3.C1 = T4.C1 GROUP BY T1.A2, T1.A3)t3;

4,Left.join優化規則的研究.doc:   對於left join的優化,是應用開發人員、數據庫內核開發人員關注的問題之一。
  應用開發人員關注是因為:並不是每個數據庫的內核都支持left join的內部轉化,這時候需要應用開發人員進行手工地轉化。
  內核開發人員關注是因為:並不假定每個應用開發人員都能夠熟練地將left join轉化掉。因此數據庫有必要對這種情況,進行數據庫內部的優化。
  我當初對left join進行分析歸納,後來閱讀MySQL時發現 sql_select.cpp文件中的simplify_joins()函數的實現方法也是這樣的,大家可以參考該函數。
  二、left join優化規則的研究
  t1 left t2 on t1.col1=t2.col1
  對於類似的表達式,在什麼樣的情況下才可以去掉left join呢?   create table t1(c1 int,c2 int);
  create table t2(d1 int,d2 int);
  create table t3(e1 int,e2 int);
  2.1 優化的基本策略
  對於left join的查詢語句,比如:
  select * from t1 left join t2 on t1.c1=t2.d2 where condition1 [{and conditonN}];(N的取值為2,3,……) (語句1)   select * from t1 inner join t2 on on t1.c1=t2.d2 where condition1 [{and conditonN}]; (語句2)
  備注:語句2等價於語句:
  select * from t1,t2 where t1.c1=t2.d2 and condition1 [{and conditonN}]; (語句3)   只要where中的至少有一個conditionK(N的取值為 1,2,……)滿足如下非NULL條件,就可以將語句1優化為語句2(語句3):
  1)conditionK包含t2表的列(任意列)
  2)conditionK的類型只要不為: t2.column is null。
  其它的任何類型都行:比如t2.d2=t1.c2,再比如t2.d2 is not null。
  例1:
  select * from t1 left join t2 on t1.c1=t2.d2 where t2.d1=2; (t2.d1=2滿足非NULL條件,可以優化)
  <==>等價於: select * from t1 inner join t2 on t1.c1=t2.d2 where t2.d1=2;
   <==>等價於: select * from t1,t2 where t1.c1=t2.d2 and t2.d1=2;
  例 2:select * from t1 left join t2 on t1.c1=t2.d2 where t2.d1+1>t1.c1; (t2.d1+1>t1.c1滿足非NULL條件,可以優化)
  <==>等價於: select * from t1 inner join t2 on t1.c1=t2.d2 where t2.d1+1>t1.c1;
  <==>等價於: select * from t1,t2 where t1.c1=t2.d2 and t2.d1+1>t1.c1;
  2.2思路擴展
  a left join b on condition1 {and conditionM}
  left join c on contion2_1 {and contion2_N}   例3:
  select * from t1 left join t2 on c1=d1 left join t3 on d2=e1 where e1=1; (e1滿足非NULL條件,可以優化,甚至這裡可以為:e2 in (select ……))
  <==>等價於:select * from t1 left join t2 on c1=d1 inner join t3 on d2=e1 where e1=1; //inner轉換
  <==>等價於:select * from t1 left join t2 on c1=d1,t3 where d2=e1 and e1=1; //等價調整,然後(d2=e1滿足非NULL條件,可以優化)
  <==>等價於:select * from t1 inner join t2 on c1=d1,t3 where d2=e1 and e1=1; //inner轉換
  <==>等價於:select * from t1,t2,t3 where c1=d1 and d2=e1 and e1=1;

5,
Sybase SQL Server索引的使用和優化:
本文就SQL Server索引的性能問題進行了一些分析和實踐。

  一、聚簇索引(clustered indexes)的使用

  聚簇索引是一種對磁盤上實際數據重新組織以按指定的一個或多個列的值排序。由於聚簇索引的索引頁面指針指向數據頁面,所以使用聚簇索引查找數據幾乎總是比使用非聚簇索引快。每張表只能建一個聚簇索引,並且建聚簇索引需要至少相當該表120%的附加空間,以存放該表的副本和索引中間頁。建立聚簇索引的思想是:

  1、大多數表都應該有聚簇索引或使用分區來降低對表尾頁的競爭,在一個高事務的環境中,對最後一頁的封鎖嚴重影響系統的吞吐量。

  2、在聚簇索引下,數據在物理上按順序排在數據頁上,重復值也排在一起,因而在那些包含范圍檢查(between、<、<=、& gt;、>=)或使用group by或order by的查詢時,一旦找到具有范圍中第一個鍵值的行,具有後續索引值的行保證物理上毗連在一起而不必進一步搜索,避免了大范圍掃描,可以大大提高查詢速度。

  3、在一個頻繁發生插入操作的表上建立聚簇索引時,不要建在具有單調上升值的列(如IDENTITY)上,否則會經常引起封鎖沖突。

  4、在聚簇索引中不要包含經常修改的列,因為碼值修改後,數據行必須移動到新的位置。

  5、選擇聚簇索引應基於where子句和連接操作的類型。聚簇索引的侯選列是:

    1、主鍵列,該列在where子句中使用並且插入是隨機的。

    2、按范圍存取的列,如pri_order > 100 and pri_order < 200。

    3、在group by或order by中使用的列。

    4、不經常修改的列。

    5、在連接操作中使用的列。

  二、非聚簇索引(nonclustered indexes)的使用

  SQL Server缺省情況下建立的索引是非聚簇索引,由於非聚簇索引不重新組織表中的數據,而是對每一行存儲索引列值並用一個指針指向數據所在的頁面。換句話說非聚簇索引具有在索引結構和數據本身之間的一個額外級。一個表如果沒有聚簇索引時,可有250個非聚簇索引。每個非聚簇索引提供訪問數據的不同排序順序。在建立非聚簇索引時,要權衡索引對查詢速度的加快與降低修改速度之間的利弊。另外,還要考慮這些問題:

  1、索引需要使用多少空間。

  2、合適的列是否穩定。

  3、索引鍵是如何選擇的,掃描效果是否更佳。

  4、是否有許多重復值。

  對更新頻繁的表來說,表上的非聚簇索引比聚簇索引和根本沒有索引需要更多的額外開銷。對移到新頁的每一行而言,指向該數據的每個非聚簇索引的頁級行也必須更新,有時可能還需要索引頁的分理。從一個頁面刪除數據的進程也會有類似的開銷,另外,刪除進程還必須把數據移到頁面上部,以保證數據的連續性。所以,建立非聚簇索引要非常慎重。非聚簇索引常被用在以下情況:

  1、某列常用於集合函數(如Sum,....)。

  2、某列常用於join,order by,group by。

  3、查尋出的數據不超過表中數據量的20%。

  三、覆蓋索引(covering indexes)的使用

  覆蓋索引是指那些索引項中包含查尋所需要的全部信息的非聚簇索引,這種索引之所以比較快也正是因為索引頁中包含了查尋所必須的數據,不需去訪問數據頁。如果非聚簇索引中包含結果數據,那麼它的查詢速度將快於聚簇索引。

  但是由於覆蓋索引的索引項比較多,要占用比較大的空間。而且update操作會引起索引值改變。所以如果潛在的覆蓋查詢並不常用或不太關鍵,則覆蓋索引的增加反而會降低性能。

  四、索引的選擇技術

  p_detail是住房公積金管理系統中記錄個人明細的表,有890000行,觀察在不同索引下的查詢運行效果,測試在C/S環境下進行,客戶機是IBM PII350(內存64M),服務器是DEC Alpha1000A(內存128M),數據庫為Sybase11.0.3。

  1、 select count(*) from p_detail where op_date>’19990101’ and op_date<’19991231’ and pri_surplus1>300

  2、 select count(*),sum(pri_surplus1) from p_detail where op_date>’19990101’ and pay_month between‘199908’ and’199912’

  不建任何索引查詢1 1分15秒

  查詢2 1分7秒

  在op_date上建非聚簇索引查詢1 57秒

  查詢2 57秒

  在op_date上建聚簇索引查詢1 <1秒

  查詢2 52秒

  在pay_month、op_date、pri_surplus1上建索引查詢1 34秒

  查詢2 <1秒

  在op_date、pay_month、pri_surplus1上建索引查詢1 <1秒

  查詢2 <1秒

  從以上查詢效果分析,索引的有無,建立方式的不同將會導致不同的查詢效果,選擇什麼樣的索引基於用戶對數據的查詢條件,這些條件體現於 where從句和join表達式中。一般來說建立索引的思路是:

  (1)、主鍵時常作為where子句的條件,應在表的主鍵列上建立聚簇索引,尤其當經常用它作為連接的時候。

  (2)、有大量重復值且經常有范圍查詢和排序、分組發生的列,或者非常頻繁地被訪問的列,可考慮建立聚簇索引。

  (3)、經常同時存取多列,且每列都含有重復值可考慮建立復合索引來覆蓋一個或一組查詢,並把查詢引用最頻繁的列作為前導列,如果可能盡量使關鍵查詢形成覆蓋查詢。

  (4)、如果知道索引鍵的所有值都是唯一的,那麼確保把索引定義成唯一索引。

  (5)、在一個經常做插入操作的表上建索引時,使用fillfactor(填充因子)來減少頁分裂,同時提高並發度降低死鎖的發生。如果在只讀表上建索引,則可以把fillfactor置為100。

  (6)、在選擇索引鍵時,設法選擇那些采用小數據類型的列作為鍵以使每個索

  引頁能夠容納盡可能多的索引鍵和指針,通過這種方式,可使一個查詢必須遍歷的索引頁面降到最小。此外,盡可能地使用整數為鍵值,因為它能夠提供比任何數據類型都快的訪問速度。

  五、索引的維護

  上面講到,某些不合適的索引影響到SQL Server的性能,隨著應用系統的運行,數據不斷地發生變化,當數據變化達到某一個程度時將會影響到索引的使用。這時需要用戶自己來維護索引。索引的維護包括:

  1、重建索引

  隨著數據行的插入、刪除和數據頁的分裂,有些索引頁可能只包含幾頁數據,另外應用在執行大塊I/O的時候,重建非聚簇索引可以降低分片,維護大塊I/O的效率。重建索引實際上是重新組織B-樹空間。在下面情況下需要重建索引:

  (1)、數據和使用模式大幅度變化。

  (2)、排序的順序發生改變。

  (3)、要進行大量插入操作或已經完成。

  (4)、使用大塊I/O的查詢的磁盤讀次數比預料的要多。

  (5)

您正在看的sybase教程是:Sybase SQL Server索引的使用和優化。、由於大量數據修改,使得數據頁和索引頁沒有充分使用而導致空間的使用超出估算。

  (6)、dbcc檢查出索引有問題。

  當重建聚簇索引時,這張表的所有非聚簇索引將被重建.

  2、索引統計信息的更新

  當在一個包含數據的表上創建索引的時候,SQL Server會創建分布數據頁來存放有關索引的兩種統計信息:分布表和密度表。優化器利用這個頁來判斷該索引對某個特定查詢是否有用。但這個統計信息並不動態地重新計算。這意味著,當表的數據改變之後,統計信息有可能是過時的,從而影響優化器追求最有工作的目標。因此,在下面情況下應該運行update statistics命令:

  (1)、數據行的插入和刪除修改了數據的分布。

  (2)、對用truncate table刪除數據的表上增加數據行。

  (3)、修改索引列的值。

  六、結束語

  實踐表明,不恰當的索引不但於事無補,反而會降低系統的執行性能。因為大量的索引在插入、修改和刪除操作時比沒有索引花費更多的系統時間。例如下面情況下建立的索引是不恰當的:

  1、在查詢中很少或從不引用的列不會受益於索引,因為索引很少或從來不必搜索基於這些列的行。

  2、只有兩個或三個值的列,如男性和女性(是或否),從不會從索引中得到好處。

  另外,鑒於索引加快了查詢速度,但減慢了數據更新速度的特點。可通過在一個段上建表,而在另一個段上建其非聚簇索引,而這兩段分別在單獨的物理設備上來改善操作性能。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved