程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> 存儲優化 - 刪除重復記錄只保留單條

存儲優化 - 刪除重復記錄只保留單條

編輯:關於SqlServer

  由於前端提交處理做的不到位或者數據庫設計的不夠合理,庫中通常會存在一些冗余數據,比如重復記錄就是一種,那這樣的記錄如何刪除呢?

  我們先看一下相關數據結構的知識。

  在學習線性表的時候,曾有這樣一個例題。

  已知一個存儲整數的順序表La,試構造順序表Lb,要求順序表Lb中只包含順序表La中所有值不相同的數據元素。

  算法思路:

  先把順序表La的第一個元素付給順序表Lb,然後從順序表La的第2個元素起,每一個元素與順序表Lb中的每一個元素進行比較,如果不相同,則把該元素附加到順序表Lb的末尾。

 1     public SeqList<int> Purge(SeqList<int> La)
 2     {
 3       SeqList<int> Lb = new SeqList<int>(La.Maxsize);
 4       //將a表中的第1個數據元素賦給b表
 5        Lb.Append(La[0]);
 6       //依次處理a表中的數據元素
 7       for (int i = 1; i <= La.GetLength() - 1; ++i)
 8       {
 9         int j = 0;
10         //查看b表中有無與a表中相同的數據元素
11         for (j = 0; j <= Lb.GetLength() - 1; ++j)
12         {
13           //有相同的數據元素
14           if (La[i].CompareTo(Lb[j]) == 0)
15           {
16             break;
17           }
18         }
19         //沒有相同的數據元素,將a表中的數據元素附加到b表的末尾。
20         if (j > Lb.GetLength() - 1)
21         {
22           Lb.Append(La[i]);
23         }
24         return Lb;
25       }
26     }

  如果理解了這個思路,那麼數據庫中的處理就好辦了。 

  我們可以做一個臨時表來解決問題

1 select distinct * into #Tmp from tableName 
2 drop table tableName 
3 select * into tableName from #Tmp 
4 drop table #Tmp 

  發生這種重復的原因是表設計不周產生的,增加唯一索引列即可解決。

  但是你說了,我不想增加任何字段,但這時候又沒有顯式的標識列,怎麼取出標識列呢?(可以是序號列,GUID,等)

  上個問題先不講,先看看這個問題。

  我們分別在三種數據庫中看一下處理辦法,就是通常我們用的Sqlserver2000,Sqlserver2005,Oracle 10g.

  1.   SQL Server 2000 構造序號列

方法一:
SELECT 序號= 
  (SELECT COUNT(客戶編號) FROM 客戶 AS a WHERE a.客戶編號<= b.客戶編號), 
  客戶編號,公司名稱 FROM 客戶 AS b ORDER BY 1;
方法二:
SELECT 序號= COUNT(*), 
a.客戶編號, a.公司名稱 FROM 客戶 AS a, 客戶 AS b 
WHERE a.客戶編號>= b.客戶編號 GROUP BY a.客戶編號, b.公司名稱 ORDER BY 序號;



  2.   SQL Server 2005 構造序號列 

方法一:
SELECT RANK() OVER (ORDER BY 客戶編號 DESC) AS 序號, 客戶編號,公司名稱 FROM 客戶;
方法二:
WITH TABLE AS 
   (SELECT ROW_NUMBER() OVER (ORDER BY 客戶編號 DESC) AS 序號, 客戶編號,公司名稱 FROM 客戶)
SELECT * FROM TABLE
WHERE 序號 BETWEEN 1 AND 3;

  3.   Oracle 裡 rowid 也可看做默認標識列 

  在Oracle中,每一條記錄都有一個rowid,rowid在整個數據庫中是唯一的,rowid確定了每條記錄是在Oracle中的哪一個數據文件、塊、行上。

  在重復的記錄中,可能所有列的內容都相同,但rowid不會相同,所以只要確定出重復記錄中那些具有最大rowid的就可以了,其余全部刪除。

select * from test;
select * from test group by id having count(*)>1
select * from test group by id
select distinct * from test
delete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);

  扯遠了,回到原來的問題,除了采用數據結構的思想來處理,因為數據庫特有的事務處理,能夠把數據緩存在線程池裡,這樣也相當於臨時表的功能,所以,我們還可以用游標來解決刪除重復記錄的問題。

 1 declare @max int,
 2     @id int 
 3 declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1 
 4 open cur_rows 
 5 fetch cur_rows into @id ,@max 
 6 while @@fetch_status=0 
 7 begin 
 8   select @max = @max -1 
 9   set rowcount @max   --讓這個時候的行數等於少了一行的統計數 
10   delete from test where id = @id 
11   fetch cur_rows into @id ,@max 
12 end 
13 close cur_rows 
14 set rowcount 0 


  以上是閃電查閱一些資料寫出的想法,有考慮不周的地方,歡迎大家指出。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved