程式師世界 >> 數據庫知識 >> MYSQL數據庫 >> 關於MYSQL數據庫 >> 數據庫優化之刪除重復記錄只保留單條

數據庫優化之刪除重復記錄只保留單條

編輯：關於MYSQL數據庫

由於前端提交處理做的不到位或者數據庫設計的不夠合理，庫中通常會存在一些冗余數據，比如重復記錄就是一種，那這樣的記錄如何刪除呢?

　　我們先看一下相關數據結構的知識。

　　在學習線性表的時候，曾有這樣一個例題。

　　已知一個存儲整數的順序表La，試構造順序表Lb，要求順序表Lb中只包含順序表La中所有值不相同的數據元素。

　　算法思路：

　　先把順序表La的第一個元素付給順序表Lb，然後從順序表La的第2個元素起，每一個元素與順序表Lb中的每一個元素進行比較，如果不相同，則把該元素附加到順序表Lb的末尾。

　　1 public SeqList Purge(SeqList La) 2 { 3 SeqList Lb = new SeqList(La.Maxsize); 4 //將a表中的第1個數據元素賦給b表 5 Lb.Append(La[0]); 6 //依次處理a表中的數據元素 7 for (int i = 1; i <= La.GetLength() - 1; ++i) 8 { 9 int j = 0;10 //查看b表中有無與a表中相同的數據元素11 for (j = 0; j <= Lb.GetLength() - 1; ++j)12 {13 //有相同的數據元素14 if (La[i].CompareTo(Lb[j]) == 0)15 {16 break;17 }18 }19 //沒有相同的數據元素，將a表中的數據元素附加到b表的末尾。20 if (j > Lb.GetLength() - 1)21 {22 Lb.Append(La[i]);23 }24 return Lb;25 }26 }

　　如果理解了這個思路，那麼數據庫中的處理就好辦了。

　　我們可以做一個臨時表來解決問題

　　1 select distinct * into #Tmp from tableName 2 drop table tableName 3 select * into tableName from #Tmp 4 drop table #Tmp

　　發生這種重復的原因是表設計不周產生的，增加唯一索引列即可解決。

　　但是你說了，我不想增加任何字段，但這時候又沒有顯式的標識列，怎麼取出標識列呢?(可以是序號列，GUID，等)

　　上個問題先不講，先看看這個問題。

　　我們分別在三種數據庫中看一下處理辦法，就是通常我們用的Sqlserver2000,Sqlserver2005,Oracle 10g.

　　1. SQL Server 2000 構造序號列

　　方法一：SELECT 序號= (SELECT COUNT(客戶編號) FROM 客戶 AS a WHERE a.客戶編號<= b.客戶編號), 客戶編號,公司名稱 FROM 客戶 AS b ORDER BY 1;方法二：SELECT 序號= COUNT(*), a.客戶編號, a.公司名稱 FROM 客戶 AS a, 客戶 AS b WHERE a.客戶編號>= b.客戶編號 GROUP BY a.客戶編號, b.公司名稱 ORDER BY 序號;

　　2. SQL Server 2005 構造序號列

　　方法一：SELECT RANK() OVER (ORDER BY 客戶編號 DESC) AS 序號, 客戶編號,公司名稱 FROM 客戶;方法二:WITH TABLE AS (SELECT ROW_NUMBER() OVER (ORDER BY 客戶編號 DESC) AS 序號, 客戶編號,公司名稱 FROM 客戶)SELECT * FROM TABLEWHERE 序號 BETWEEN 1 AND 3;

　　3. Oracle 裡 rowid 也可看做默認標識列

　　在Oracle中，每一條記錄都有一個rowid，rowid在整個數據庫中是唯一的，rowid確定了每條記錄是在Oracle中的哪一個數據文件、塊、行上。

　　在重復的記錄中，可能所有列的內容都相同，但rowid不會相同，所以只要確定出重復記錄中那些具有最大rowid的就可以了，其余全部刪除。

　　select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);

　　扯遠了，回到原來的問題，除了采用數據結構的思想來處理，因為數據庫特有的事務處理，能夠把數據緩存在線程池裡，這樣也相當於臨時表的功能，所以，我們還可以用游標來解決刪除重復記錄的問題。

　　1 declare @max int, 2 @id int 3 declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1 4 open cur_rows 5 fetch cur_rows into @id ,@max 6 while @@fetch_status=0 7 begin 8 select @max = @max -1 9 set rowcount @max --讓這個時候的行數等於少了一行的統計數,想想看,為什麼 10 delete from test where id = @id 11 fetch cur_rows into @id ,@max 12 end 13 close cur_rows 14 set rowcount 0