程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> 存儲優化 - 刪除重復記錄只保留單條

存儲優化 - 刪除重復記錄只保留單條

編輯：關於SqlServer

　　由於前端提交處理做的不到位或者數據庫設計的不夠合理，庫中通常會存在一些冗余數據，比如重復記錄就是一種，那這樣的記錄如何刪除呢？

　　我們先看一下相關數據結構的知識。

　　在學習線性表的時候，曾有這樣一個例題。

　　已知一個存儲整數的順序表La，試構造順序表Lb，要求順序表Lb中只包含順序表La中所有值不相同的數據元素。

　　算法思路：

　　先把順序表La的第一個元素付給順序表Lb，然後從順序表La的第2個元素起，每一個元素與順序表Lb中的每一個元素進行比較，如果不相同，則把該元素附加到順序表Lb的末尾。

　1　　　　　public　SeqList<int>　Purge(SeqList<int>　La)
　2　　　　　{
　3　　　　　　　SeqList<int>　Lb　=　new　SeqList<int>(La.Maxsize);
　4　　　　　　　//將a表中的第1個數據元素賦給b表
　5　　　　　　　　Lb.Append(La[0]);
　6　　　　　　　//依次處理a表中的數據元素
　7　　　　　　　for　(int　i　=　1;　i　<=　La.GetLength()　-　1;　++i)
　8　　　　　　　{
　9　　　　　　　　　int　j　=　0;
10　　　　　　　　　//查看b表中有無與a表中相同的數據元素
11　　　　　　　　　for　(j　=　0;　j　<=　Lb.GetLength()　-　1;　++j)
12　　　　　　　　　{
13　　　　　　　　　　　//有相同的數據元素
14　　　　　　　　　　　if　(La[i].CompareTo(Lb[j])　==　0)
15　　　　　　　　　　　{
16　　　　　　　　　　　　　break;
17　　　　　　　　　　　}
18　　　　　　　　　}
19　　　　　　　　　//沒有相同的數據元素，將a表中的數據元素附加到b表的末尾。
20　　　　　　　　　if　(j　>　Lb.GetLength()　-　1)
21　　　　　　　　　{
22　　　　　　　　　　　Lb.Append(La[i]);
23　　　　　　　　　}
24　　　　　　　　　return　Lb;
25　　　　　　　}
26　　　　　}

　　如果理解了這個思路，那麼數據庫中的處理就好辦了。　

　　我們可以做一個臨時表來解決問題

1　select　distinct　*　into　#Tmp　from　tableName　
2　drop　table　tableName　
3　select　*　into　tableName　from　#Tmp　
4　drop　table　#Tmp　

　　發生這種重復的原因是表設計不周產生的，增加唯一索引列即可解決。

　　但是你說了，我不想增加任何字段，但這時候又沒有顯式的標識列，怎麼取出標識列呢？（可以是序號列，GUID，等）

　　上個問題先不講，先看看這個問題。

　　我們分別在三種數據庫中看一下處理辦法，就是通常我們用的Sqlserver2000,Sqlserver2005,Oracle 10g.

　　1.　　 SQL Server 2000 構造序號列

方法一：
SELECT　序號=　
　　(SELECT　COUNT(客戶編號)　FROM　客戶　AS　a　WHERE　a.客戶編號<=　b.客戶編號),　
　　客戶編號,公司名稱　FROM　客戶　AS　b　ORDER　BY　1;
方法二：
SELECT　序號=　COUNT(*),　
a.客戶編號,　a.公司名稱　FROM　客戶　AS　a,　客戶　AS　b　
WHERE　a.客戶編號>=　b.客戶編號　GROUP　BY　a.客戶編號,　b.公司名稱　ORDER　BY　序號;

　　2.　　 SQL Server 2005 構造序號列　

方法一：
SELECT　RANK()　OVER　(ORDER　BY　客戶編號　DESC)　AS　序號,　客戶編號,公司名稱　FROM　客戶;
方法二:
WITH　TABLE　AS　
　　　(SELECT　ROW_NUMBER()　OVER　(ORDER　BY　客戶編號　DESC)　AS　序號,　客戶編號,公司名稱　FROM　客戶)
SELECT　*　FROM　TABLE
WHERE　序號　BETWEEN　1　AND　3;

　　3.　　　Oracle 裡　rowid 也可看做默認標識列　

　　在Oracle中，每一條記錄都有一個rowid，rowid在整個數據庫中是唯一的，rowid確定了每條記錄是在Oracle中的哪一個數據文件、塊、行上。

　　在重復的記錄中，可能所有列的內容都相同，但rowid不會相同，所以只要確定出重復記錄中那些具有最大rowid的就可以了，其余全部刪除。

select　*　from　test;
select　*　from　test　group　by　id　having　count(*)>1
select　*　from　test　group　by　id
select　distinct　*　from　test
delete　from　test　a　where　a.rowid!=(select　max(rowid)　from　test　b　where　a.id=b.id);

　　扯遠了，回到原來的問題，除了采用數據結構的思想來處理，因為數據庫特有的事務處理，能夠把數據緩存在線程池裡，這樣也相當於臨時表的功能，所以，我們還可以用游標來解決刪除重復記錄的問題。

　1　declare　@max　int,
　2　　　　　@id　int　
　3　declare　cur_rows　cursor　local　for　select　id　,count(*)　from　test　group　by　id　having　count(*)　>　1　
　4　open　cur_rows　
　5　fetch　cur_rows　into　@id　,@max　
　6　while　@@fetch_status=0　
　7　begin　
　8　　　select　@max　=　@max　-1　
　9　　　set　rowcount　@max　　　--讓這個時候的行數等於少了一行的統計數　
10　　　delete　from　test　where　id　=　@id　
11　　　fetch　cur_rows　into　@id　,@max　
12　end　
13　close　cur_rows　
14　set　rowcount　0　

　　以上是閃電查閱一些資料寫出的想法，有考慮不周的地方，歡迎大家指出。