程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> sql刪除重復數據的詳細方法

sql刪除重復數據的詳細方法

編輯：關於SqlServer

　　重復數據，通常有兩種：一是完全重復的記錄，也就是所有字段的值都一樣;二是部分字段值重復的記錄。

　　一. 刪除完全重復的記錄

　　完全重復的數據，通常是由於沒有設置主鍵/唯一鍵約束導致的。

　　測試數據：

　　if OBJECT_ID('duplicate_all') is not null

　　drop table duplicate_all

　　create table duplicate_all

　　(

　　c1 int,

　　c2 int,

　　c3 varchar(100)

　　)

　　insert into duplicate_all

　　select 1,100,'aaa' union all

　　select 2,200,'bbb' union all

　　select 3,300,'ccc' union all

　　select 4,400,'ddd' union all

　　select 5,500,'eee'

　　(1) 借助臨時表

　　利用DISTINCT得到單條記錄，刪除源數據，然後導回不重復記錄。

　　如果表不大的話，可以把所有記錄導出一次，然後truncate表後再導回，這樣可以避免delete的日志操作。

　　if OBJECT_ID('tempdb..#tmp') is not null

　　drop table #tmp

　　select distinct * into #tmp

　　from duplicate_all

　　where c1 = 1

　　delete duplicate_all where c1 = 1

　　insert into duplicate_all

　　select * from #tmp

　　(2) 使用ROW_NUMBER

　　with tmp

　　(

　　select *,ROW_NUMBER() OVER(PARTITION BY c1,c2,c3 ORDER BY(getdate())) as num

　　from duplicate_all

　　where c1 = 1

　　)

　　delete tmp where num > 1

　　如果多個表有完全重復的行，可以考慮通過UNION將多個表聯合，插到一個新的同結構的表，SQL Server會幫助去掉表和表之間的重復行。

　　二. 刪除部分重復的記錄

　　部分列重復的數據，通常表上是有主鍵的，可能是程序邏輯造成了多行數據列值的重復。

　　測試數據：

　　if OBJECT_ID('duplicate_col') is not null

　　drop table duplicate_col

　　create table duplicate_col

　　(

　　c1 int primary key,

　　c2 int,

　　c3 varchar(100)

　　)

　　insert into duplicate_col

　　select 1,100,'aaa' union all

　　select 2,100,'aaa' union all

　　select 3,100,'aaa' union all

　　select 4,100,'aaa' union all

　　select 5,500,'eee'

　　(1) 唯一索引

　　唯一索引有個忽略重復建的選項，在創建主鍵約束/唯一鍵約束時都可以使用這個索引選項。

　　if OBJECT_ID('tmp') is not null

　　drop table tmp

　　create table tmp

　　(

　　c1 int,

　　c2 int,

　　c3 varchar(100),

　　constraint UQ_01 unique(c2,c3) with(IGNORE_DUP_KEY = ON)

　　)

　　insert into tmp

　　select * from duplicate_col

　　select * from tmp

　　(2) 借助主鍵/唯一鍵來刪除

　　通常會選擇主鍵/唯一鍵的最大/最小值保留，其他行刪除。以下只保留重復記錄中c1最小的行。

　　delete from duplicate_col

　　where exists(select 1 from duplicate_col b where duplicate_col.c1 > b.c1 and (duplicate_col.c2 = b.c2 and duplicate_col.c3 = b.c3))

　　--或者

　　delete from duplicate_col

　　where c1 not in (select min(c1) from duplicate_col group by c2,c3)

　　如果要保留重復記錄中的第N行，可以參考05.取分組中的某幾行。

　　(3) ROW_NUMBER

　　和刪除完全重復記錄的寫法基本一樣。

　　with tmp

　　(

　　select *,ROW_NUMBER() OVER(PARTITION BY c2,c3 ORDER BY(getdate())) as num

　　from duplicate_col

　　)

　　delete tmp where num > 1

　　select * from duplicate_col

上一頁:SQL Server 日志文件清理
下一頁:SQL2008全部數據導出導入兩種方法

關於SqlServer

利用DBCC PAGE查看SQL Server中的表和索引數據

　　問題　　我讀了很多關於數據庫頁和如何利用它們來存儲表

SQLServer中的事務和鎖

　　SQL Server中的事務和鎖　　事務全部

sql2005安裝圖解

首先當然是下載SQL Server 2005。不過這裡要強調

IIS、SQL Server 和ASP.NET安全設置解決方案(1)

SQL

Windows2012配置SQLServer2014AlwaysOn的圖解

SQLserver 2014 AlwaysOn增強了原有的數

T-SQL查詢進階：基於列的邏輯表達式

引言T-SQL不僅僅是一個用於查詢數據庫的語言

熱門圖文

MYSQL的binary解決mysql數據大小寫敏感問題 SQL Server 中死鎖產生的原因及解決辦法 MySQL數據庫罕見的BUG——Can't get hostname for your address，mysqlhostname 多條件運算時SQL的寫法 SQL重復記錄查詢查詢多個字段、多表查詢、刪除重復記錄的方法，sql字段 MySQL入門（七）——視圖 mysql limit查詢語句的優化技巧分享，mysqllimit 在Mac OS上安裝使用MongoDB的教程

欄目導航

SqlServer2005 SqlServer2008 關於SqlServer