重復的數據可能有這樣兩種情況,第一種: 表中只有某些字段一樣,第二種是兩行記錄完全一樣。
一、對於部分字段重復數據的刪除 1.查詢重復的數據
select 字段1,字段2, count(*) from 表名 group by 字段1,字段2 having count(*) > 1
例:Select owner from dba_tables group by owner having count(*)>1;
Select owner from dba_tables group by owner having count(*)=1; //查詢出沒有重復的數據
2.刪除重復的數據
delete from 表名 a where 字段1,字段2 in (select 字段1,字段2,count(*) from 表名 group by 字段1,字段2 having count(*) > 1)
這種刪除執行的效率非常低,對於大數據量來說,可能會將數據庫吊死。
另一種高效率的方法是先將查詢到的重復的數據插入到一個臨時表中,然後再進行刪除。
CREATE TABLE 臨時表 AS
(
select 字段1,字段2, count(*) as row_num
from 表名
group by 字段1,字段2
having count(*) > 1
);
上面這句話就是建立了臨時表,並將查詢到的數據插入其中。
下面就可以進行這樣的刪除操作了:
delete from 表名 a
where 字段1,字段2 in (select 字段1,字段2 from 臨時表);
3.保留重復數據中最新的一條記錄 在Oracle中,rowid是隱藏字段,用來唯一標識每條記錄。所以,只要保留重復數據中rowid最大的一條記錄就可以了。
查詢重復數據:
select a.rowid,a.* from 表名 a
where a.rowid != (
select max(b.rowid) from 表名 b
where a.字段1 = b.字段1 and a.字段2 = b.字段2 );
例:selete from dba_tables a
where a.rowid!=(
select max(rowid) from test b
where a.owner=b.owner);
刪除重復數據,只保留最新的一條數據:
delete from 表名 a
where a.rowid != (
select max(b.rowid) from 表名 b
where a.字段1 = b.字段1 and a.字段2 = b.字段2 )
使用臨時表實現高效查詢
create table 臨時表 as
(select a.字段1, a.字段2, MAX(a.ROWID) as dataid from 正式表 a
GROUP BY a.字段1,a.字段2);
delete from 表名 a
where a.rowid !=
( select b.dataid from 臨時表 b
where a.字段1 = b.字段1 and
a.字段2 = b.字段2 );
commit;
二、對於完全重復記錄的刪除 對於表中兩行記錄完全一樣的情況,可以用下面語句獲取到去掉重復數據後的記錄:
select distinct * from 表名
可以將查詢的記錄放到臨時表中,然後再將原來的表記錄刪除,最後將臨時表的數據導回原來的表中。如下:
CREATE TABLE 臨時表 AS (select distinct * from 表名);
drop table 正式表;
insert into 正式表 (select * from 臨時表);
drop table 臨時表; 假如想刪除一個表的重復數據,可以先建一個臨時表,將去掉重復數據後的數據導入到臨時表,然後在從臨時表將數據導入正式表中,如下: INSERT INTO t_table_bak
select distinct * from t_table;