前幾天看到一篇" SQL Server DBA三十問",很不錯,比較中肯。這些題目還是需要一定操作經驗的才能答得上來,其中的很多題目都可以通過books online查到,有些題目我也非常感興趣,因為也處理過類似的問題,所以印象深刻,現在把我的答案寫出來,希望可以幫到有緣人,如果有更好的方案,當然我也很樂意學學。
題目:7. 在線系統,一個表有五千萬記錄,現在要你將其中的兩千萬條記錄導入到另一台服務器的某個表中,導完後,需要將這兩千萬數據刪 除,你預備如何處理,優缺點是什麼;
我的答案: (先說明一下我的環境是sqlserver 2000,並且假設他有主鍵id)
第1步:先做一個表,t_update_log,記錄更新過的記錄的主鍵id,記錄修改和刪除的記錄,這步驟的具體作用看下面的步驟;
第2步:導出2000萬的數據到另一個庫另一表,我起名為 t_2000w ,我是用dts來處理的,效率很好,如果沒有大字段,2000萬大概3個小時可以導完,如果有大字段,比如很大的varchar,text,ntext 等,那需要的時間久會比較長,具體時間還要看數據的大小。
第3步:刪除當前庫導出的2000萬,我把當前庫起名為 t_5000w, 我是這樣來處理的,首先建一個和源數據表相同結構的表,起名t_3000w,導入剩下的3000萬條數據,然後用sp_rename 分別修改兩個表,把t_5000w改成t_5000w_bak,把t_3000w改成t_5000w(即源表), 大概就是這樣,很easy吧。
別急,第一步的准備工作還沒用上呢,而且還有很多細節的問題。
Q1:如何保證數據的准確性,如果你在導入的同時有人對數據進行了更新怎麼辦?
Q2:盡量減少對用戶的影響,如果在sp_rename修改表名稱需要的時間比較長,而且剛好有數據需要insert怎麼辦?
我的解決方案:
A1:剛好用到了第1步的表t_update_log,把有更新的記錄再重新導入到新表t_2000w,從此記錄表中t_update_log找出被刪除的id,從t_2000w中刪除;
A2:修改對表t_5000w的insert操作接口,可以再建一個結構和t_5000w一樣的新表,取名t_6000w,如果有自增id,把自增id的當前值設置為6000w,然後新增的數據都insert到t_6000w中,如果你的數據庫操作都是通過存儲過程統一操作,那很幸運,你只需要修改存儲過程,不需要修改你的。net程序,你甚至可以不停止服務就可以順利升級,在這裡存儲過程的優越性得到了充分體現,如果你不是通過存儲過程,而是sql語句,而且調用的地方很多,那我建議,升級期間你還是暫停服務吧。
當然以上操作都是需要再測試環境下演練一遍,記錄下每一部需要的時間,並且做好失敗時能及時恢復到之前狀態。當然升級期間還是建議暫停服務,因為大部分人可以接受暫停服務,但不能接受數據丟失。