這裡會討論令Oracle停機時間最小化的步驟。各種形式的停機--計劃的或者是非計劃的--總是不斷地發生,一個DBA應該有正確的備份策略,這樣在數據庫出現問題時就可以更快地恢復。
以下是假定的備份策略和數據庫的運作條件
控制文件是鏡像的
數據庫運行在archivelog模式
每個星期都進行冷備份
每日都進行熱備份
每日都進行一次全數據庫導出
事件1:完整的數據庫重構
在這種情形下,你可以使用全數據庫導出或者冷熱備份結合的方式來重構數據庫。要注意的是無論你選擇哪種方式,在線redo log中的事務都會丟失。
事件2:恢復部分的表空間
可以使用以下的步驟來恢復:
1、以restrict模式啟動數據庫
2、重新創建表空間
3、使用最新的全數據庫導出來導入,並且使用ignore=y的選項;
4.關閉並且重新以normal的模式啟動數據庫實例
事件3:丟失一般的數據文件
丟失一般數據文件的恢復步驟根據所丟失的數據文件包含的表空間類型而定;例如:回滾段,用戶表空間,索引表空間或者是只讀的表空間、你可能會遇到以下的錯誤:
. 嘗試啟動數據庫並且碰到錯誤的信息ORA-1157, ORA-1110,可能還有一個操作系統的錯誤
. 嘗試以normal或者immediate的模式關閉數據庫,可能會碰到ORA-1116, ORA-1110的錯誤信息,還有一個系統錯誤
以下的步驟可以用作恢復:
1、關閉數據庫
2、由熱備份中恢復丟失的數據文件
3、Startup mount數據庫
4、執行以下的查詢來得到所有你的在線redo log文件和它們相應的次序和首次修改號:
SELECT X.GROUP#, MEMBER, SEQUENCE#, FIRST_CHANGE#
FROM V$LOG X, V$LOGILE Y
WHERE X.GROUP# = Y.GROUP#;
5、如果得到的CHANGE#比在線redo log最小的FIRST_CHANGE# 還小,那麼該文件不能被完全恢復,你可以有兩個選擇:
. 如果可以接受丟失最近一次冷備份以來的數據庫修改,裝入備份並且繼續恢復
. 如果不能接受丟失數據庫的修改,那麼必須重新創建表空間
6、通過使用存檔和在線的redo log來恢復數據文件
7、打開數據庫
事件4:恢復一個特別的表
可以采用以下的步驟恢復:
1、使用最近的一次全數據庫導出來導入表,並且使用owner=和tables=的選項
2、考慮到性能的原因,可能需要重建表索引
事件5:丟失控制文件
在數據庫起來並且運行時,通常都不能檢測到控制文件的問題、如果控制文件丟失或者損壞了,Oracle將不會了解,下次數據庫的啟動時將會導致ORA-205錯誤(標識控制文件"%s的錯誤),還有一個系統級的錯誤、
如果只是丟失了其中的一個控制文件,可以采用下面的步驟來恢復:
1、如果它正在運行的話,先關閉它
2、查找丟失控制文件的原因、是由於硬件的問題嗎(磁盤還是控制器)?
3、如果不是硬件的問題,將控制文件的一個好的拷貝復制到丟失的位置,並且跳到步驟5、
4、如果是硬件的問題,復制一個好的控制文件拷貝到一個可靠的位置
5、編輯initsid.ora 或者 configsid.ora,更新CONTROL_FILES以反映最新的控制文件位置
6、啟動數據庫
事件6:丟失全部的控制文件
可以采用以下的步驟恢復:
1、關閉數據庫
2、進行一次全數據庫備份,包括全部的數據文件和redo log文件
3、以NOMOUNT的狀態啟動數據庫
4、使用CREATE CONTROLFILE重新創建控制文件、你也可以備份控制文件到一個trace文件,然後執行該文件
5、在數據庫上進行媒體恢復
6、打開數據庫
7、使用shutdown normal關閉數據庫
8、對數據庫進行一次冷備份
事件7:丟失一個索引
最簡單的方法就是重新創建丟失的索引
事件8:丟失一個非活動的redo log
如果丟失redo數據,恢復將是不完全的,必須重新創建涉及的表空間。要重新創建表空間,可以使用全的數據庫導出,這樣就可以很容易的導入數據並且重新創建該表空間的對象。可以使用以下的步驟來恢復:
1、通過Alter system來切換redo log文件
2、關閉數據庫
3、startup mount數據庫
4、離線刪除涉及的數據文件
5、打開數據庫
6、刪除用戶的表空間,包括其中的內容、
7、通過全數據庫備份重新創建表空間和其中的對象
事件9:丟失活動的Redo log
如事件8討論的一樣,如果丟失了redo數據,恢復將是不完全的,必須重新創建涉及的表空間、可以采用以下的步驟恢復:
1、關閉數據庫
2、startup mount數據庫
3、離線刪除涉及的數據文件
4、打開數據庫
5、刪除用戶的表空間,包括其中的內容、
6、通過全數據庫備份重新創建表空間和其中的對象
要注意的是活動的事務將會丟失
事件10:丟失存檔的Redo log文件
如果存檔的redo log文件丟失,應該馬上進行一次冷備份、最好也進行一次全數據庫導出、沒有丟失的存檔redo log文件的任何恢復都將是不完全的、
事件11:丟失活動的回滾段
這裡指的是丟失一個回滾段的一個數據文件、這是一個危急的恢復過程,它主要是在於保存活動的事務。這裡假定數據庫已經起來,而你想保存當前運行的事務。要使用以下的恢復過程,數據庫必須運行在archivelog模式下。
可以使用以下步驟恢復:
1、不要關閉數據庫、對於這種事件,數據庫啟動比關閉更容易解決問題、
2、令屬於該數據文件中的全部回滾段離線
3、刪除全部離線的回滾段
4、在上面的第2步中,如果回滾段中有活動的事務,你將不能令它離線、可運行以下的查詢來查看哪些事物是活動的:
SELECT SEGMENT_NAME, XACTS ACTIVE_TX, V.STATUS
FROM V$ROLLSTAT V, DBA_ROLLBACK_SEGS
WHERE TABLESPACE_NAME = 'tablespace_name' AND
SEGMENT_ID = USN;
如果上面的查詢沒有結果,那麼所有的回滾段都是離線的,但是,如果上面的查詢返回一行或者多行,並且其狀態為PENDING OFFLINE,那麼可檢查這些回滾段的ACTIVE_TX列、帶有0值的回滾段將很快會離線;但是,非0的值表示上面有活動的事務,它們需要被提交或者回滾、
5、處理活動的事務、執行以下的查詢來查看哪些用戶的事務被指派到該回滾段:
SELECT S.SID, S.SERIAL#, S.USERNAME, R.NAME "ROLLBACK"
FROM V$SESSION S, V$TRANSACTION T, V$ROLLNAME R
WHERE R.NAME IN ('pending_rollback1','pending_rollback2', .... 'pending_rollbackN') AND
S.TADDR = T.ADDR AND
T.XIDUSN = R.USN;
在知道哪些用戶在"pending offline"的回滾段上有活動的事務後,可以要求他們提交或者回滾他們的事務,或者可以使用以下的命令殺掉它們的進程:
ALTER SYSTEM KILL SESSION 'sid, serial#';
6、在你處理完所有活動的事務後,執行以下的步驟:
丟棄表空間及其中的全部內容
重新創建回滾表空間
重新創建回滾段,並且令它們在線
事件12:丟失全部的回滾段
在這種事件下,將丟失全部活動的事務,並且需要重新創建回滾段。這樣大的問題可能是由於一個硬件問題造成的,可以采用以下的步驟恢復:
1、關閉數據庫
2、使用DBVERIFY驗證全部的數據文件
3、解決其它的硬件問題或者數據文件損壞
4、以startup mount的方式啟動數據庫實例
5、在數據庫上執行媒體恢復
6、打開數據庫
7、按需要創建新的回滾段
事件13:導出文件損壞
如果導出文件不能用了,那麼應該冷備份數據庫並且進行一個全的數據庫導出、這是假定數據庫自身沒有問題、如果數據庫也損壞了,那麼應該執行以下的步驟:
1、ORA-1157錯誤信息通常都表示一個或者多個的數據文件損壞了。查明哪些表受到影響,它們應該是錯誤信息中指明的數據文件中的表格
2、跳過壞的數據塊,將數據由表格中選擇到臨時表格中、
3、丟棄損壞的表
4、將臨時表重命名為丟棄的表
5、重新建立受影響表上的全部索引
6、使用VALIDATE STRUCTURE CASCADE的選項來分析全部損壞的表
要注意的是損壞塊中數據將會丟失並且不能恢復
事件14:在熱備份時關機
如果在熱備份正在進行的時候突然關機,其中的一些表空間將可能處在備份模式、當你嘗試打開數據庫時,它將只能mount,並且指示某些表空間處於熱備份模式、由於數據庫不能打開,你將不能讓表空間脫離熱備份模式、你可以使用以下的步驟恢復:
1、startup mount數據庫
2、查詢v$backup以查看哪些數據文件處於ACTIVE狀態、
3、通過使用命令ALTER DATABASE DATAFILE END BACKUP.來將這些數據文件脫離備份模式
4、打開數據庫
事件15:恢復到某個特別的時間點
以下的步驟可用來執行point-in-time恢復
1、關閉數據庫實例
2、以NOMOUNT的狀態啟動數據庫實例
3、使用UNTIL的選項來恢復數據庫
4、打開數據庫
5、Shutdown NORMAL
6、啟動數據庫實例
事件16:恢復到一個特別的事件或者活動
可以使用以下的步驟來恢復:
1、關閉數據庫實例
2、以NOMOUNT狀態啟動數據庫實例;
3、使用UNTIL CANCEL來恢復數據庫,提供存檔的redo log文件請求直到該活動/事件為止
4、輸入CANCEL來取消恢復
5、打開數據庫;
6、使用NORMAL的模式來關閉數據庫
7、啟動數據庫實例
結論
高可用性對於任何的商業都是很重要的,Oracle DBA可以通過一些計劃以確保停機時間最小化、這篇文章討論了不同的策略可以達到這個目的。