在我們建立一個數據庫時,並且想將分散在各處的不同類型的數據庫分類匯總在這個新建的數據庫中時,尤其是在進行數據檢驗、淨化和轉換時,將會面臨很大的挑戰。幸好SQL Server為我們提供了強大、豐富的數據導入導出功能,並且在導入導出的同時可以對數據進行靈活的處理。
在SQL Server中主要有三種方式導入導出數據:使用Transact-SQL對數據進行處理;調用命令行工具BCP處理數據;使用數據轉換服務(DTS)對數據進行處理。這三種方法各有其特點,下面就它們的主要特點進行比較。
一、使用方式的比較
1. 使用Transact-SQL進行數據導入導出
我們很容易看出,Transact-SQL方法就是通過SQL語句方式將相同或不同類型的數據庫中的數據互相導入導出或者匯集在一處的方法。如果是在不同的SQL Server數據庫之間進行數據導入導出,那將是非常容易做到的。一般可使用SELECT INTO FROM和INSERT INTO。使用 SELECT INTO FROM時INTO後跟的表必須存在,也就是說它的功能是在導數據之前先建立一個空表,然後再將源表中的數據導入到新建的空表中,這就相當於表的復制(並不會復制表的索引等信息)。而INSERT INTO的功能是將源數據插入到已經存在的表中,可以使用它進行數據合並,如果要更新已經存在的記錄,可以使用UPDATE。
SELECT * INTO table2 FROM table1
--table1和table2的表結構相同
INSERT INTO table2 SELECT * FROM table3
--table2和table3的表結構相同
當在異構數據庫之間的進行數據導入導出時,情況會變得復雜得多。首先要解決的是如何打開非SQL Server數據庫的問題。
在SQL Server中提供了兩個函數可以根據各種類型數據庫的OLE DB Provider打開並操作這些數據庫,這兩個函數是OPENDATASOURCE和OPENROWSET。它們的功能基本上相同,不同之處主要有兩點。
(1) 調用方式不同。
OPENDATASOURCE的參數有兩個,分別是OLE DB Provider和連接字符串。使用OPENDATASOURCE只相當於引用數據庫或者是服務(對於SQL Server、Oracle等數據庫來說)。要想引用其中的數據表或視圖,必須在OPENDATASOURCE(...)後進行引用。
在SQL Server中通過OPENDATASOURCE查詢Access數據庫abc.mdb中的table1表
SELECT * FROM OPENDATASOURCE(''Microsoft.Jet.OLEDB.4.0'',
''Provider=Microsoft.Jet.OLEDB.4.0;Data Source=abc.mdb;Persist Security
Info=False'')...
table1
OPENROWSET相當於一個記錄集,可以將直接當成一個表或視圖使用。
在SQL Server中通過OPENROWSETE查詢Access數據庫abc.mdb中的table1表
SELECT * FROM OPENROWSET(''Microsoft.Jet.OLEDB.4.0'', ''abc.mdb'';
''admin'';'''',''SELECT * FROM table1'')
(2) 靈活度不同。
OPENDATASOURCE只能打開相應數據庫中的表或視圖,如果需要過濾的話,只能在SQL Server中進行處理。而OPENROWSET可以在打開數據庫的同時對其進行過濾,如上面的例子,在OPENROWSET中可以使用SELECT * FROM table1對abc.mdb中的數據表進行查詢,而OPENDATASOURCE只能引用table1,而無法查詢table1。因此,OPENROWSET比較OPENDATASOURCE更加靈活。
2. 使用命令行BCP導入導出數據
很多大型的系統不僅僅提供了友好的圖形用戶接口,同時也提供了命令行方式對系統進行控制。在SQL Server中除了可以使用SQL語句對數據進行操作外,還可以使用一個命令行工具BCP對數據進行同樣的操作。BCP是基於DB-Library 客戶端庫的工具。它的功能十分強大,BCP能夠以並行方式將數據從多個客戶端大容量復制到單個表中,從而大大提高了裝載效率。但在執行並行操作時要注意的是只有使用基於 ODBC 或 SQL OLE DB 的 API 的應用程序才可以執行將數據並行裝載到單個表中的操作。
BCP可以將SQL Server中的數據導出到任何OLE DB所支持的數據庫的,如下面的語句是將authors表導出到Excel文件中。
bcp pubs.dbo.authors out c: emp1.xls
-c -q -S"GNETDATA/GNETDATA" -U"sa" -P"passWord"
BCP不僅能夠通過命令行執行,同時也可以通過SQL執行,這需要一個系統存儲過程xp_cmdshell來實現,如上面的命令可改寫為如下形式。
EXEC master..xp_cmdshell ''bcp pubs.dbo.authors out
c: emp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P"passWord"''
3. 使用數據轉換服務(DTS)導入導出數據
DTS是SQL Server中導入導出數據的核心,它除有具有SQL和命令行工具BCP相應的功能外,還可以靈活地通過VBScript、JScript等腳本語言對數據進行檢驗、淨化和轉換。
SQL Server為DTS提供了圖形用戶接口,用戶可以使用圖形界面導入導出數據,並對數據進行相應的處理。同時,DTS還以com組件的形式提供編程接口,也就是說任何支持com組件的開發工具都可以利用com組件使用DTS所提供的功能。DTS在SQL Server中可以保存為不同的形式,可以是包的形式,也可以保存成Visual Basic源程序文件,這樣只要在VB中編譯便可以使用DTS com組件了。
DTS和其它數據導入導出方式最大的不同就是它可以在處理數據的過程中對每一行數據進行深度處理。以下是一段VBScript代碼,這段代碼在處DTS理每一條記錄時執行,DTSDestination表示目標記錄,DTSSource表示源記錄,在處理“婚姻狀況”時,將源記錄中的“婚姻狀況”中的0或1轉換成目標記錄中“已婚”或“未婚”。
Function Main()
DTSDestination("姓名") = DTSSource("姓名")
DTSDestination("年齡") = DTSSource("年齡")
If DTSDestination("婚姻狀況") = 1 Then
DTSDestination("婚姻狀況") = "已婚"
Else
DTSDestination("婚姻狀況") = "未婚"
End If
Main = DTSTransformStat_OK
End Function
上述的三種數據導入導出方法各有其利弊,它們之間的相互比較如圖1如示。
<>B二、性能的比較
使用Transact-SQL方式。如果是SQL Server數據庫之間的導入導出,速度將非常快,但是使用OPENDATASOURCE和OPENROWSET方法利用OLE DB Provider打開並操作數據庫時速度會慢一些。
使用BCP命令方式。如果不需要對數據進行驗證等操作的話,使用它還是非常快的,這是因為它的內部使用c接口的DB-library,所以在操作數據庫時速度有很大的提升。
使用DTS方式導數據應該是最好的方式了。由於它整合了Microsoft Universal Data Access技術與Microsoft ActiveX技術,因此不僅可以靈活地處理數據,而且在數據導入導出的效率是非常高的。
總結
SQL Server提供了豐富的數據導入導出方法,這給我們提供了更多的選擇,但是這又會給我們帶來一個新問題:如何根據具體情況選擇合適的數據導入導出方法呢?我在這裡提供一些個人的建議,希望能對讀者起到一定的指導作用。
如果是在SQL Server數據庫之間進行數據導入導出時,並且不需要對數據進行復雜的檢驗,最好使用Transact-SQL方法進行處理,因為在SQL Server數據庫之間進行數據操作時,SQL是非常快的。當然,如果要進行復雜的操作,如數據檢驗、轉換等操作時,最好還是使用DTS進行處理,因為DTS不光導數據效率高,而且能夠對數據進行深度控制。但是DTS的編程接口是基於com的,並且這個接口十分復雜,因此,使用程序調用DTS將變也會變得很復雜,因此, 當數據量不是很大,並且想將數據導入導出功能加入到程序中,而且沒有復雜的數據處理功能時,可以使用OPENDATASOURCE或OPENROWSET進行處理。
BCP命令並不太適合通過程序來調用,如果需要使用批量的方式導數據,可以通過批處理文件調用BCP命令,這樣做即不需要編寫大量的程序,也無需在企業管理器中通過各種操作界面的切換來進行數據導入導出。因此,它比較適合在客戶端未安企業管理器或使用SQL Server Express時對數據進行快速導入導出的場合。