ETL是將業務系統的數據經過抽取、清洗轉換之後加載到數據倉庫的過程,目的是將企業中的分散、零亂、標准不統一的數據整合到一起,為企業的決策提供分析的依據
ETL是BI項目最重要的一個環節,通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL也是一個長期的過程,只有不斷的發現問題並解決問題,才能使ETL運行效率更高,為項目後期開發提供准確的數據。
ETL的設計分三部分:數據抽取、數據的清洗轉換、數據的加載。在設計ETL的時候也是從這三部分出發。數據的抽取是從各個不同的數據源抽取到ODS中(這個過程也可以做一些數據的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL三個部分中,花費時間最長的是T(清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。數據的加載一般在數據清洗完了之後直接寫入DW中去。
ETL的實現有多種方法,常用的有三種,第一種是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服務、informatic等實現,第二種是SQL方式實現,第三種是ETL工具和SQL相結合。前兩種方法各有優缺點,借助工具可以快速的建立起ETL工程,屏蔽復雜的編碼任務,提高速度,降低難度,但是欠缺靈活性。SQL的方法優點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高。第三種是綜合了前面二種的優點,極大的提高ETL的開發速度和效率。
數據的抽取
數據的抽取需要在調研階段做大量工作,首先要搞清楚以下幾個問題:數據是從幾個業務系統中來?各個業務系統的數據庫服務器運行什麼DBMS?是否存在手工數據,手工數據量有多大?是否存在非結構化的數據?等等類似問題,當收集完這些信息之後才可以進行數據抽取的設計。