簡介
集成工作永無止境。IT 環境在不斷變化。新的應用程序在網上源源不斷地出現。對已打包的應用程序進行發行版級別的更改會對整個基礎結構產生連鎖反應。人們總是想嘗試使用下一個新工具或新技術。我們做出的投資必須著眼於未來。因此,公司內出現了專注於一個集成體系結構的組織。不管是稱作信息管理(Information Management)、集成服務(Integration Service)還是數據體系結構(Data Architecture),公司內的專門部門都在解決集成業務以及定義集成體系結構和基礎結構(提供其未來業務的基礎)方面的問題。
集成是一項很艱巨的工作,因為信息的增加和信息源的多樣性結合在一起,檢索有用信息的工作變得非常復雜。企業必須不僅能訪問傳統的應用程序來源(比如關系數據庫),還要能訪問可擴展標記語言(Extensible Markup Language,XML)文檔、文本文檔、掃描的圖像、視頻剪輯、傳入的新聞、Web 內容、電子郵件、分析性三維數據和特殊用途的存儲(包括內部和外部)。由於組織上或操作上的約束,通常不能對來自不同的分布式數據源的信息進行完全復制或將其合並到單個數據庫中。雖然可以發現隱含的信息,但是當信息相互關聯時會更加輕松地把握機會,同時才能更好為客戶服務。
眾多市場(比如企業應用程序集成、數據倉庫、企業內容管理、門戶網站和應用程序服務器)中的技術供應商已經開始將他們的關注焦點轉向整體集成問題。這使得我們更難選擇能滿足業務需求的最佳技術。而且,拳頭產品的市場定位常常使利用後續項目中某個實現的優勢變得很難。
雖然競爭對手們可能只提供特殊領域的集成,但是 IBM 可以提供綜合的集成平台,該平台具有許多可以無縫地在一起工作的產品。本文著重討論 DB2® Information Integrator™ 產品,以幫助您理解它們是如何幫助解決信息集成問題的。
IBM DB2 Information Integrator 概述
圖 1所示的 IBM DB2 Information Integrator 軟件提供了戰略信息集成框架的基礎。這樣的框架有助於客戶實時訪問、操作和集成各種不同的分布式數據。該文件夾(portfolio)包括:
IBM DB2 Information Integrator V8.1,基於 DB2 信息管理技術的新產品
IBM DB2 Information Integrator for Content V8.2,前身是 IBM Enterprise Information Portal。
圖 1. DB2 Information Integrator 產品提供了對各種不同的分布式和實時數據的集成訪問,就象數據是來自單個數據源那樣。
這些產品中的每一個都能使客戶從各種不同的分布式數據和內容源抽象出公共數據模型,並使客戶能夠將它們當作單一源進行訪問和操作。每個產品都支持一個用戶社區,用戶社區主要是根據其成員可以訪問的數據和他們支持的開發社區定義的。該產品集支持主要采用讀訪問的方案,這些方案對於企業報告生成、知識管理、商業智能、門戶站點基礎結構和客戶關系管理而言都很常見。
DB2 Information Integrator:用於聯邦數據和復制的服務器
DB2 Information Integrator 的服務對象是熟悉關系數據庫應用程序開發的應用程序開發社區。使用 SQL 的應用程序或生成 SQL 的工具(比如集成開發環境、報告生成和分析工具等)現在可以通過聯邦數據服務器訪問和操作各種不同的分布式數據。
DB2 Information Integrator 最適合於主數據源為關系數據、另外還添加了其它 XML、Web 或內容源的項目。DB2 Information Integrator 基於 DB2 技術基礎結構,利用 IBM 在諸如 IBM DB2 DataJoiner®、IBM DB2 Relational Connect 和 IBM DiscoveryLink® 之類產品上的早期投資。DB2 Information Integrator 構建在 DB2 通用數據庫之上,DB2 通用數據庫是一種現代的數據庫體系結構,因其可伸縮性和可擴展性而全球聞名。
DB2 Information Integrator 能夠聯邦、搜索、高速緩存、轉換和復制數據。作為一種聯邦數據服務器,它提供了對 DB2 通用數據庫、IBM Informix® 產品以及來自 Microsoft®、Oracle、Sybase 和 Teradata 的數據庫的“開箱即用”式訪問。另外,它還可以訪問來自 WebSphere® MQ 消息、XML 文檔、Web 服務、Microsoft Excel、平面文件、ODBC 或 OLE DB 源以及生命科學行業特有的各種格式的半結構化數據。對 IBM Lotus® Extended Search 的集成支持使解決方案能夠對各種廣泛的內容進行訪問,使之能訪問各種內容資源庫(包括 DB2 Content Manager)以及電子郵件數據庫、文檔資源庫、第三方因特網搜索引擎和 LDAP 目錄。
另外,開發人員的工具箱擴展了聯邦功能,使其真正觸及到了每一個數據源。
搜索和查詢訪問是通過標准的 SQL API 提供的,並將 Lotus® Extended Search 可以訪問廣泛內容的能力和關系引擎的精確性相結合。文本的搜索方法有兩種:
能夠創建後端關系存儲的全局索引。通過使用這種方法,文本搜索的語義 - 比如模糊搜索、辭典支持和段內搜索 - 可以在查詢內使用。
代理的搜索體系結構,它不要求創建或維護中心索引以便跨多個源訪問內容。擴展搜索引擎將每個完整的文本查詢轉換成目標數據源的本機查詢語言。
查詢可以產生標准的 SQL 應答集或 XML 文檔。優化器已經得到了顯著的擴展,能夠支持分布式聯邦查詢處理。
查詢重寫,這是查詢優化中的一個功能強大的階段,在該階段將寫得很糟糕的輸入查詢轉換成語義相同的形式以改善性能,它能識別底層數據源並可以根據特定轉換對於某個特定數據源的可用性來限制或啟用這些轉換。
下推分析(pushdown analysis)是查詢處理中新引入的階段,它確定每個特定的後端服務器可以計算出某個特定查詢的程度,並確定在 DB2 Information Integrator 系統上需要進行多少補償性處理。
基於成本的優化根據成本估算創建查詢執行方案,成本估算目前包括來自源數據的標准統計信息(例如,基數或索引)、數據服務器的能力(如連接功能或內置函數)、數據服務器容量、I/O 容量和網絡容量。
語句生成(根據基於成本的優化器的結果生成可執行方案)已經得到了擴展,可以為“理解 SQL”的數據源生成有效的特定於 DBMS 的 SQL。
查詢運行時引擎已經得到了擴展,可以驅動對本地和分布式信息執行查詢,允許功能補償並提供一致的虛擬數據庫視圖。
聯邦高速緩存的首個發行版提供了管理員管理的跨關系數據庫後端的集成視圖的高速緩存。優化器自動將查詢發送到高速緩存,以便在合適時滿足查詢。
DB2 Information Integrator 有一組豐富的轉換功能,包括標准的 SQL 函數,比如字符串操作、算術計算、統計計算、聯機分析處理函數和過程邏輯。特定於類型的功能 - 比如計分算法(scoring algorithm)或化學相似性搜索的應用程序 - 進一步增強了現有的這一組豐富的轉換。
可擴展樣式表語言(Extensible Stylesheet Language,XSL)轉換使文檔互換和各種顯示特征的動態樣式匹配更為方便。用戶定義的函數使客戶幾乎可以標准化任何數據類型的任何函數。另外,能夠將 Web 服務當作內置函數進行訪問,這意味著任何 Web 服務(比如貨幣轉換)可以變成嵌入式轉換函數。
DB2 Information Integrator 還包括一個用於混合關系數據庫的復制服務器。客戶可以在 IBM(DB2,還包括 IBM Informix)、Microsoft、Oracle、Sybase 和 Teradata(只作為目標)數據庫之間復制數據。您可以配置各種拓撲結構、等待時間和一致性特征。
DB2 Information Integrator for Content:以內容為中心的應用程序的聯邦訪問
DB2 Information Integrator for Content 的服務對象是需要在大量內容源中搜索和訪問文本及非文本信息的內容應用程序開發人員。通過提供對各種不同數據環境的無縫訪問,DB2 Information Integrator for Content 相當於重新命名和重新定位的 Enterprise Information Portal 產品。
DB2 Information Integrator for Content 提供了一組豐富的集成功能,比如與各種不同內容源進行連接的連接器、復雜的信息挖掘和高級工作流。為了加快內容集成項目的實現,DB2 Information Integrator for Content 提供了對各種數據源的“開箱即用”式訪問,所有這些都可以聯合成單一搜索。這些連接器可以訪問 DB2 Content Manager 系列和其它內容資源庫、Lotus 數據庫、關系數據庫以及 IBM Lotus Extended Search 可以提供的大量內容。
另外,DB2 Information Integrator for Content 包括了復雜的信息挖掘功能,該功能使用 Web 搜尋和文本挖掘算法來為非結構化內容提供結構。挖掘算法的能力包括識別文檔所用語言、識別文檔中諸如名稱之類的特性、根據定義的分類法對文檔進行分類、根據類別對文檔進行分組以及概述文檔。通過構建有關企業范圍信息的額外知識,企業可以從現有的內容資產中獲得額外的回報。
最後,DB2 Information Integrator for Content 提供了高級工作流應用程序,使企業能夠提高生產效率、縮短生產時間並增強交流與合作。通過使用圖形化的工作流構建器,開發人員可以輕松地將合並查詢結果的工作流過程定義到 DB2 Information Integrator for Content 中,以便在整個企業中使用這些結果。
結束語
如今的企業需要集成信息以提高客戶忠誠度和滿意度、提高運營效率、爭取在線客戶和貿易伙伴,以及識別和把握出現的機會。簡而言之,信息集成提供了競爭優勢,是隨需應變計算的基礎。IBM 已經聽到了集成各種不同數據的需求並理解了這種需求。實際上,利用 DB2 Information Integrator 文件夾,IBM 可以繼續推動第一流的技術創新,使企業能夠充分利用它們所有的信息資產。