目前,數據激增的五大趨勢;最終用戶對數據分析、粒度和速度的需求不斷增加;請求者和源擴散;預構建設備 / 數據模型的日益普及;以及處理非結構化數據的挑戰正在重新塑造數據倉庫格局,為各行知業的采用者提出了一項挑戰。但 Randolph 並未退縮。他說:“您要迎頭直面挑戰,要知道通過提高性能和添加新功能可以彌補臨時的系統中斷。
The Kimball Group 是一家數據倉庫教育和咨詢組織,在這裡工作的咨詢師 Warren Thornthwaite 說:“對於 Randolph 這樣希望擁抱新趨勢的數據倉庫管理者來說,變化和挑戰都是一個能幫助他們實現超越的機會。無論您要處理不斷增長的數據量,還是需要執行深入數據分析或者想知道如何處理沒有結構的數據,您都需要將變化轉換成機會。”
1. 數據迅速增長
數據至少在以兩種方式增長。存儲在數據倉庫中的信息日積月累不斷累加。一家大型市場研究公司在 2008 年的研究表明,企業數據需求正以每年 60% 的速率迅速增長。
同時,隨著越來越多的企業流程得到監管和記錄,數據倉庫管理員需要組織和分析的數據也越來越多。
IBM Information Management 數據倉庫解決方案的副總裁 Greg Lotko 說:“數據增長要求企業創建可迅速有效擴展的數據倉庫。尋找一種采用模塊化設計的產品,它允許企業以一定大小的數據倉庫開始,然後在企業發展過程中添加新的硬件和軟件模塊。”
Info-Tech Research Group 分析人員 George Goodall 說但數據倉庫不能無限擴展。除了要防止無用數據對系統形成負擔,企業還需要關注存檔數據的年齡和總體質量。
Goodall 說:“一旦信息被鎖在數據庫中,組織將難以刪除它們。企業往往會選擇錯誤的方式。許多企業都傾向於保留所有數據,要麼擔心這些信息還有一些法規效用,要麼只是假定其中一些在未來還有價值。企業需要關注數據的有效生命周期。”幫助管理員評級和組織數據的 Information 生命周期管理工具可以簡化此工作。
美國銀行的 Randolph 認為控制數據增長主要關系到創建嚴格但可管理的數據保持指導方針。他說:“定義保持期限,然後嚴格執行。如果有人請求特殊情況,則讓他們說明自己的理由,然後專注於數據存在的期限。”例如,假定某法規條例要求永久存儲某種文件或記錄,則確定究竟需要哪種信息以及需要的時長。
Randolph 說:“數據建模是在數據倉庫中管理信息流的最佳方式。您只需要確保引入的數據是有價值的,而不是說 ‘所有的數據都在這裡,先把它們放到數據倉庫中,然後再考慮下一步的工作。’其實只需要考慮並計劃好各種數據源。”
2. 挑剔的最終用戶
隨著數據倉庫進入企業主流,最終用戶的需求已轉變成更好的准確性和實時交付精簡的結果。Goodall 說:“在任何事情的生命周期中,人們對它的要求永遠要高於它現在的水平。”
這些不斷增長的需求給數據倉庫及其管理者帶來了新的負擔。Randolph 說:“精心設計和配置的數據分析工具可以幫助管理者滿足最終用戶不斷增長的需求,而不會增加成本。它是許多基本工具的集合體,因此提供了更快的響應速度,並且其前端也更加靈活,您只需要填充真正有用的數據”。例如,管理者可以為用戶提供標准化的分析模型,幫助他們快速輕松地實現既定目標。
AMR Research 的數據倉庫分析人員 John Hagerty 說:“通過查找、創建和調優數據分析工具來滿足最終用戶的預期正成為數據倉庫管理員的一項挑戰,而同樣在升溫的還有最終用戶的預期。對於 IT 來說非常重要的是與行業精英合作,大致繪出未來的目標藍圖。”花少許時間向最終用戶展示如何有效使用數據分析工具執行各種任務,通常就足以解決技術速度性、麻煩和低效的問題。
美國銀行的 Randolph 認為控制數據增長主要關系到創建嚴格但可管理的數據保持指導方針。他說:“定義保持期限,然後嚴格執行。如果有人請求特殊情況,則讓他們說明自己的理由,然後專注於數據存在的期限。”例如,假定某法規條例要求永久存儲某種文件或記錄,則確定究竟需要哪種信息以及需要的時長。
Randolph 說:“數據建模是在數據倉庫中管理信息流的最佳方式。您只需要確保引入的數據是有價值的,而不是說 ‘所有的數據都在這裡,先把它們放到數據倉庫中,然後再考慮下一步的工作。’其實只需要考慮並計劃好各種數據源。”
2. 挑剔的最終用戶
隨著數據倉庫進入企業主流,最終用戶的需求已轉變成更好的准確性和實時交付精簡的結果。Goodall 說:“在任何事情的生命周期中,人們對它的要求永遠要高於它現在的水平。”
這些不斷增長的需求給數據倉庫及其管理者帶來了新的負擔。Randolph 說:“精心設計和配置的數據分析工具可以幫助管理者滿足最終用戶不斷增長的需求,而不會增加成本。它是許多基本工具的集合體,因此提供了更快的響應速度,並且其前端也更加靈活,您只需要填充真正有用的數據”。例如,管理者可以為用戶提供標准化的分析模型,幫助他們快速輕松地實現既定目標。
AMR Research 的數據倉庫分析人員 John Hagerty 說:“通過查找、創建和調優數據分析工具來滿足最終用戶的預期正成為數據倉庫管理員的一項挑戰,而同樣在升溫的還有最終用戶的預期。對於 IT 來說非常重要的是與行業精英合作,大致繪出未來的目標藍圖。”花少許時間向最終用戶展示如何有效使用數據分析工具執行各種任務,通常就足以解決技術速度性、麻煩和低效的問題。
類似於定制的西服和手卷雪茄,自定義倉庫正在創造自己的規則。如今,越來越多的企業開始轉向倉庫應用和特定於行業的數據模型,這樣可以在數天或數小時內創建數據倉庫,而不是過去的數周或數月。
Goodall 說:“開箱即用的方法對於希望快速構建數據倉庫的組織來說極具吸引力,這種方法不僅能減少工作量,還有可能降低成本。這些產品隱藏了構建數據倉庫過程中的許多基礎設施復雜性。它們還簡化了基礎設施方面的工作;它們更易於擴展作用域、復雜度和數據倉庫的大小。”
Goodall 發現預構建應用和數據模型的挑戰在於這種通用的方法只能應對大多數場景。這也是產品開發人員將目標定位為普通企業的原因,而不是那些通過數據倉庫來反映其獨特之處的組織。如果您是一名企業領導者,並且發現很難再找到區別於競爭者的途徑,則這些行業標准模型可能需要承擔一定的責任。
另一方面,雖然有與生俱來的限制,但預構建技術確實可以節省時間,從而幫助大多數企業迅速開始構建自己的數據倉庫。然後,可以進一步配置和調整基礎設施,讓它與采用者的具體和自定義需求保持一致。用戶可以查看和跟蹤選項、態度、觀點和其他傳統數據字段無法輕易表示的概念。
如果數據倉庫開始屈服於最終用戶的壓力(盡管管理者做出了最大努力),則應該考慮采用新方法。IBM Toronto Laboratory 的數據倉庫解決方案、戰略和市場服務項目總監 Bill Wong 說:“我們要告訴客戶群體的是,Cubing Services 可以幫助數據倉庫實現邏輯化。”
借助 IBM Cubing Services,組織可以在關系倉庫模式上創建、編輯、導入、導出和部署多維模型。Cubing Services 還提供了一些優化技巧來改善在線分析流程 (OLAP) 查詢的性能。Wong 說:“它正在幫助許多公司節省空間、服務器管理和電能等。”
5. 結構化和非結構化數據
隨著數據庫技術趨於成熟並變得更加復雜,越來越多的企業開始希望使用它們的系統來發掘鎖定在非結構化數據內部的隱藏知識。
未符合標准數據模型的非結構化數據信息可以來自許多來源,包括在線調查、網絡論壇和電子郵件。IBM 的 Lotko 說:“非結構化數據表示來自問卷或文檔掃描的所有信息,您可以直接利用它們,並與傳統的結構化數據相結合。然後,您可以得出一些之前無法得出的新見解。因為之前無法訪問這些信息。”例如,客戶關系管理(CRM)應用程序中的自由格式的文本字段可以為企業決策者提供所需的信息,幫助他們確定當前的不滿意趨勢以及可能會造成嚴重後果的重復發生的問題。
AMR Research 的 Hagerty 表示:“新興的商業智能(BI)產品和服務正在幫助數據倉庫最終用戶從電子郵件、呼叫中心記錄、聊天稿、態度、觀點和其他傳統數據字段無法輕易表示的概念中獲得見解。”
Hagerty 看到了非結構化數據的光明前景。他預測說:“一旦這項技術得到發展,非結構化數據就會像傳統 BI 或分析技術那樣無處不在。”但是,利用非結構化數據需要數據倉庫管理者經歷理想上的轉變:許多數據倉庫專業人員都根深蒂固地認為數據存儲在行和列中。非結構化數據需要這些人以全新的方式來看待數據,理解這些文本甚至媒介至少可以實現智能上的飛越。
結束語
Wong 說:“認識新興趨勢雖然很重要,但不足以確保的數據倉庫的長期發展。”他認為及時應對變化也是同樣重要的,或許可以通過添加新解決方案或讓既定實踐符合新的范例來實現。他說:“不具響應能力或靈活性的數據倉庫最終將被淘汰。”
Randolph 認可對靈活、迅速響應的系統的需要。他說:“為此,您需要掌控全局、具備相關知識以及能夠考慮新的技術和方法。然後,您不應懼怕變化,其原因不是變化本身,而是應該始終讓您的數據倉庫處於行業領先水平。”
5. 結構化和非結構化數據
隨著數據庫技術趨於成熟並變得更加復雜,越來越多的企業開始希望使用它們的系統來發掘鎖定在非結構化數據內部的隱藏知識。
未符合標准數據模型的非結構化數據信息可以來自許多來源,包括在線調查、網絡論壇和電子郵件。IBM 的 Lotko 說:“非結構化數據表示來自問卷或文檔掃描的所有信息,您可以直接利用它們,並與傳統的結構化數據相結合。然後,您可以得出一些之前無法得出的新見解。因為之前無法訪問這些信息。”例如,客戶關系管理(CRM)應用程序中的自由格式的文本字段可以為企業決策者提供所需的信息,幫助他們確定當前的不滿意趨勢以及可能會造成嚴重後果的重復發生的問題。
AMR Research 的 Hagerty 表示:“新興的商業智能(BI)產品和服務正在幫助數據倉庫最終用戶從電子郵件、呼叫中心記錄、聊天稿、態度、觀點和其他傳統數據字段無法輕易表示的概念中獲得見解。”
Hagerty 看到了非結構化數據的光明前景。他預測說:“一旦這項技術得到發展,非結構化數據就會像傳統 BI 或分析技術那樣無處不在。”但是,利用非結構化數據需要數據倉庫管理者經歷理想上的轉變:許多數據倉庫專業人員都根深蒂固地認為數據存儲在行和列中。非結構化數據需要這些人以全新的方式來看待數據,理解這些文本甚至媒介至少可以實現智能上的飛越。
結束語
Wong 說:“認識新興趨勢雖然很重要,但不足以確保的數據倉庫的長期發展。”他認為及時應對變化也是同樣重要的,或許可以通過添加新解決方案或讓既定實踐符合新的范例來實現。他說:“不具響應能力或靈活性的數據倉庫最終將被淘汰。”
Randolph 認可對靈活、迅速響應的系統的需要。他說:“為此,您需要掌控全局、具備相關知識以及能夠考慮新的技術和方法。然後,您不應懼怕變化,其原因不是變化本身,而是應該始終讓您的數據倉庫處於行業領先水平。”