浏覽和驗證模型
如以下關系圖中突出顯示的那樣,數據挖掘過程的第五步就是浏覽您已經生成的挖掘模型並測試其有效性。
在將模型部署到生產環境之前,您需要測試模型的性能。此外,在生成模型時,您通常需要使用不同配置創建多個模型,並對所有這些模型進行測試,以便查看哪個模型為您的問題和數據生成最佳結果。
Analysis Services 提供的工具可幫助您將數據分成定型數據集和測試數據集,使您可以更准確地評估基於相同數據的所有模型的性能。您使用定型數據集生成模型,並通過創建預測查詢來使用測試數據集測試模型的准確性。在 SQL Server 2008 Analysis Services 中,生成挖掘模型時可自動執行該分區操作。
可以使用 BI Development Studio 中數據挖掘設計器內的查看器來浏覽算法發現的趨勢和模式。還可以使用該設計器中的工具(如,提升圖和分類矩陣)來測試模型創建預測的性能。若要驗證模型是否特定於您的數據,或者是否可用於推斷總體,您可以使用稱為“交叉驗證”的統計方法來自動創建數據子集,並參照每個子集測試模型。
如果您在生成模型步驟中創建的所有模型都無法正常工作,則必須返回到此過程的上一個步驟,並重新定義問題或重新調查原始數據集中的數據。
部署和更新模型
如下面的關系圖中突出顯示的那樣,數據挖掘過程的最後一步是將性能最佳的模型部署到生產環境。
當生產環境中部署了挖掘模型之後,便可根據您的需求執行許多任務。下面是一些可以執行的任務:
使用模型創建預測,然後可以使用這些預測作出業務決策。SQL Server 提供可用於創建預測查詢的 DMX 語言,同時還提供有助於生成查詢的預測查詢生成器。
創建內容查詢以檢索模型中的統計信息、規則或公式。
直接將數據挖掘功能嵌入到應用程序。您可以包括含有一組對象的分析管理對象 (AMO),應用程序可使用這組對象創建、更改、處理以及刪除挖掘結構和挖掘模型。另外,可以直接將 XML for Analysis (XMLA) 消息發送到 Analysis Services 實例。
使用 Integration Services 創建一個包,在這個包中,挖掘模型用於將傳入數據合理地分離到多個表中。例如,如果數據庫不斷地通過潛在客戶進行更新,則可以結合使用挖掘模型和 Integration Services 將傳入數據拆分為可能購買產品的客戶和不可能購買產品的客戶。
創建可讓用戶直接對現有挖掘模型進行查詢的報表。
在查看和分析後更新模型。任何更新都要求您重新處理該模型。
隨著組織傳入的數據不斷增多,應將動態更新模型並進行一致更改(以便提高解決方案的效率)作為部署策略的一部分。