程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> DB2數據庫 >> DB2教程 >> 確保數據質量的基本步驟

確保數據質量的基本步驟

編輯:DB2教程

幾乎所有人都認為數據質量是非常重要的。當然,很差的數據質量的結果顯然是很麻煩的:任何組織都依賴於數據來作出戰略管理決策、向客戶提供服務和實現過程及時間軸。如果數據陳舊、不一致、不符合邏輯或根本就是錯誤的,那麼它可能會使公司損失時間、客戶和收益。此外,展示數據質量通常是法規遵從性的一個要求。

嘗試開發一個全面的能夠維持和改進數據質量的項目看起來似乎是無從下手的。在本文中,我們將介紹與成功的數據質量項目有關的重要概念。我們也將通過一個與具體業務需求緊密相關的項目來介紹一個用於啟動數據質量項目的計劃。

什麼是數據質量?

創建一個成功的數據質量項目的第一步是理解在一個特定組織中數據質量的意思是什麼。一般來講,高質量數據就是要 “滿足使用要求”:它是可信的,適合它的預期使用目的。評估一組數據是否滿足條件有幾個判斷標准:正在使用的是什麼數據,誰在使用這些數據,他們使用數據的方式是什麼,他們什麼時間使用數據,以及為什麼使用數據?如果組織在多個業務線、部門和其他實體之間共享數據,情況會變得更復雜。很明顯,要有效地測試數據質量,必須在實體層,甚至在屬性層定義數據質量。

數據質量可以使用許多方式衡量,包括准確性、可靠性、時間軸、相關性、完整性和一致性。當然,不同的組織會有不同的優先級。然而,重要的是要認識到其中包括技術和業務方面的數據質量,而且這兩方面都很重要。滿足技術質量標准(如保持一致、格式正確、定義明確)但是用戶並不認為可靠、准確和可用的數據對組織影響較小。簡而言之,保證數據質量需要同時了解技術和業務需求。

策略和設置目標

SMART 數據質量

SMART 助記符是項目管理理論的一個重要內容,但是它也非常適用於數據質量領域。這裡有一些 SMART 要求是您在數據質量項目中應該遵循的:

具體性: 要在一個足夠低的級別上定義數據質量,從而使之有意義。每個人都希望獲得好的數據質量;但問題是 “好” 對於用戶、實體和屬性的具體標准是什麼。

可測量性: 在定義數據質量後,對數據進行測量和監控。

可操作性: 應該在能夠選擇用於改進數據質量的操作的級別上進行報告。一個數據質量項目也應該有關於如何操作的規定。

現實性: 數據質量並不是一蹴而就的。制定一個預期成果和收益過高的計劃是必定要失敗的。

時間驅動: 將項目分解成有具體實現日期的可實現的裡程碑。

創建一個數據質量項目的其中一種最好的方法是將它與一個戰略業務項目綁定。數據質量並不是最終的目標 — 它只是實現目標的手段,它在某種程度上支持、擴展或增強業務。例如,有一個公司制定了在下一年增加零售商店 20% 銷售額的目標,那麼這個公司可能希望創建一個數據質量項目來保證傳遞給商店經理關於高附加值產品的信息是准確、及時和精准的。

一個成功數據質量項目的章程、目標和計劃應該符合眾所周知的項目管理 SMART 要求:具體性、可測量性、可操作性、現實性和時間驅動(見側邊欄,“SMART 數據質量”)。這也是一個處理高級組織問題(如,誰將擁有這個項目以及誰將是主要的股東)和技術問題(如,使用的工具和數據分析的環境)的時機。

范圍和定義

當數據質量的目標確定後,下一步就是發現和評估,開始確定項目范圍內的數據。通過創立數據實體的擁有者,業務和 IT 團隊就能夠繼續定義數據實體和它們的屬性。對於每一個實體,都應該有對應的業務定義(如,數據是什麼和為什麼它有意義)、技術定義(域大小、類型、關系和層次;預期數據模式或格式;等等)和一個包含與業務規則及格式規則相關的預期可接受價值的質量定義。

諸如 IBM InfoSphere Business Glossary 的工具可能在這個階段很有用,它能夠提供數據定義知識庫和一個簡單的用於輸入、搜索和浏覽詞匯表和定義的用戶界面。一個企業詞匯表有助於保證這些定義在不同項目之間保持一致,支持業務和 IT 之間、不同業務部門之間的協作,並且有助於創建通用的詞匯表和數據理解。

評估和分析

下一個步是基於業務和技術團隊所建立的標准評估實際數據。這裡,諸如 IBM InfoSphere Information Analyzer 的軟件會被用於分析這些數據。在分析過程中,需要在字段、表和跨表級別上檢查數據,以便評估它對於已知或預期使用方式的完整性、有效性和一致性。如果數據的業務定義已經建立完備,那麼這些規則就可以輸入到 InfoSphere Information Analyzer,它將使用這些規則驗證數據。

InfoSphere Information Analyzer 也提供了一個中央業務規則知識庫,它能夠實現不同項目和實現之間的重用和一致性,並且與 InfoSphere Business Glossary 共享一個元數據知識庫,這可以簡化數據共享和實現。其他的質量工作使它能夠根據數據質量執行高級的自動化數據分析和驗證需求(見側邊欄,“參考資料”)。

在評估後,所得的結構應該交由技術和業務團隊共同審核,以便完全理解數據。下一步就是要確定應該對報告結果采取什麼操作。有時,操作可能是技術性的,如修改一個數據模型或用戶界面。除此之外,這個操作可能是引入一個業務過程或修改策略,如提醒負責修改和輸入數據的人員。

從評估到項目

到這一步,這個組織至少已經理解它的部分數據環境的要求是什麼,以及它的業務目標是什麼。下一步就是要創建一個數據質量過程使組織從當前的狀態轉變到預期的狀態。

如何創建這個項目已經超出了本文范圍,但是一個數據質量項目應該有三個重要的元素。首先,它會不斷地使用數據質量評估中所定義的數據結構來定期檢查數據質量。其次,它需要指派管理員不斷地監控數據質量。最後,它需要提供一個過程來開發處理監控過程發現的數據質量問題的操作計劃。

現在,許多組織只有在數據質量影響到他們的業務時才發現數據質量問題 — 通常是負面影響。通過主動評估和監控數據質量,組織應該能夠順利地確定數據問題和在它們造成問題之前將問題解決。通過創建重復過程和可重復的條件,這些組織就能夠掌握一個實際項目的數據質量抽象概念,並使用它降低風險和產生業務價值。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved