我是一位數據庫工作者(更准確地說,是 DB2 工作者)。我的工作處於 IBM Information Management 軟件組合的低層。如果說那些從事分析、主數據管理、數據集成和其他高層軟件技術的人是數據巨輪的高級船員,他們站在艦橋上,穿著帶金色肩章的白制服,用雙筒望遠鏡了望遠方,那麼我是在輪機艙工作。當艦橋上傳來指令,命令我加快數據流動的速度時,我回答說,“我們已經到極限了,船長!” … 但是我仍然要想辦法完成任務。你們成天談論戰略和模式,而我談論的是比特和字節、速度和供應。歡迎來到我的世界。好了,不打比方了,我們來討論實際問題吧!
我曾經遇到過許多似是而非的概念,最近遇到的一個是 “數據治理”。對不起,長官,但是這聽起來是針對某個問題的解決方案。讓我告訴您一個小秘密:數據是沒有自主行動力的,這意味著它不需要 “治理”。它需要操控,我和我的朋友們能夠應付,謝謝您。請找別的什麼東西去 “治理” 吧!
您說什麼?您在談到治理數據時,實際上是打算治理別的什麼東西?OK,現在我感興趣了。請多說點兒,我洗耳恭聽。
重點在於人
關於數據治理,我應該聽取誰的意見?沒人比 Steve Adler 更合適了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在電話上告訴我 “數據治理” 這個詞在修辭方面的矛盾性實際上是有意義的:它提醒人們提出問題。“‘數據治理’ 究竟是什麼意思?” 談話就此展開了。Adler 指出,真正的目標是對行為進行治理。
人與數據庫交互:他們引導數據流的走向;他們解釋並處理數據請求。人也會犯錯 — 常常是由於他們采用的過程和依賴的應用程序系統有缺陷 — 這會在信息管道中引入錯誤,給下游造成數據質量問題。Adler 指出,數據治理的意圖主要是系統化地找到並解決可能引入錯誤的點。目標是形成決策者能夠信任的數據 — 還要向他們提供數據可信的證明。
這是一個很不錯的說詞。但在加入您的事業之前,我想看看 “藍色巨人” 是如何吃 “垃圾食品” 的。Adler 問我是否了解 IBM 的產品目錄。我確實了解 — 畢竟我為 IBM 工作了 17 年。IBM 有大量信息,有多達 1.2 億條記錄。顯然,這些記錄中很大一部分包含錯誤的信息:錯誤、缺失和未及時發布的數據。在 255 個 IBM 產品公告中,只有 5 個完全沒有錯誤。這真是讓人震撼的統計數字。
為了找出數據質量問題的來源,團隊在通向生產數據庫的數據流中不同的位置上設置 “捕捉器”。捕捉器幫助團隊發現在特定條件下可能發生的錯誤。找出問題的原因之後,團隊就可以設計和實現基於過程和基於技術的解決方案,從而消除不准確的信息的來源。
不是我的問題(也許是?)
我想,只要消除可能導致數據質量問題的條件就行了,所以由您負責。我希望您成功。不需要圍著我和 DBA 照管的數據庫打轉 — 它們很可靠。有多可靠?精確度至少有 99.9%。我談論的數據庫有多少數據記錄?生產數據庫可能有超過 10 億條記錄。是的,由於數據庫規模如此之大,盡管錯誤率非常低,錯誤數量仍然相當大。好吧,您說的有道理。在數據庫內部和周圍放上一些捕捉器可能是好主意。
Adler 說,但是不要就此止步,因為數據質量問題不僅僅是數據記錄不准確。有時候,急迫的問題是必須處理數據分類。例如,一個組織通過並購形成了更大的規模,最終通過多個業務線為更大型的企業客戶提供服務。客戶公司之一抱怨說,當他們通過不同業務線的代表向服務提供組織提出同一個問題時,卻得到了不同的回答。這是因為對於不同的業務線,相同術語的含義不同。這是數據定義問題 — 數據治理要通過有效的主數據管理 (MDM) 消除此類問題。
如何從 A 到 B?
我承認,我開始看出數據治理的一些價值了。這個概念不像我最初認為的那麼不知所謂。但是,看到潛在價值和獲得實際價值是兩回事兒。如何通過數據治理工作獲取價值?從哪裡做起?如何推動不斷進步?
Adler 告訴我他喜歡的方式分為六個步驟:
確定目標。一些目標可以有變動,其他目標是固定的(例如處理數據質量問題)。是的 — 在出發之前,必須明確要去哪裡。
確定要度量什麼。如果想要提高數據質量,那麼如何能夠知道是否已經取得了進步?可能要檢查存儲庫中一定比例的文檔,記錄信息不正確或缺失的情況。決定度量的過程和條件對於評估基線情況和跟蹤過程很重要。我明白了。說說容易:如果想要說服人,就要提供數字。
了解組織的決策模型。是專制模型?代表模型?還是民主模型?無論是哪種,它適合您的公司嗎?您正在開發的數據治理策略支持這種決策模型嗎?決策 “更好” 的含義是什麼?需要做出大量決策嗎?還是要更快地做出決策?我想,在改進數據質量時,總是要花時間評估數據在自己的環境中如何驅動決策。可能會發現需要改進的東西。
有效地傳播數據治理策略。如何把策略的相關信息告訴相關人員和感興趣的其他各方?通過電子郵件?通過時事通訊?不能只依靠同事之間的口頭交流。
度量結果。數據治理策略取得的實際效果如何?如果已經制定了度量進展的計劃(這個列表中的第二項),那麼得到具體的數字應該不太困難。解釋這些數字會很有意思。
審查整個數據治理工作。是否采用了適當的過程?是否應用了適當的技術?是否實現了有效的控制?“審查” 這個詞有點兒讓我不舒服,但是我知道對於策略來說這是不可缺少的,無論是數據治理策略還是其他策略。我不喜歡評判別人的工作,但是我理解有時候需要這麼做。
這些是非常高級的檢查項,具體的項目計劃應該遠遠不只六個步驟。但是,在面對復雜的任務時,以適當方式對難題進行拆分確實有助於明確工作重點。對於我來說,Adler 的方法看起來是不錯的問題拆分方式。可以以此為基礎開展工作。
好吧,我接受了
一個城市的居民嘲笑另一個城市時會說,“那兒沒有 ‘那兒’ 這個概念"。我過去也是這麼看待數據治理的:很有意思的概念,但是拜托 — 它有什麼實際意義嗎?Steve Adler 在關於數據治理的業務價值的爭論中說服了我。我現在認為數據治理是有價值的。
因此,如果信息管理領域的大人物再到數據庫 “輪機艙” 與您談論數據治理,那麼好好聽他們說。最好考慮一下自己能夠在哪些方面發揮作用。宏大的計劃如果能夠參考實干家的意見,往往會取得更好的結果。
就到這裡吧。也許我會在咖啡機旁遇到您。誰知道呢?也許我們會輕松地談論一下數據治理。