程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> 企業信息化如何發揮數據挖掘的效力(收藏)

企業信息化如何發揮數據挖掘的效力(收藏)

編輯:關於SqlServer

我國的銀行、證券、電信、保險行業都在大談“數據集中”,希望在此基礎上實現客戶關系管理和商業智能。“數據挖掘工程師”這個新穎的職位名稱,也隱約出現在企業的招聘職位欄裡。

數據挖掘到底有沒有 用?一些企業的領導人對此懷有疑慮。數據挖掘人員口裡念叨的是一些稀奇古怪的技術名詞,他們的出身復雜,即不完全是學計算機的,也不像統計學家,更不是營銷策劃人員,他們得到的結果不容易理解,他們的工作對我的企業發展到底意味著什麼?一些技術出身的管理者可能會熱捧數據挖掘,希望從中盡快找出新的商業模式,找到新的賺錢機會;而商業直覺強烈的管理者則容易抵觸這種精確的定量分析方法,數據挖掘本身的缺陷也導致它容易遭受攻擊。

為了更好地發揮數據挖掘的效力,需要的是企業管理者的理解、數據挖掘人員的更多努力。本文作者根據過去數據挖掘項目的經驗,試圖對一些混淆不清的問題做出解釋。

1.結果的應用

問題:數據挖掘的結果有一部分是以概率數據的形式提交的,這是最容易招致非議的地方。企業管理者可能會問,我要你對我的客戶流失做出預測,為什麼你不能准確地告訴我究竟是哪些客戶下個月會流失?而只能告訴我每個客戶流失的概率。我要你預測哪些客戶會發生保險欺詐,你提交的仍然是客戶騙保的概率。這樣的概率值我如何使用,我敢用嗎?

解釋:數據挖掘建立的預測模型,是對真實世界的近似,原因是企業客戶數據庫中儲存的客戶的行為信息是不可能面面俱到的,可能沒有搜集儲存到的那些客戶信息恰恰是與客戶是否流失或騙保最相關的信息,因此依據已有的信息建立的預測模型是不精確的,得不出確定性結果,而只能是概率值。這樣的結果仍然是有用的,因為預測出來的那些流失概率高的客戶中,實際流失的往往特別多,企業重點對這部分客戶實施挽留維系,針對性就特別強,能節省企業的資源開銷。同樣,欺詐概率較高的客戶中,實際發生欺詐行為的比率也比別的客戶群體中高出很多,因此專門的調查人員可以重點對這些客戶進行調查,往往事半功倍。資源的節省,即意味著效益的增長。

2. 變量的選擇

問題:建立預測模型是一個很吸引人的想法。預測的目標比較好確定,你要預測客戶流失,那麼“客戶是否流失”(二值變量)就是目標變量;你要預測股票的漲跌,那麼“收市價是否上升”就是目標變量。但是如何確定哪些變量作為自變量(回想一下高中代數中關於函數的定義),則頗費周折。換句話說,要確定哪些因素與目標變量有關系,往往是見仁見智。這個問題解決不好,則會直接影響預測模型的性能。那麼,究竟應該是企業業務人員來決定,還是數據挖掘人員決定呢?

解釋:最佳的方式是雙方的結合。企業業務人員長期的業務經驗,使他們能夠敏銳地感覺到哪些因素與目標變量密切相關。但是經驗是有局限的,甚至束縛人的思維,企業業務人員會遺漏很多表面無關但實際上很重要的因素,而且因為人腦的處理能力有限,有時不得不忽略一些因素及一些因素之間的復雜微妙的相互影響,而這正是數據挖掘人員可以發揮作用的地方。統計學中有大量的成熟的方法,可以幫助我們挑選合適的變量來構造我們的預測模型。

還有一種常見的現象:數據挖掘人員挑選的某個變量,事後發現對模型精度的提高很有好處,但是可能得不到合理的業務解釋,這時候,企業業務人員會要求刪除這個變量。實際上,數據挖掘的結果常常超出我們的想象,我們的本能就是趨向於拒絕無法理解的東西,甚至冒著損害模型預測性能的風險--這種做法是有害的,因為當前無法解釋並不意味著以後也無法解釋(據說沃爾瑪的“啤酒與尿布”的規則發現也是事後輔之以市場調研才得到解釋的);數據挖掘結果並不是憑空得來,而是借助於上千年來人類發展的數學理論在無數次證實有效的復雜算法基礎上得到的,不能簡單地予以否定;更何況,如果這個變量進入預測模型,被證明是有利於模型精度的,則去掉是很可惜的。不要忘記“實踐是檢驗真
理的唯一標准”這一基本法則。

3.對“提升度(lift)”的迷信

問題:在對預測模型的性能評估有所了解後,企業業務人員可能經常會問數據挖掘工程師:“你的模型的提升度是多少?”似乎低於3.0就是一個壞模型。那麼究竟要達到多少才能夠接受呢?

解釋:提升度是衡量預測模型的一個重要指標,但不是唯一的。我們還有混合矩陣、響應捕獲率、ROC曲線、基於門限的診斷圖等等。不同行業的模型提升度是不同的,同一行業的不同地區也可能不同。我們曾經試驗過,用大致相同的自變量因素預測手機用戶流失,在廣東某地的模型的提升度只有2.2,而該模型在另一個時段應用時的提升度高達5.2,而在湖北某地能達到7.0。因此,模型的接受程度不能僅以提升度為標准,而應該以其預測結果能創造的效益來衡量,計算其投資回報率。但是,數據挖掘人員應該主動想辦法,嘗試不同的增強辦法,在不導致模型發生“過擬合”(Overfitting)的前提下,盡量提高模型的預測精度,因為模型精度的一個百分點上升,就可能意味著商家的上百萬元的增收節支。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved