隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,在大量的數據背後隱藏著許多重要的信息,如果能把這些信息從數據庫中抽取出來,將為公司創造很多潛在的利潤,而這種從海量數據庫中挖掘信息的技術,就稱之為數據挖掘。
數據挖掘工具能夠對將來的趨勢和行為進行預測,從而很好地支持人們的決策,比如,經過對公司整個數據庫系統的分析,數據挖掘工具可以回答諸如“哪個客戶對我們公司的郵件推銷活動最有可能作出反應,為什麼”等類似的問題。有些數據挖掘工具還能夠解決一些很消耗人工時間的傳統問題,因為它們能夠快速地浏覽整個數據庫,找出一些專家們不易察覺的極有用的信息。
下文將對數據挖掘的基本技術作一個簡單的介紹。
數據挖掘的基礎
數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的數據庫中的,然後發展到可對數據庫進行查詢和訪問,進而發展到對數據庫的即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階
段,它不僅能對過去的數據進行查詢和遍歷,並且能夠找出過去數據之間的潛在聯系,從而促進信息的傳遞。現在數據挖掘技術在商業應用中已經可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已經發展成熟,他們是:
海量數據搜集
強大的多處理器計算機
數據挖掘算法
商業數據庫現在正在以一個空前的速度增長,並且數據倉庫正在廣泛地應用於各種行業;對計算機硬件性能越來越高的要求,也可以用現在已經成熟的並行多處理機的技術來滿足;另外數據挖掘算法經過了這10多年的發展也已經成為一種成熟,穩定,且易於理解和操作的技術。
從商業數據到商業信息的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數據庫技術已經可以快速地回答商業上的很多問題了。
進化階段 商業問題 支持技術 產品廠家 產品特點 數據搜集
(60年代) “過去五年中我的總收入是多少?” 計算機、磁帶和磁盤 IBM, CDC 提供歷史性的、靜態的數據信息 數據訪問
(80年代) “在新英格蘭的分部去年三月的銷售額是多少?” 關系數據庫(RDBMS),結構化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft 在記錄級提供歷史性的、動態數據信息 數據倉庫;決策支持
(90年代) “在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什麼結論?” 聯機分析處理(OLAP)、多維數據庫、數據倉庫 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動態的數據信息 數據挖掘
(正在流行) “下個月波士頓的銷售會怎麼樣?為什麼?” 高級算法、多處理器計算機、海量數據庫 Pilot、
Lockheed、IBM、SGI、其他初創公司 提供預測性的信息
表一、數據挖掘的進化歷程。
數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。
數據挖掘的范圍
“數據挖掘”這個名字來源於它有點類似於在山脈中挖掘有價值的礦藏。在商業應用裡,它就表現為在大型數據庫裡面搜索有價值的商業信息。這兩種過程都需要對巨量的材料進行詳細地過濾,並且需要智能且精確地定位潛在價值的所
在。對於給定了大小的數據庫,數據挖掘技術可以用它如下的超能力產生巨大的商業機會:
自動趨勢預測。數據挖掘能自動在大型數據庫裡面找尋潛在的預測信息。傳統上需要很多專家來進行分析的問題,現在可以快速而直接地從數據中間找到答案。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
自動探測以前未發現的模式。數據挖掘工具掃描整個數據庫並辨認出那些隱藏著的模式,比如通過分析零售數據來辨別出表面上看起來沒聯系的產品,實際上有很多情況下是一起被售出的情況。
數據挖掘技術可以讓現有的軟件和硬件更加自動化,並且可以在升級的或者新開發的平台上執行。當數據挖掘工具運行於高性能的並行處理系統上的時候,它能在數分鐘內分析一個超大型的數據庫。這種更快的處理速度意味著用戶有更多的機會來分析數據,讓分析的結果更加准確可靠,並且易於理解。
數據庫可以由此拓展深度和廣度
深度上,允許有更多的列存在。以往,在進行較復雜的數據分析時,專家們限於時間因素,不得不對參加運算的變量數量加以限制,但是那些被丟棄而沒有參加運算的變量有可能包含著另一些不為人知的有用信息。現在,高性能的數據挖掘工具讓用戶對數據庫能進行通盤的深度編歷,並且任何可能參選的變量都被考慮進去,再不需要選擇變量的子集來進行運算了。
廣度上,允許有更多的行存在。更大的樣本讓產生錯誤和變化的概率降低,這樣用戶就能更加精確地推導出一些雖小但頗為重要的結論。
最近,Gartner Group的一次高級技術調查將數據挖掘和人工智能列為“未來三到五年內將對工業產生深遠影響的五大關鍵技術”之首,並且還將並行處理體系和數據挖掘列為未來五年內投資焦點的十大新興技術前兩位。根據最近Gartner的HPC研究表明,“隨著數據捕獲、傳輸和存儲技術的快速發展,大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的並行處理系統來創建新的商業增長點。”
在數據挖掘中最常用的技術有:
人工神經網絡:仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。
決策樹:代表著決策集的樹形結構。
遺傳算法:基於進化理論,並采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。
近鄰算法:將數據集合中每一個記錄進行分類的方法。
規則推導:從統計意義上對數據中的“如果-那麼”規則進行尋找和推導。
采用上述技術的某些專門的分析工具已經發展了大約十年的歷史,不過這些工具所面對的數據量通常較小。而現在這些技術已經被直接集成到許多大型的工業標准的數據倉庫和聯機分析系統中去了。