數據挖掘 Data mining ,也就是數據庫知識發現(knowledge-discovery in databases) (KDD),指按照一定模式從大量數據中自動搜索數據。數據網挖掘使用統計和模式識別算法實現上述目標。舉一個簡單的例子,數據挖掘在零售行業的應用。零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時數據挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部們就會看到此信息,直接發送真絲襯衣的當前行情給該客戶。這樣零售商店通過數據挖掘系統就發現了以前未知的關於客戶的新信息。
數據挖掘應建立在聯機分析處理(On Line Analytical Processing,OLAP)的數據環境基礎之上,而數據倉庫技術能夠滿足數據挖掘技術對數據環境的要求。它從OLTP系統、異構分散的外部數據源、脫機的歷史業務數據中獲取數據並進行處理。數據挖掘需要對大量數據進行反復查詢操作,關心數據存取方式的方便性與可操作性。 聯機分析處理和傳統的聯機事務處理(On Line Transaction Processing, OLTP)是兩種性質不同的數據處理方式。OLTP主要用來完成基礎業務數據的增、刪、改等操作,如民航訂票系統、銀行儲蓄系統等等,對響應時間要求比較高,強調的是密集數據更新處理的性能和系統的可靠性及效率。而OLAP應用是對用戶當前及歷史數據進行分析、輔助領導決策,主要通過多維數據的查詢、旋轉、鑽取和切片等關鍵技術對數據進行分析和報表。目前,多數企業內部的數據狀況是分散的,業務數據往往被存放在缺乏統一設計和管理的異構環境中,不易綜合查詢訪問,而且還有大量的歷史數據處於脫機狀態,不能在線集中存儲查詢。數據挖掘在對這些數據進行分析前,必須對這些數據進行不同程度的整合和清理,這是數據挖掘的首要環節,但一般的OLTP系統的數據環境是不具備這種能力的。因此,合理而科學的數據環境是確保數據挖掘有效和正確實施的基礎和關鍵。它需要支持OLAP數據系統與OLTP數據系統的分離,需要服務於數據挖掘總體目標的數據再組織,需要有單獨的數據分析和數據處理環境。數據倉庫正是為了構建這種新的分析處理環境而出現的一種數據存儲和組織技術產品。