當數據存儲在一個普通表中的時候,這些記錄將以插入到數據庫時的順序物理地保存到分配的塊中。
例如,假如有一個用於存儲員工信息的表,那麼員工姓名將會按照插入到表的順序存儲在表中。 假如員工記錄非常多的話,那麼數據表的響應速度就會逐漸變慢。你可以通過選擇值相對等分布的一列(如員工的部門編號)並建立一個簇表來提高查詢員工的速度。 在簇表中,假如員工屬於同一個部門,那麼它們的記錄將物理地存儲在同一系列的塊中。這樣就可以提高查找員工信息的速度,這是因為在檢索某個特定部門的員工時,需要讀取數據庫塊的數量減少了。
而在非簇表中查找員工,就可能需要對每個數據庫塊進行訪問。 當表中存在大量鍵值的時候,你就會開始發現由於存在許多簇塊而導致的性能問題。避免這個問題的一個方法就是使用一個哈希函數來約束簇塊的數量。哈希函數將會給定一個數值用來限定簇塊數量的預計范圍,但它得到的值是相對等分布的。
例如你可以創建一個哈希函數,只比較部門編號的最後兩位。 哈希函數中存在的一個問題就是函數值會打亂記錄原本的順序。你可以通過ORDER BY來解決這個問題;但是,在很多情況下,記錄數量是非常龐大的。在Oracle 10g 中,你可以將一個數據定義為“natural order” ,那麼就可以不用經過排序而以你所希望的順序來檢索哈希簇的數據,從而解決了上面的提出問題。
例如,假設你有一個信用卡業務的數據庫。你決定以信用卡號作為簇主鍵將有利於數據的存儲分布。但是,由於存在大量的信用卡號,所以可以使用一個哈希函數來約束簇塊的數量。而且你希望在你的大部分報表中數據是按照時間順序排列的,那麼在進行每個查詢操作時使用排序哈希簇,而不要使用ORDER BY。下面給出了相關語句: create cluster credit_cluster
(
card_no varchar2(16),
transdate date sort
)
hashkeys 10000 hash is ora_hash(card_no)
size 256;
create table credit_orders
(
card_no varchar2(16),
transdate date,
amount number
)
cluster credit_cluster(card_no,transdate);
alter session set nls_date_format = "YYYYMMDDHH24MISS";
insert into credit_orders (card_no,transdate,amount)
values ('4111111111111111','20050131000123',57.99);
insert into credit_orders (card_no,transdate,amount)
values ('4111111111111111','20050130071216',16.59);
insert into credit_orders (card_no,transdate,amount)
values ('4111111111111111','20050131111111',39.00);
insert into credit_orders (card_no,transdate,amount)
values ('4111111111111111','20050130081001',25.16);
可以看到我在這裡使用了一個新函數ORA_HASH 來為信用卡建立一個哈希數值。現在,你可以非常簡單地對某個信用卡數據進行查詢,並返回自動排序後的結果。