細節一:同時插入多行記錄時,宜采用一條Insert語句
在數據插入時,往往需要同時往一個表中插入多條數據。如以ERP系統的采購訂單為例。用戶在前台客戶端錄入采購訂單時,有可能需要向同一個供應商同時采購多個原材料。此時在數據庫中,就需要往一個表格中同時插入多條記錄。在插入數據時,可以通過兩個方式實現。一是采用多條Insert語句,每個Insert語句插入一條記錄。另外一種方式是只采用一條Insert語句,插入多條語句。采取這兩種方式,有什麼差異呢?
從語言編寫的角度看,第一種方式比較清楚明了。但是從數據插入速度的角度來看,第二種方式性能比較好。特別是一次性插入一兩百條記錄時,兩者所需要的時間會相差一倍以上。如下圖所示,就是使用一條Insert語句插入多條記錄的舉例。
總之在數據插入時,需要注意使用帶有多個值列表的Insert語句一次插入多行記錄要比使用一個單行插入語句快很多。而且隨著行數的增加,這個差異會越來越大。在數據庫設計時,如果有設計到同時插入多條數據的紀錄,如通過客戶端導入基礎數據、通過前置單據自動生成相關單據,這些作業都會遇到向某個表中一次性插入多條記錄的情況。此時從提高數據庫性能的角度考慮,筆者建議采用一個Insert語句同時插入多條記錄的方式。雖然說編寫語言的時候會增加復雜程度,但是這點投資與數據庫性能優化相比而言,是值得的。
細節二:批量插入記錄時,建立采用Load Date Infile語句
有時候可能需要往MySQL數據庫中批量導入數據。如在ERP系統初始化過程中,需要將產品數據導入到系統中。實施顧問一般會要求用戶根據他們的格式准備好相關的數據,然後利用導入作業,將這些數據一次性導入到數據庫中。雖然這個導入作業是通過前台客戶端來完成的,但是最終仍然是反映在數據庫中。
針對這種批量數據的導入,數據庫又提供了兩種方式。一是上面所介紹的,采用一個Insert語句插入多行記錄的方式;另外一種就是采用Load Date Infile的方式。這兩種方式有什麼差異呢?Load Date Infile顧名思義,就是從一個文件中導入數據。為此如果采用這種方式的話,用戶需要預先准備一個固定格式的文件。而Insert語句的話,沒有這個要求,其可以直接利用其他作業中獲得的數據。從這個角度講,如果插入的紀錄數比較少(如在一百條左右)或者通過系統交互來獲得數據,此時比較適合使用Insert語句。從性能的角度考慮,通常情況下使用Load Date Infile語句的方式插入數據要比使用Insert語句速度快10到20倍。為此如果插入的數據量比較多,如期初導入數據時可能會有超過上萬條的記錄,此時使用Load Date Infile的方式能夠取得比較好的性能。
細節三:插入延遲,提高插入操作對系統的不利影響
在某些情況下,用戶對插入數據的即時性要求可能並不是很高,此時就可以考慮通過插入延遲特性,來減少插入操作對系統資源的耗用。筆者再以ERP系統為例。在ERP系統中,有一個安全庫存管理的作業。如果啟用了這個作業的話,那麼系統會在每天一個固定的時刻,分析賬上的庫存數據與安全庫存之間的關系。如果發現庫存數量低於安全庫存時,系統就會自動生成一張請購單,將差異的數據插入到後台的數據庫表中。顯然,對於這些記錄,用戶並不需要等待數據的插入完成。如在前台調用這個作業時,可以將這個作業放在後端執行。等到執行完畢後,再通知用戶即可。
在遇到這種情況時,就可以使用插入延遲的功能。當數據庫工程師啟用插入延遲功能時,服務器會立刻返回,而不會在那邊等著數據插入完成。如果表中沒有被其他線程所調用的情況,那麼記錄會排隊等待被插入。使用這個插入延遲特性,還能夠帶來另外一個好處。當多個作業同時往同一個表中插入數據的時候,這些進程會被記錄在同一個Block中。這就好像將多個單獨的Insert語句合並成一條Insert語句來執行,其速度會快許多。
細節四:在插入大量數據之前,可以先將表鎖定
在數據庫庫中,某些表只有特定的用戶才使用。而且每次使用時可能會同時插入多條數據。如在ERP系統中導入期初數據時,就會碰到這種情況。從前台客戶端導入產品數據時,通常情況下中間會有一個過渡表。用戶可以通過這個過渡表來核對數據是否准確。如果沒有問題的話,再將其導入到產品信息表中。采取這種方式,用戶還可以查詢到有哪些記錄沒有被導入到系統中。
由於期初數據的導入,一般是有系統管理員來完成的。此時這張過渡表只有一個用戶使用。為了提高數據插入的效率,數據庫工程師可以考慮,在插入之前先將表鎖定。這可以提高數據插入的性能。這主要是因為索引緩沖區只是在所有的插入語句完成之後才對磁盤進行一次性刷新。也就是說,有多個插入語句就會有多少次索引緩沖區刷新。為此在數據插入之前,將數據表進行鎖定,就可以大幅度的提高數據插入的效率。
細節五:插入數據之前先對數據進行排序
眾所周知,在對記錄進行排序時,需要耗費一定的系統資源。如果在插入數據時,就能夠考慮到排序問題,那麼在後續記錄查詢時,就可以避免重新排序所造成的二次開銷。故筆者建議,在可行的情況下,在對數據插入之前先對記錄根據一定的規則進行排序。
如在采購訂單行表中,同時插入多條語句(從物料申購單轉換為采購訂單)。在采購訂單行中插入多條記錄之前,可以根據用戶的使用習慣,如按照產品的編號進行排序。用戶在後續查詢時,就可以直接使用查詢的結果(默認情況下是根據記錄插入的先後順序來顯示結果的)。顯示時就不需要再進行一次排序作業,從而可以提高數據後續查詢的效率。
上面筆者提到的這個些內容,其實都是插入作業中的一些細節問題。但是這些細節內容,對於提高數據庫的插入效率有很大的幫助。有時候單純的通過提高硬件配置來改善數據庫的性能,還不能夠提到這麼明顯的效果。