需要在mysql中插入2000萬條記錄,用insert語句插入速度很有限,每秒鐘幾百條,放在hadoop集群上跑也是這個速度,可能是數據庫的問題了,網上看到sql server和oracle的insert速度也不是很快。比較簡單的優化方法如下:
1、在一條insert語句中插入多條記錄
[sql]
INSERT INTO tablename (field0, field1, ...) VALUES
(value0, value1, ...),
(value0, value1, ...),
(value0, value1, ...),
...
(value0, value1, ...)
這樣插入速度可以提高很多倍,但還是不夠塊,對於2000萬條記錄,每秒鐘一兩千條的插入速度還是太慢。
2、從文本文件導入數據
mysql可以從文本文件直接導入記錄,不過需要文本文件是行記錄,並且每個字段之間用相同的字符隔開、每行之間也用相同的字符隔開。
寫了個程序把文本文件的格式處理一下,就可以在mysql客戶端使用如下語句導入數據了:
[sql]
mysql> LOAD DATA LOCAL INFILE 'fileName' INTO TABLE 'tableName' FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';
其中'\t'和'\n'分別是字段和行的分隔符,在不同的情況下可能不一樣。
用這種方式,感覺導入的速度主要和文件的大小有關,和記錄的條數關系不太(可能是2000萬的記錄還不夠多吧。。)
導入一個800MB的文本文件(2000萬行),在單機上預處理用了3分鐘,導入數據庫用了7分鐘(機器配置是i5-2400CPU、8GB內存、硬盤讀取速度大約90MB/S)
下面還要處理一個11GB的文本文件,這回估計要用集群跑了。
作者 bhq2010