對於數百萬條數據量的CSV文件,文件大小可能達到數百M,如果簡單讀取的話很可能出現超時或者卡死的現象。
為了成功將CSV文件裡的數據導入數據庫,分批處理是非常必要的。
下面這個函數是讀取CSV文件中指定的某幾行數據:
復制代碼 代碼如下:
/**
* csv_get_lines 讀取CSV文件中的某幾行數據
* @param $csvfile csv文件路徑
* @param $lines 讀取行數
* @param $offset 起始行數
* @return array
* */
function csv_get_lines($csvfile, $lines, $offset = 0) {
if(!$fp = fopen($csvfile, 'r')) {
return false;
}
$i = $j = 0;
while (false !== ($line = fgets($fp))) {
if($i++ < $offset) {
continue;
}
break;
}
$data = array();
while(($j++ < $lines) && !feof($fp)) {
$data[] = fgetcsv($fp);
}
fclose($fp);
return $data;
}
調用方法:
復制代碼 代碼如下:
$data = csv_get_lines('path/bigfile.csv', 10, 2000000);
print_r($data);
函數主要采用行定位的思路,通過跳過起始行數來實現文件指針定位。
上述函數對500M以內的文件進行過測試,運行通暢,對於更大的文件未做測試,請斟酌使用或加以改進。