程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> PHP綜合 >> 基於curl數據采集之單頁面采集函數get_html的使用

基於curl數據采集之單頁面采集函數get_html的使用

編輯：PHP綜合

這是一個系列沒辦法在一兩天寫完所以一篇一篇的發布

大致大綱：

1.curl數據采集系列之單頁面采集函數get_html

2.curl數據采集系列之多頁面並行采集函數get_htmls

3.curl數據采集系列之正則處理函數get _matches

4.curl數據采集系列之代碼分離

5.curl數據采集系列之並行邏輯控制函數web_spider

單頁面采集在數據采集過程中是最常用的一個功能有時在服務器訪問限制的情況下只能使用這種采集方式慢但是可以簡單的控制所以寫好一個常用的curl函數調用是很重要的

百度和網易比較熟悉所以拿這兩個網站首頁采集來做例子講解

最簡單的寫法：
復制代碼代碼如下:
$url = 'http://www.baidu.com';
$ch = curl_init($url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch,CURLOPT_TIMEOUT,5);
$html = curl_exec($ch);
if($html !== false){
     echo $html;
}

由於使用頻繁可以利用curl_setopt_array寫成函數的形式：
復制代碼代碼如下:
function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
}

復制代碼代碼如下:
$url = 'http://www.baidu.com';
echo get_html($url);

有時候需要傳遞一些特定的參數才能得到正確的頁面如現在要得到網易的頁面：
復制代碼代碼如下:
$url = 'http://www.163.com';
echo get_html($url);

會看到一片空白什麼也沒有那麼再利用curl_getinfo寫一個函數看看發生了什麼：
復制代碼代碼如下:
function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
}
$url = 'http://www.163.com';
var_dump(get_info($url));

可以看到http_code 302 重定向了這時候就需要傳遞一些參數了：
復制代碼代碼如下:
$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

會發現怎麼是這樣的一個頁面和我們電腦訪問的不同？？？

看來參數還是不夠不夠服務器判斷我們的客戶端是什麼設備上的就返回了個普通版

看來還要傳送USERAGENT
復制代碼代碼如下:
$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
$options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
echo get_html($url,$options);