最近不少網友來問我如何用PHP來抓取其他網站的新聞,開始我擔心會侵權,一直沒公開。但問的人太多了,這裡我舉個例子 ---- 如何抓取“深圳之窗”的新聞,僅供大家參考使用思路。請大家自覺,不要做違規的事。謝謝。
抓取“科技新聞”目錄代碼頁(readNews.php):
$url = "http://news.szptt.net.cn/kjxw.phtml";
if(isset($url)&&$url!="") {
$str = implode("",file($url));
$str_ary = explode("
",$str);
$str_ary = explode("",$str_ary[1]);
for ($i=0; $i<15; $i++) {
echo $str_ary[$i];
}
}
?>
相關文章
? 如何抓取“深圳之窗”的新聞
最近不少網友來問我如何用PHP來抓取其他網站的新聞,開始我擔心會侵權,一直沒公開。但問的人太多了,這裡我舉個例子 ---- 如何抓取“深圳之窗”的新聞,僅供大家參考使用思路。請大家自覺,不要做違規的事。謝謝。
抓取“科技新聞”詳細內容代碼頁(readNewsDetail.php):
CTOHome.com 科技新聞頻道
/*
* ctohome.com 深圳新聞
*/
$url_ary = explode("/",$url);
$url = $url_ary[count($url_ary)-2] . "/" . $url_ary[count($url_ary)-1];
$url = "http://news.szptt.net.cn/" . $url;
if(isset($url)&&$url!="") {
$str = implode("",file($url));
$str_ary = explode("echo "";
for ($i=4; $i<6; $i++) {
echo "}
echo "";
}
?>
抓取的方法要視不同的原代碼而定,事前要仔細分析你要抓取的頁的HTML原代碼,然後找出規律,最後才寫代碼。IE對HTML語法的糾錯功能很強,所以只要顯示結果正確,抓取後的代碼有些語法錯誤也沒關系。