PHP經過長時間的發展,很多用戶都很了解PHP了,我們現在可以利用PHP函數實現采集器程序。何為采集器,通常又叫小偷程序,主要是用來抓取別人網頁內容的。關於采集器的制作,其實並不難,就是遠程打開要采集的網頁,然後用正則表達式將需要的內容匹配出來,只要稍微有點正則表達式的基礎,都能做出自己的采集器來的。
這樣還不夠,還需要一個切取PHP函數:
- function cut($string,$start,$end){
- $message = explode($start,$string);
- $message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容,$start為開始的地方,$end為結束的地方。取出分類號:
- $start = "Html/Book/";
- $end
- = "List.shtm";
- $typeid = cut($typeid[0][0],$start,$end);
- $typeid = explode("/",$typeid);[/php]
- 這樣,$typeid[0]就是我們要找的分類號了。方法如下:
- $ustart = """;
- $uend
- = """;
- //t表示title的縮寫
- $tstart = ">";
- $tend
- = "<";
- //取路徑,例如:123.shtm,2342.shtm,233.shtm
- preg_match_all("/"[0-9]{1,}.(shtm)"/is",$chapterurl,$url);
- //取標題,例如:第一章 九世善人
- preg_match_all("/<a href="[0-9]{1,}.shtm"(.*?)</a>/is",$file,$title);
- $countcountcount = count($url[0]);
- for($i=0;$i<=$count;$i++)
- {
- $u = cut($url[0][$i],$ustart,$uend);
- $t = cut($title[0][$i],$tstart,$tend);
- $array[$u] = $t;
- }
$array數組就是所有的章節地址了,到這裡,采集器就完成一半了,剩下的就是循環打開每個章節地址,讀取,然後將內容匹配出來。這個比較簡單,這裡就不詳細敘述了。好了,今天就先寫到這吧,第一次寫這麼長的文章,語言組織方面難免有問題,還請大家多包涵!