PHP小偷程序是采集的前身,有了小偷原理才會寫采集。這是bkJia創恩IT教育培訓給大家上課時候給大家留的作業。隨手寫了幾行大概思路和功能,細節要求采集到裡面的郵箱,作者,標題,內容過濾,圖片自動下載,入庫分類等功能,也供大家參考下:
index.php
<?php
$con = file_get_contents("http://it.sohu.com/s2010/5651/s274087241/index.shtml");
$preg="/·<a href=(.*) target=_blank>(.*)</a>/U";
preg_match_all($preg,$con,$arr);
foreach($arr[1] as $id=>$v){
echo "<a href=view.php?url=$v>".$arr[2][$id]."</a><br>";
}
?>
view.php
<?php
$con = file_get_contents($_GET[url]);
$preg="/<h1>(.*)</h1>/";
preg_match($preg,$con,$arr);
echo "<h1>".$arr[1]."</h1>";
echo "<hr>";
$preg2="/<div class="text clear" id="contentText" collection="Y">(.*)</div>/s";
preg_match($preg2,$con,$arr2);
echo $arr2[1];
?>