程序師世界是廣大編程愛好者互助、分享、學習的平台，程序師世界有你更精彩！


設為首頁	加入收藏

首頁
編程語言: C語言|JAVA編程
 Python編程
網頁編程: ASP編程|PHP編程
 JSP編程
數據庫知識: MYSQL數據庫|SqlServer數據庫
 Oracle數據庫|DB2數據庫

程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> php 文章采集正則代碼

php 文章采集正則代碼

編輯：關於PHP編程

復制代碼代碼如下:
//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}

//獲得標題和url
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正則匹配<li>獲取標題和地址
preg_match_all ("/<li><a href=\"\/learn\/article\/(.*)\">(.*)<\/a>/",$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];
}
//根據url獲取文章內容
foreach($article['link'] as $key=>$value){
$content_html = getwebcontent($article['link'][$key]);
preg_match("/<div id=pagenum_0(.*)>[\s|\S]*?<\/div>/",$content_html,$matches);
$article[content][$key] = $matches[0];

}
//不轉碼還真不能保存成文件
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//轉碼
}
//存入文件
$num = count($article['title']);
for($i=0; $i<$num; $i++){
file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
}
?>

上一頁:PHP array_push 數組函數
下一頁:php 需要掌握的東西不做浮躁的人

關於PHP編程

簡化PHP開發的10個工具，簡化php開發

簡化PHP開發的10個工具，簡化php開發本文介紹了可以幫助

PHP生成隨機密碼的4種方法及性能對比

PHP生成隨機密碼的4種方法及性能對比使用PHP開發應用程

手把手教你做關鍵詞匹配項目（搜索引擎）---- 第二天，教你做----

手把手教你做關鍵詞匹配項目（搜索引擎）---- 第二天，教你

使用Flash AS3獲取遠程PHP數據實例

這裡是一個使用Flash AS3獲取遠程PHP數據的實例，通

定制南方七星彩投注網站系統開發建設，七星系統開發

定制南方七星彩投注網站系統開發建設，七星系統開發歡迎大家來咨

Symfony2中的設計模式——裝飾者模式，symfony2設計模式

Symfony2中的設計模式——裝飾者模式，symfony2

相關文章

閱讀排行榜

Linux下實現PHP多進程的方法分享 php獲取新浪微博數據API實例 phpMyAdmin連接MySql錯誤的解決方案探討如何在php168_cms中提取驗證碼 Call to undefined function curl_init()，undefinedcurl_init PHP配置 PHP中該怎樣防止SQL注入？，php該怎樣sql注入 php中session超時嚴格控制實例 APACHE的AcceptPathInfo指令使用介紹 PHP自定義函數格式化json數據示例，php自定義json示例 PHP JSON中文

熱門圖文

php計算十二星座的函數代碼多線程——實現Callable接口 Linux下 C++程序的異常處理技巧五種 JSP頁面跳轉方法詳解水晶報表主從表的關聯 java-比較兩個時間值並存儲在一個數組中 hdu 2896 病毒侵襲 AC自動機基礎題 .NET微信公眾號查看關注者接口，.net信公眾接口

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程

Copyright © 程式師世界 All Rights Reserved