hi 各位免費火車頭采集器的采友:
火車頭免費版本不支持采集結果的外掛處理,比如采用php來輔助處理結果,而火車頭本身對於正則表達式的不完整支持,
導致對於采集一些有混淆文字的內容效果不好,那麼咱們怎麼做到過濾那些混淆字串呢?
其實很簡單--采用服務器端過濾
比如采集發送到服務器端是:
$_POST = array("subject"=> "這裡是標題","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>這裡是內容");
在服務器端我們稍加處理:
$_POST["content"] = preg_replace("正則表達式","",$_POST["content"]);
就可以使用熟悉的工具完成工作。
有朋友說了,我服務器端代碼是加密的怎麼辦?
其實很簡單 比如 add.php 加密 ,那麼將add.php 改名為 add_ori.php
然後建立新的 add.php
<?
//處理上傳來的數據
....
include dirname(__FILE__)."/add_ori.php";
?>
這樣就可以了