程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> PHP綜合 >> dedeCMS采集中過濾規則設置教程

dedeCMS采集中過濾規則設置教程

編輯:PHP綜合
  今天吾愛編程為大家介紹的是dedeCMS采集功能的使用,dede的采集功能很受站長們歡迎,但一些剛接觸dede的朋友可能會對這個功能感到很陌生。
對於大多數網站來說,現在廣告是網站收入的一個重要來源,因此在網頁中常會嵌入廣告代碼。我們在采集的時候,如何將其過濾掉,從而避免了自己幫別人免費掛 廣告呢?又例如某些文章裡面某些關鍵詞有了他們自己網站上的其他文章鏈接,你是否願意讓你辛苦采集回來的文章裡包含了他的鏈接?這一切,只需簡單的過濾規 則,即可給你一篇干淨的文章。
dedeCMS的過濾規則並不難寫,其寫法如下面:

{dede:trim}這裡就是要過濾的內容{/dede:trim}

如果你要過濾的內容比較簡單的代碼,完全可以直接在“{dede:trim}”和“{/dede:trim}”之間寫上,如果比較復雜的就要用到正則了。

1、例如采集中去除內容裡的超鏈接的規則如下:

{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}

假如要將所有超鏈接內容都去除,規則是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
這兩個規則的不同通過下面代碼來解釋
例如文章代碼中包含著如下內容:<a href="http://blog.163.com/phpweb/blog/static/17970616220117292818220/#">超鏈接</a>
通過第一個規則,我們采集來的結果是:超鏈接
通過第二個規則,我們采集來的結果是:空白,即是將所有內容都過濾掉了。

2、過濾廣告

對於廣告來說,過濾規則就得針對html中看到的內容使用規則了,例如某些廣告僅僅是引用某個JS文件,例如
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
這樣的規則只需
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些廣告的內容是JS代碼寫在<script></script>區間裡的,例如GG的廣告,那麼過濾規則應該是:
{dede:trim}<script>(.*)</script>{/dede:trim}

3、下面是一些常識用的過濾規則

{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
{dede:trim}<select([^>]*)>{/dede:trim}
{dede:trim}</select>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<script>(.*)</script>{/dede:trim}
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
———————————–
對於下面這些規則就請慎用
———————————–
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}
{dede:trim}<div(.*)>(.*)</div>{/dede:trim}
{dede:trim}<center(.*)>{/dede:trim}
{dede:trim}</center>{/dede:trim}
{dede:trim}<p(.*)>{/dede:trim}
{dede:trim}</p>{/dede:trim}
{dede:trim}<span(.*)>{dede:trim}
{dede:trim}</span>{dede:trim}
{dede:trim}<img(.*)>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}

以上就是吾愛編程要介紹的內容,正則也許並不是每處都用得上,但當你了解其寫法後,自己也可以寫出一些更加適合自己使用的規則出來。
這些都是非常使用又非常容易理解的過濾規則,如果你想讓你的收集更加簡便,更加人性化.這些就要掌握好喔. *
  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved