程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> dede3.1分頁文字采集過濾規則詳說(圖文教程)續二

dede3.1分頁文字采集過濾規則詳說(圖文教程)續二

編輯：關於PHP編程

稍微了解dede采集規則的朋友上篇內容完全可以略過，下面看看如何以靜制動、以不變就萬變地解決分頁采集問題。
二、采集新目標

目標地址：
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以選取兩個目標頁面，是因為以上的兩個頁面一個有分頁，而另一個沒有，並且在分頁和全文取樣部分有較大的差別。以下的說明是在為采集目標地址(首頁)全部鏈接的基礎上改動的，個別地方會顯得蛇足，只為說明的方便。

目標文字部分頭部代碼1：

目標文字部分頭部代碼2：

通過比較不難發現，兩個文字部分的開始采集部分能確定下來為描黑部分，開頭部分好說，代碼如下：
復制代碼代碼如下:
              <TR>
                <TD height="8"></TD>
              </TR>
              <TR>
                <TD valign="top" class=Connet><p>

目標文尾及分頁區域代碼1：

目標文尾及分頁區域代碼2：

比較一下兩個結尾，盡管想把第一個的結尾再往前提一點，但沒法子，要考慮到全部鏈接的共同部分，就只好取描黑的部分了，這也給今後確定過濾規則添了點麻煩，這是後話。先把結尾部分確定了吧：
復制代碼代碼如下:
</p>
                  </TD>
              </TR>