采集功能
[1]分類管理
a 添加一個頻道
b 頻道(點擊進入欄目管理)
c 添加新欄目
[2] 項目管理
a 添加新項目
項目名稱: 填寫采集的項目名稱,便於自己以後管理
所屬頻道: 請選擇采集的頻道
所屬欄目: 請選擇所屬於的欄目
所屬專題: 不屬於任何專題
網站名稱: 自己用來采集的對象網站名稱
網站網址: 自己用來采集的對象的地址
網站登錄: 不需要登錄 設置參數
登錄參數: 需要登錄才能訪問的請設置登錄參數(不支持驗證碼登錄)
提交地址:點擊 登錄 按鈕後用來驗證用戶名、密碼的文件網址,如動力3.62的
是 http://www.****.com/Admin_ChkLogin.asp。
用戶(密碼)參數:查看登錄表單源碼,找到形如下面之類的代碼
用戶名:<input type="text" name="UserName" value="">
密碼:<input type="password" name="Password" value="">
用戶參數就是--第一行的name=後面的UserName
密碼參數就是--第二行的name=後面的Password
失敗信息: 用戶名或者密碼不正確時,登錄後的失敗提示信息,用於判斷登錄是否成功的一個標志,請一定要填寫,否則不能采集,比如:您輸入的用戶名或密碼不正確,請重新輸入!
項目備注:該項目的其它要記錄的信息,以後每天都要采集
b 列 表 設 置
Quote
列表就像一本書的目錄,目錄可以有一頁,也可以有很多頁,列表也一樣。
列表索引頁面:
你要開始采集的列表頁。
列表開始/結束標記:
平面上的兩點確定一條直線,學過幾何吧?用在這裡是一樣的道理,開始/結束標記可以確定你要采集的新聞,有的這裡沒有設置好結果采集到其它新聞去了。
比如這是某一列表頁面的主要部分代碼:
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="News.asp?id=1" target=_blank>新聞標題</a><br>
<a href="News.asp?id=2" target=_blank>新聞標題</a><br>
....省略
<a href="News.asp?id=50" target=_blank>新聞標題</a>
</td>
</tr>
</table>
紅色部分就是我們要的列表開始標記和結束標記,是不是把你想要的新聞夾在中間了?按照這樣的取法可以選擇好多對開始標記和結束標記,也就是說它們並不是唯一的。但是它們又是相對唯一的,這裡的唯一是指,開始標記在第一條新聞以上的代碼中唯一,結束標記在開始標記到結束標記之間的是唯一的。
列表索引分頁:
(1)設置標簽
列表索引頁的部分代碼如下:
<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><a href="index_2.html">下一頁</a>
<a href="index_4.html">尾頁</a> </td>
紅色部分為分頁開始/結束標記,只要這兩個代碼確定,不是不就可以確定“下一頁”了?,剩下的交給程序來處理,有的填寫:<A HREF="和">2</A>,這就錯了,怎麼錯了自己想想。
索引分頁重定向:參考鏈接設置
(2)批量生成
如有些列表是這種形式:
第一頁http://www.it.com.cn/news/cyxw/yejie/index_1.html
第二頁http://www.it.com.cn/news/cyxw/yejie/index_2.html
第三頁http://www.it.com.cn/news/cyxw/yejie/index_3.html
那麼可以這設置:{$ID}是必須的
原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html
生成范圍:1--3
結果程序會生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html
http://www.it.com.cn/news/cyxw/yejie/index_2.html
http://www.it.com.cn/news/cyxw/yejie/index_3.html
這樣的幾個列表頁面
(3)手動添加
輸入一頁網址後按回車再輸入另一頁,如此反復可以輸入多個網址。
(3)鏈接設置
鏈接開始/結束標記:
這裡沒設置好采集過程中可能會路途停止
部分代碼
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=1" target=_blank>新聞標題</a>
<a href="List.asp?type=Pc新聞">[Pc新聞]</a><a href="New.asp?id=2" target=_blank>新聞標題</a>
....省略
<a href="List.asp?type=IT新聞">[IT新聞]</a><a href="New.asp?id=50" target=_blank>新聞標題</a>
</td>
</tr>
</table>
紅色部分為鏈接開始/結束標記,注意:如果新聞標題的前面有欄目鏈接(包括其它的鏈接,就像上面這個有IT新聞、Pc新聞一樣)的,開始標記必須往前延伸,我以前做的3.62版的錄像中開始標記是href=,這個只能用於新聞標題前面沒有欄目鏈接的情況。
鏈接的重新定位:
如果新聞的鏈接特殊,可使用本功能對新聞網址重新定位,比如有些代碼可能是這樣:
<a href="Javascript:window.open('1')" target=_blank>新聞標題</a><br>
<a href="Javascript:window.open('5')" target=_blank>新聞標題</a><br>
....省略
<a href="Javascript:window.open('50')" target=_blank>新聞標題</a>
把開始/結束標記設置為紅色部分,點擊一條新聞看它的真實網頁地址,比如第一條新聞的地址是這樣,http://www.scuta.net/news.asp?id=1,那麼絕對鏈接就設置為http://www.scuta.net/news.asp?id={$ID}就成了。c 列 表 截 取 測 試
d 列 表 新 聞 鏈 接 測 試
e 正 文 設 置
f 采 樣 測 試
g 屬 性 設 置
設置一些采集的選項,注意
采集選項: 立即發布 保存圖片 倒序采集 外部鏈接 中 保存圖片不要勾選.
h 點"完成".采集設置完畢
[3] 數據采集
在這裡可以看到自己剛設置好的項目,
采集模式:快速模式 穩定模式 篩選模式 采集測試 正文預覽這幾種自己琢磨了,不多描述 .結果都差不多.
然後開始漫長的采集過程.服務器速度和網速有關系.
[4] 數據審核
數據審核中,有"全選" "部分選擇" "全部" 這幾種模式,點標題可以查看采集的文章(帶圖片) .也可以刪除數據
[5] 數據導出
是把數據從采集庫中導入到cms數據表中,默認的是審核完的文章才可以導出,如果導出過的話會顯示"已導出"反之亦然.
數據導出時有幾個選項需要注意:
有三種導出模式: 部分選擇,全部選擇,整個欄目導出.但是不管那種模式都要選擇 ·請輸出的[資源類別]方向 或者[資源特性],這些是與系統中你建立的資源分類相掛勾的,選擇導出到哪個分類.
導出完畢.
資源管理-->常規資源 中可以看到你剛才采集到的文章,默認為已經審核過.
然後可以選擇生成或者編輯.