以采集示例詳解部分功能
今天要給大家做示例的網站是163的 娛樂頻道 這個應該是個比較通用和實用的規則,下面開始。
如果您是火車采集器的老手,那麼您可以參考下,因為我要講解的會有違傳統的思維;如我您是新手那麼您最好能仔細看下,因為這將加快您的入門,同時在以後給您節省很多時間。以下是一些采集的基本步驟,您可以靈活運用:
一、建立站點
1、請先打開火車采集器,新建站點,看下圖:
為了方便管理您可以為您的站點取任何的您覺得易記的名稱,但是我建議用目標源的名字作為站點的名稱有利於日後的管理,如下圖
大部分的站點,通站往往只有一套模版或者有幾套類似的模版,這邊所謂的類似講的是模版中的標記很接近,那什麼是模版標記?模版標記指的是某部分內容開始和結束記號。比如很多正規的網站(通常是一些站點比較大,內容比較多的網站,比如sina、163等)會在內容開始的部分用類似於或
等標志來表示內容的開始。他們這麼作的原因有兩個,一個是由於內容多,為了各個部門之間的配合而作了對應的標記以便於工程的交接,另一個原因就是內容控制的需要,隨著xhtml的流行,用層控制越來越多,這就使得我們尋找采集標示越來越簡單(這點你們以後會慢慢理解的)。上面給各位講這些是因為接下來要我們要講解的是整站內容規則。
2、標題標簽講解。對應的頁面在這:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先從“站點基本信息”切換到“整站內容規則”,然後把要采集的內容頁面的網址拷貝到“典型頁面”接著點擊“測試”讀取源碼。先從標題標簽開始,我們發現按默認標簽采集回來的標題多了“_網易娛樂”,請雙擊標題標簽或者選種標題標簽在點擊修改,把“_網易娛樂”添加到排除內容框裡,標題標簽完成。如圖:
3、內容標簽講解。制作采集規則(任務)的任何一個標簽最重要的就在於尋找開始也結束的標志。目前大部分的采集器要求開始和結束的標志必須是整個源代碼的唯一標志,也就是所有的html源碼裡只能找到一個開始或結束的標志。但是火車采集器並不需要這麼作,你要找的只需要是從上到下第一個標志就可以了,我的意思是說,html代碼中允許有n個相同的開始(結束,下同)標志,但是只要這個位於我們要采集的內容的地方的標志是html從上到下的第一個就可以了。打開任何一個內容頁面,這邊以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 為例,我們發現他的內容從“進入論壇”,因此雙擊代碼測試框,查找需要的代碼,如圖:
我們可以用這個作為內容開始的標志,不過這樣還不完美,請自己在打開幾個內容頁面,在網頁中“右鍵點擊”——“查看源碼”,然後對比代碼,並提取相同的部分,我以
作為內容開始的標志。
接下來看內容結束標志,如下兩圖:
下面是根據我麼設置規則采集回來的內容
一般來說我們從開始標志到結束標志所采集回來的內容中都會包含有必須排除的內容或廣告,或鏈接。這邊我們需要排除的內容是“相關專題>>> 第六屆金鷹電視藝術節”。排除的方法是,找到相對應的代碼把代碼完整的拷貝進內容排除窗口,變動的部分用“(*)”替代。由於這個是整站規則,所以必須多找幾個類別,比如現在的這個163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規則做的通用完美,如果你只要其中的一個分類,比如“圖片”那麼你直接做這個的規則即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 這個頁面剛好有分頁,所以就順便講下上下頁的設置。他這邊的“上一頁”和“下一頁”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點擊對應的圖片查看屬性,拷貝圖片名即可)拷貝進對應的代碼框即可,詳細的看圖片:
這邊提示下,任何內容的排除你只要找到對應的代碼完整的拷貝進代碼排除窗並把其中可變的部分替換成"(*)"即可。由於他這邊沒有廣告,所有整站規則就算制作完畢,點擊保存進入單任務制作。好了,整站規則就講這兩個標簽,其他的根據需要自己按上面的步驟添加,記住,萬變不離其宗。其他的問題請到火車采集器論壇:http://bbs.locoy.com 探討。
二、下面講解單任務規則制作:
1、內容規則的制作,很多人到現在可能都還不明白火車采集器好在哪,現在講的這個絕對是火車獨有的特色(至少到目前為止是這樣,以後有沒有人出相同的功能就不得而知了!)
火車采集器是不需要經過網址規則制作即可直接進入內容采集,這樣你就可以根據站點的難易決定是否采集選定的目標源,而不必等到網址采集後才發現原來這個網站你沒辦法采或者根本不值得你浪費這個時間(前面的時間白搭了!)。
火車v3.0最大的功能之一既是可以繼承站點的規則,只要你前面制作的規則通用,那麼在接下來的所有任務都不需要再制作內容采集規則了。由於前面我們制作的內容采集規則通用,所以這邊的規則我們就不用講解了,直接繼承站點的,如圖:
2、網址采集規則制作
步驟:“新建”——“新建任務”,其他的操作如下圖:
作規則需要善於去發現規律性的東西,作到這點采集就沒什麼問題了。我們要采集示例的地址在這http://ent.163.com/special/00031HI0/entnews.html
這板只采集其中的1-3頁作為范例。我們發現每個葉面的網址開始前面都包含“過往娛樂熱點”結束都是“第1 2……頁”,所以請到html源代碼裡面拷貝對應的代碼,到特定區域采集范圍中,另外,網址中必須包含“/06/” 這樣網址采集就搞定了(簡單吧,自己試試看),如下圖:
3、發布方式。發布方式有5種,這邊以最常用的“在線發布”為例。
選定web在線發布到網站,點擊“定義全局發布方式”,然後按系統提示的步驟:選定發布模塊——》填寫網站/cms根地址——》使用火車內置浏覽器登陸——》登陸後關閉內置浏覽器——》刷新列表——》測試模塊,測試成功——》保存配置——》保存任務——》發表 如下圖高亮的部分是你要操作的步驟,從左到右從上到下:
下面是剛才我采集到本地論壇采集測試的兩個截屏: