1. 下載火蜘蛛采集器
火蜘蛛采集器下載地址:
http://firespider.duapp.com/FireSpiderWeb/index.html
2.安裝
火蜘蛛采集器包含了一個客戶端和一個服務端安裝包。安裝非常方便,一路下一步就可以安裝完成。具體安裝步驟可以參考它提供的安裝手冊。
3.啟動
啟動服務端:在桌面有個快捷方式“Fire Spider Server Startup”,右鍵-》以管理員身份運行。
啟動客戶端:雙擊桌面快捷方式“FireSpider”
4.試用
安裝之後默認已經包含了幾個采集任務了。打開客戶端,如下圖所示,選中一個任務後點擊“執行采集”。
可以看到采集開始執行了。
如果需要停止采集,選中采集任務,點擊“執行采集”按鈕旁邊的“退出”。
5.建立新百倫任務
安裝之後默認已經包含了一個采集駱駝天貓店的任務——“駱駝-列表頁”。我們只要參考這個,建一個自己的任務就可以了。比如我要采集 “新百倫旗艦店”,在天貓搜索“新百倫”進入新百倫天貓店,找到新百倫的列表頁,鏈接是這樣的:
http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274
接下來建一個采集新百倫的任務
在浏覽器輸出 http://localhost:8090/FireSpider/html/index.html 打開管理中心
新建一個任務,除了“任務名稱”,“鏈接”,“數據上傳鏈接”,其實都跟“駱駝-列表頁”一樣就行了。鏈接填寫剛才的新百倫列表頁的鏈接。
注意“數據上傳鏈接” 字段:這個是采集器在采集到數據的時候,會把數據往這個鏈接以POST方式推送。因為采集器並不知道我們拿采集到的數據有什麼用,只好把數據交給我們自己處理。我們可以在本地開一個REST服務,apache, tomcat, iis什麼的都可以。
這裡“數據上傳鏈接” 我們填寫 “http://localhost/myphp/index.php”,這裡我們用的是PHP。待會會講一個這個PHP腳本。
如果只是體驗一下采集,“數據上傳鏈接”也可以留空。
點擊保存
6. 搭建WAMP
如果你不需要自己處理采集到的數據,這一步並不是必須的。這裡講的是PHP自定義采集數據處理,其它語言也可以略過。
6.1 安裝wamp
這個無需多言,也是一直下一步就可以了。
6.2 建立Alias
輸入alias名稱
輸入alias對應的目錄
6.3 index.php腳本
[php] view plaincopy
7. 采集新百倫
任務建立後就可以開始采集了。打開采集器客戶端,在任務標簽頁,選中我們剛才新建的“新百倫”,點擊“執行采集”
采集開始後,我們就可以在e:/test/ 下的josn-xxx.txt看到采集到的數據啦。