程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> 零基本寫Java知乎爬蟲之預備任務

零基本寫Java知乎爬蟲之預備任務

編輯:關於JAVA

零基本寫Java知乎爬蟲之預備任務。本站提示廣大學習愛好者:(零基本寫Java知乎爬蟲之預備任務)文章只能為提供參考,不一定能成為您想要的結果。以下是零基本寫Java知乎爬蟲之預備任務正文


開篇我們照樣和本來一樣,講一講做爬蟲的思緒和須要預備的常識吧,高手們請直接疏忽。

起首我們來縷一縷思路,想一想究竟要做甚麼,列個簡略的需求。

需求以下:

1.模仿拜訪知乎官網(http://www.zhihu.com/)

2.下載指定的頁面內容,包含:昔日最熱,本月最熱,編纂推舉

3.下載指定分類中的一切問答,好比:投資,編程,掛科

4.下載指定答復者的一切答復

5.最好有個一鍵點贊的失常功效(如許我便可以一會兒給雷倫的一切答復都點贊了我真是太機靈了!)

那末須要處理的技巧成績簡略枚舉以下:

1.模仿閱讀器拜訪網頁

2.抓取症結數據並保留到當地

3.處理網頁閱讀中的靜態加載成績

4.應用樹狀構造海量抓取知乎的一切內容

好的,今朝就想了這些。

接上去就是預備任務了。

1.肯定爬蟲說話:因為之前寫過一系列爬蟲教程(點擊這裡),百度貼吧,糗事百科,山東年夜學的績點查詢等都是用python寫的,所以此次決議應用Java來寫(喂完整沒有半毛錢接洽好嗎)。

2.科普爬蟲常識:收集爬蟲,即Web Spider,是一個很抽象的名字。把互聯網比方成一個蜘蛛網,那末Spider就是在網上爬來爬去的蜘蛛。收集蜘蛛經由過程網頁的鏈接地址來尋覓網頁。詳細的入門引見請(點擊這裡)。

3.預備爬蟲情況:Jdk和Eclipse的裝置和設置裝備擺設就不多說啦。這裡煩瑣一句,一個好用的閱讀器關於爬蟲來講異常主要,由於起首你須要本身閱讀網頁曉得你須要的器械在哪裡,你能力告知你的爬蟲們去哪裡怎樣爬。小我推舉火狐閱讀器,或許谷歌閱讀器,它們的右鍵審查元素和檢查源代碼的功效都異常壯大。

上面我們開端正式的爬蟲之旅!~詳細講些甚麼呢,恩,這是個成績,讓我好好想一想,別急^_^

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved