由於項目想借助Nutch來做網絡爬蟲,所以一番研究,發現網上文檔比較散,學習的很艱難,因此總結了一些,放上來與大家交流。
Nutch有1.x系列和2.x系列,主要區別是2.x使用了Gora作為持久層媒介,可以將數據持久化到關系型數據庫,更詳細的介紹參考Nutch官網。
這裡主要介紹采用Nutch2.3.1+HBase的方式進行部署,HBase又依賴於HDFS和Zookeeper,實際上,Nutch只是將HBase視為持久層,而並不關心HBase是單機模式還是分布模式,HBase又是將文件存儲於HDFS,將元數據(表信息)存儲於zookeeper,只不過單機模式下,把文件系統視為HDFS,而zookeeper可以使用內置,也可以使用外置的zookeeper。
解壓縮源碼包: