程式師世界 >> 編程語言 >> 更多編程語言 >> 編程綜合問答 >> nutch-請問為什麼我用Nutch爬取不到百度百科和百度文庫裡面的內容？

nutch-請問為什麼我用Nutch爬取不到百度百科和百度文庫裡面的內容？

編輯：編程綜合問答

請問為什麼我用Nutch爬取不到百度百科和百度文庫裡面的內容？: 經過設置我只能獲取到百度百科和百度文庫首頁的一些頁面，可是我想爬取這兩個網站內部的頁面，請問該如何配置？有沒有人有成功的先例？
比如如果想要爬取百度文庫裡面的頁面crawl-urlfilter.txt裡面的正則表達式改如何編寫？
多謝指教！

最佳回答：

nutch1.2在crawl-urlfilter.txt設置站點，1.2以上的版本要在regex-urlfilter.txt中配置。
具體是在accept hosts in MY.DOMAIN.NAME下設置要爬取的站點.
例如：

accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*.)*baidu.com/

在nutch目錄下建個urls文件夾，裡面建個baidu.txt文件，裡面把要爬取的Url放進去。
http://wenku.baidu.com/
然後運行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30

編程綜合問答

c++-Ｃ＋＋模板類的問題，求解答

Ｃ＋＋模板類的問題，求解答

php-初學PHP，這段測試代碼的初始化錯在哪兒？怎麼改？

初學PHP，這段測試代碼的初

c/c++-求求求求改進程序，C/C++藍橋杯FJ字符串

求求求求改進程序，C/C++

random-關於java數組的問題，想來這邊問一下

關於java數組的問題，想來

java-Java問題：Collections中的binarySearch方法只支持字符串元素對嗎？

Java問題：Collect

studio- Error parsing XML: junk after document element

Error parsing