摘要:本文討論了如何使用C#2.0實現抓取網絡資源的網絡蜘蛛。使用這個程序,可以通過一個入口網址(如http://www.comprg.com.cn)來掃描整
四、線程類的實現要想使網絡蜘蛛在有限的硬件環境下盡可能地提高下載速度。最廉價和快捷的方法就是使用多線程。在.Net framework2.0中提供了豐富的線程
五、用多線程下載網絡資源一般來說,網絡蜘蛛都是使用多線程來下載網絡資源的。至於如何使用多線程來下載,各個版本的網絡蜘蛛不盡相同。為了方便和容易理解,本文所討論
六、分析網絡資源對下載的網絡資源進行分析是網絡蜘蛛中最重要的功能之一。這裡網絡資源主要指的是html代碼中標簽的href屬性值。狀態和狀態之間會根據從Html
在getA方法中除了切換到狀態0外,其他的狀態切換都將已經讀入的字符賦給String變量a,如果最後發現變量a中的字符串不可能是後,就將a清空,並切換到狀態0
getFullUrl方法的實現代碼// 將相對路徑變為絕對路徑private String getFullUrl(string url){try{if (ur
UrlFilter類的實現代碼// 用於將url重新組合後再加到鍵樹中// 如http://www.comprg.com.cn和http://www.comp