程式師世界 >> 編程語言 >> 網頁編程 >> ASP編程 >> 關於ASP編程 >> 防止網站被采集的理論分析以及十條方法對策第1/2頁

防止網站被采集的理論分析以及十條方法對策第1/2頁

編輯：關於ASP編程

相同點：
a. 兩者都需要直接抓取到網頁源碼才能有效工作，
b. 兩者單位時間內會多次大量抓取被訪問的網站內容;
c. 宏觀上來講兩者IP都會變動;
d. 兩者多沒耐心的去破解你對網頁的一些加密(驗證)，比如網頁內容通過js文件加密，比如需要輸入驗證碼才能浏覽內容，比如需要登錄才能訪問內容等。

不同點：
搜索引擎爬蟲先忽略整個網頁源碼腳本和樣式以及html標簽代碼，然後對剩下的文字部分進行切詞語法句法分析等一系列的復雜處理。而采集器一般是通過 html標簽特點來抓取需要的數據，在制作采集規則時需要填寫目標內容的開始標志何結束標志，這樣就定位了所需要的內容;或者采用對特定網頁制作特定的正則表達式，來篩選出需要的內容。無論是利用開始結束標志還是正則表達式，都會涉及到html標簽(網頁結構分析)。

然後再來提出一些防采集方法
1、限制IP地址單位時間的訪問次數
分析：沒有哪個常人一秒鐘內能訪問相同網站5次，除非是程序訪問，而有這種喜好的，就剩下搜索引擎爬蟲和討厭的采集器了。

弊端：一刀切，這同樣會阻止搜索引擎對網站的收錄

適用網站：不太依靠搜索引擎的網站

采集器會怎麼做：減少單位時間的訪問次數，減低采集效率

2、屏蔽ip
分析：通過後台計數器，記錄來訪者ip和訪問頻率，人為分析來訪記錄，屏蔽可疑Ip。

弊端：似乎沒什麼弊端，就是站長忙了點

適用網站：所有網站，且站長能夠知道哪些是google或者百度的機器人

采集器會怎麼做：打游擊戰呗!利用ip代理采集一次換一次，不過會降低采集器的效率和網速(用代理嘛)。

3、利用js加密網頁內容
Note:這個方法我沒接觸過，只是從別處看來
分析：不用分析了，搜索引擎爬蟲和采集器通殺

適用網站：極度討厭搜索引擎和采集器的網站

采集器會這麼做：你那麼牛，都豁出去了，他就不來采你了

4、網頁裡隱藏網站版權或者一些隨機垃圾文字，這些文字風格寫在css文件中
分析：雖然不能防止采集，但是會讓采集後的內容充滿了你網站的版權說明或者一些垃圾文字，因為一般采集器不會同時采集你的css文件，那些文字沒了風格，就顯示出來了。

適用網站：所有網站

采集器會怎麼做：對於版權文字，好辦，替換掉。對於隨機的垃圾文字，沒辦法，勤快點了。

5、用戶登錄才能訪問網站內容
分析：搜索引擎爬蟲不會對每個這樣類型的網站設計登錄程序。聽說采集器可以針對某個網站設計模擬用戶登錄提交表單行為。

適用網站：極度討厭搜索引擎，且想阻止大部分采集器的網站

采集器會怎麼做：制作擬用戶登錄提交表單行為的模塊

6、利用腳本語言做分頁(隱藏分頁)
分析：還是那句，搜索引擎爬蟲不會針對各種網站的隱藏分頁進行分析，這影響搜索引擎對其收錄。但是，采集者在編寫采集規則時，要分析目標網頁代碼，懂點腳本知識的人，就會知道分頁的真實鏈接地址。

適用網站：對搜索引擎依賴度不高的網站，還有，采集你的人不懂腳本知識

采集器會怎麼做：應該說采集者會怎麼做，他反正都要分析你的網頁代碼，順便分析你的分頁腳本，花不了多少額外時間。
當前1/2頁 12下一頁閱讀全文