在網上浏覽過一些頁面,心細的朋友會發現一些奇怪的東西。
像百度文庫這種東西,頁面明明是一個PDF文件,居然裡面的內容可以被搜索引擎收錄,並且一字不差。仔細一想,蜘蛛只喜歡文字,怎麼能得到pdf中的文字,有些不解。
最近工作中,我遇到一個函數,用來檢測來訪者是用戶還是蜘蛛的函數,終於解決了這個問題。原來頁面打開的時候,判斷了是客戶還是蜘蛛,分別顯示不同的頁面了。客戶顯示的是pdf文件,而蜘蛛顯示的是文字頁面。這個函數如下:
{page} '檢查當前用戶是否是蜘蛛人
Function check(user_agent)
allow_agent=split(""Baiduspider,Scooter,ia_archiver,Googlebot,FAST-WebCrawler,MSNBOT,Slurp"","","")
check_agent=false
For agenti=lbound(allow_agent) to ubound(allow_agent)
If instr(user_agent,allow_agent(agenti))>0 then
check_agent=true
exit for
end if
Next
check=check_agent
End function
user_agent=Request.ServerVariables(""HTTP_USER_AGENT"")
'check(user_agent)=true則判定訪問為蜘蛛人
if check(user_agent)=true then
response.write ""蜘蛛人""
else
response.write ""客戶""
end if
{page} 有了這個函數,我現在為了防止信息被采集,讓用戶訪問的時候,前台用圖片展示;當蜘蛛訪問的時候,我使用文字顯示,有利於信息被收錄。