google是在世人心中最權威的搜索機構老大(公平性和計算機自動處理方面非常受到程序員們的推崇吧),它的頁面抓取算法就倍受關注,能夠讓他抓取頁面才是SEO最基礎的一步,先被抓取,然後才有如何讓搜索引擎的分析工具識別頁面內容價值的層面。
舉個例子,今天登錄google的網站管理員工具發現有兩條無法訪問的網址,兩條未找到的網址,經過分析發現,Google取頁面地址的時候,並非只取<A>地址</A>這樣的鏈接,在源文件中出現的類似Url的地址,Google都會試圖抓取,這裡是網頁快照的一行JS腳本正文。
var url = "/mine/GetAreaOptions.ASPx?action=geta2&Pid=" + pstfrm.slStayAddr1.value + "&ListN=pstfrm.slStayAddr2";
結果google的識別程序誤認為"/mine/GetAreaOptions.ASPx?action=geta2&Pid="是一個頁面的鏈接,並嘗試去抓取,當然無法訪問了!
但這些也給了我們一個思路,就是如何把一定程度分散了的頁面內容,讓搜索引擎識別,並以用戶友好的方式展示給用戶,我的心得是
一、對於重要的,以動態獲取的內容,要在相關的文件中以地址串的方式出現,以便於搜索引擎識別並抓取,當然,如果有心,針對搜索引擎專門寫一套專供抓取的方案效果上更好,但是畢竟會有費時費力的地方。有時候還可以和Google有一定的合作,為Google的GoogleBot提供專門的接口,效果會最好,但是不是所有的網站都行,而且會有很多資源浪費。
二、對於給定的部分內容的頁面,可以通過Js或其它手段直接跳轉到整體的頁面,當然,如果是JS的話,AJax方式取得內容以後,這段JS是不起作用的,所以這樣又把用戶引入了正途。
以上方案只是一個初步的東西,部分頁面的內容,由於缺少外部鏈接的支持等一些具體情況,PageRank肯定會相對較低,但是金子總會發光,搜索引擎要做的事就是要讓用戶找到需要的內容,如果你的內容夠好,總會有發光的時候。