程式師世界 >> 編程語言 >> .NET網頁編程 >> .NET實例教程 >> 關於搜索引擎優化的頁面抓取的一點想法

關於搜索引擎優化的頁面抓取的一點想法

編輯：.NET實例教程

西廂情緣是一個婚戀交友平台，它必須面對各種各樣的用戶群體，為了更好的為這些用戶服務，就需要采用ajax技術來解決一些用戶交互的問題，而傳統意義上的Ajax是對搜索引擎數據抓取並不是非常友好的。搜索引擎對一個處於長尾末端的中小型網站來講，其重要性是不言而喻的，但是為了搜索引擎優化就需要放棄AJax良好的，根據用戶實際要求來動態裝載數據的機制嗎？或是必須要重寫一套適應性網頁嗎？顯然，我們應該先來看看搜索引擎是怎麼抓取我們的頁面的。。。

　　google是在世人心中最權威的搜索機構老大（公平性和計算機自動處理方面非常受到程序員們的推崇吧），它的頁面抓取算法就倍受關注，能夠讓他抓取頁面才是SEO最基礎的一步，先被抓取，然後才有如何讓搜索引擎的分析工具識別頁面內容價值的層面。

　　舉個例子，今天登錄google的網站管理員工具發現有兩條無法訪問的網址，兩條未找到的網址，經過分析發現，Google取頁面地址的時候，並非只取<A>地址</A>這樣的鏈接，在源文件中出現的類似Url的地址，Google都會試圖抓取，這裡是網頁快照的一行JS腳本正文。

var url = "/mine/GetAreaOptions.ASPx?action=geta2&Pid=" + pstfrm.slStayAddr1.value + "&ListN=pstfrm.slStayAddr2";
　　結果google的識別程序誤認為"/mine/GetAreaOptions.ASPx?action=geta2&Pid="是一個頁面的鏈接，並嘗試去抓取，當然無法訪問了！

　　但這些也給了我們一個思路，就是如何把一定程度分散了的頁面內容，讓搜索引擎識別，並以用戶友好的方式展示給用戶，我的心得是

　　一、對於重要的，以動態獲取的內容，要在相關的文件中以地址串的方式出現，以便於搜索引擎識別並抓取，當然，如果有心，針對搜索引擎專門寫一套專供抓取的方案效果上更好，但是畢竟會有費時費力的地方。有時候還可以和Google有一定的合作，為Google的GoogleBot提供專門的接口，效果會最好，但是不是所有的網站都行，而且會有很多資源浪費。

　　二、對於給定的部分內容的頁面，可以通過Js或其它手段直接跳轉到整體的頁面，當然，如果是JS的話，AJax方式取得內容以後，這段JS是不起作用的，所以這樣又把用戶引入了正途。

　　以上方案只是一個初步的東西，部分頁面的內容，由於缺少外部鏈接的支持等一些具體情況，PageRank肯定會相對較低，但是金子總會發光，搜索引擎要做的事就是要讓用戶找到需要的內容，如果你的內容夠好，總會有發光的時候。