創建您自己的 404 錯識消息處理程序,為站點內容提供有用的鏈接和重定向。使用變音匹配(metaphone matching)和一個簡單的加權記分文件為輸入錯誤、拼寫錯誤和無效鏈接生成重定向建議。根據 Web 站點的內容和首選重定向位置定制建議。捕獲傳入 URL 請求中的各種錯誤,並通過處理糾正其中的目錄、腳本和 HTML 頁面名稱錯誤。
關於如何為 404 頁面創建有效格式的教程比比皆是。這類教程大多建議在 404 頁面中包含靜態的建議鏈接,並將這些鏈接指向站點的公共區域,比如說首頁、下載頁面和站點的搜索引擎,前提是要有這些頁面。404 頁面普遍存在的問題是它們無法反映用戶訪問該站點的目的。本文將介紹如何構建一個建議生成器和一個方法,用於根據 Web 站點的內容提供更加有用的重定向鏈接。
現行的 404 處理程序允許我們為各種錯誤提供一些建議鏈接,比如說將用戶指向站點目錄。一些拼寫校正程序(比如說 mod_speling ——— 沒錯,它只有一個 “l”)可用於糾正詞典單詞中的錯誤,從而將用戶定向到正確的頁面。本文中的代碼將幫助您構建一個建議生成引擎,它可以根據 Web 站點的內容來處理在詞典中無法找到的單詞和目錄鏈接。
我們考慮這樣一個場景:您在電話會議中聽到了一個 Web 頁面名稱,因此便嘗試打開 blegs/DavSmath.html 鏈接。現行的拼寫校正模塊無法為此情況提供一個有用的鏈接。使用本文中的代碼,您將能夠生成一個 404 頁面,並在其中顯示建議的有效頁面 /blogs/DaveSmith.html。
需求
本世紀生產的任何現代 PC 應該都足以編寫和運行本文中的代碼。如果您的 Web 頁面含有超過 10,000 個不同的頁面,那麼可能需要大容量的內存、高性能的硬件或足夠的耐心。
所提供的 Perl 和 CGI 腳本可以在多種 UNIX® 和 Windows® 平台上運行(請參閱 下載部分。雖然本文將使用 Apache 和一個 CGI 腳本作為建議引擎,但是所構建的工具應該能夠在大多數 Web 服務器上正常運行。對於變音匹配,本文將引用 Michael Schwern 編寫的 Text::Metaphone 模塊。在開始之前,先通過喜好的 CPAN 鏡像安裝 Text::Metaphone 模塊。請參閱 參考資料 獲得下載信息。
Web 服務器頁面和變音代碼
針對輸入和拼寫錯誤提供替代建議的主要方法為變音匹配。與 Soundex 語音算法和一些其他算法類似,Metaphone 使用字母數字代碼表示單詞的發音。但是,與 Soundex 語音算法有所不同,構建語音代碼的目的是匹配英文發音的語言可變性。因此,變音代碼通常能夠更加准確地表示特定的單詞,並且為建議庫的構建提供了理論基礎。
考慮示例 Web 服務器目錄中的下列文件。
清單 1. Web 服務器文件
以下為引用的內容:
./index.html
./survey.html
./search_tips.html
./about.html
./how.html
./why.html
./who.html
./NathanHarrington.html
./blogs/NathanHarrington.html
./blogs/DaveSmith.html
./blogs/MarkCappel.html
針對這些靜態 HTML 文件,我們將使用 buildMetaphoneList.pl 程序為所有擴展名為 .html 的文件創建變音。
清單 2. buildMetaphoneList.pl
以下為引用的內容:
#!/usr/bin/perl -w
# buildMetaphoneList.pl - / split filename, 0 score, metaphones
use strict;
use File::Find;
use Text::Metaphone;
find(&htmlOnly,".");
sub htmlOnly
{
if( $File::Find::name =~ /.html/ )
{
my $clipFname = $File::Find::name;
$clipFname =~ s/.html//g;
my @slParts = split /, $clipFname;
shift(@slParts);
print "$File::Find::name ### 0 ### ";
for( @slParts ){ print Metaphone($_) . " " }
print "
";
}#if a matching .html file
}#htmlOnly sub
buildMetaphoneList.pl 程序只能處理擴展名為 .html 的文件,它將移除文件名中的 .html,然後為完整路徑名稱的各個部分生成變音。將 buildMetaPhoneList.pl 程序復制到 Web 服務器的根目錄下,然後運行命令 perl buildMetaphoneList.pl > metaphonesScore.txt。對於清單 1 中的文件,相應的 metaphonesScore.txt 文件內容如清單 3 所示。
清單 3. metaphonesScore.txt
以下為引用的內容:
./index.html ### 0 ### INTKS
./survey.html ### 0 ### SRF
./search_tips.html ### 0 ### SRXTPS
./about.html ### 0 ### ABT
./how.html ### 0 ### H
./why.html ### 0 ### H
./who.html ### 0 ### H
./NathanHarrington.html ### 0 ### N0NHRNKTN
./blogs/NathanHarrington.html ### 0 ### BLKS N0NHRNKTN
./blogs/DaveSmith.html ### 0 ### BLKS TFSM0
./blogs/MarkCappel.html ### 0 ### BLKS MRKKPL
清單 3 中的每一行文字都顯示了 Web 服務器根目錄下的實際鏈接、默認作用域和變音代碼。注意,how.html、 why.html 和 who.html 都解析為了相同的變音代碼。要解決這個不明確的地方,需要修改作用域字段,讓鏈接建議程序以指定的順序向頁面提供鏈接。比如說,將 “H” 變音條目修改為:
以下為引用的內容:
./how.html ### 100 ### H
./why.html ### 50 ### H
./who.html ### 0 ### H
這樣將創建一個直觀的鏈接重排序,並留下空間用於作用域的進一步修改。作用域的數字越大,插入同一變音文件(不過是不同的作用域)的順序就越靠後。比如說添加一個作用域為 25 的 hoo.html 文件列表,那麼它將位於 who.html 條目之上和 why.html 條目之下。
您還可以使用作用域字段區分目錄不同而名稱相同的文件。比如說,將 ./NathanHarrington.html 一行的的作用域修改為 100,那麼類似 nathenHorrington.html 這樣的請求會將 ./NathanHarrington.html 鏈接列在 ./blogs/NathanHarrington.html 頁面之前。
選擇文件的作用域時,務必要考慮 Web 站點的統計和邏輯訪問組件。從日志文件可以看出,用戶對 why.html 頁面的請求比較頻繁,但是如果您認為 how.html 對於用戶更為重要,那麼只需修改相應的作用域值對排序做出糾正。
構建 CGI 404 處理程序
我們已經生成了適當的變音並為它們指定了相關的作用域值,下一步將構建實際的建議生成器。通常,404 錯誤消息的原因為鏈接輸入錯誤或鏈接本身的問題。以下代碼生成的建議將通過以下三個主要測試創建:根據目錄結構匹配、使用變音組合匹配,以及當其他方法失敗時使用 “包含” 匹配。這三種測試的設計目的是處理大多數 404 錯誤。MetaphoneSuggest CGI Perl 腳本的開始部分如下所示。
清單 4. MetaphoneSuggest CGI 第 1 部分
以下為引用的內容:
#!/usr/bin/perl -w
# MetaphoneSuggest - suggest links for typographical and other errors from 404s
use s