創建您自己的 404 錯識消息處理程序,為站點內容提供有用的鏈接和重定向。使用變音匹配(metaphone matching)和一個簡單的加權記分文件為輸入錯誤、拼寫錯誤和無效鏈接生成重定向建議。根據 Web 站點的內容和首選重定向位置定制建議。捕獲傳入 URL 請求中的各種錯誤,並通過處理糾正其中的目錄、腳本和 HTML 頁面名稱錯誤。
關於如何為 404 頁面創建有效格式的教程比比皆是。這類教程大多建議在 404 頁面中包含靜態的建議鏈接,並將這些鏈接指向站點的公共區域,比如說首頁、下載頁面和站點的搜索引擎,前提是要有這些頁面。404 頁面普遍存在的問題是它們無法反映用戶訪問該站點的目的。本文將介紹如何構建一個建議生成器和一個方法,用於根據 Web 站點的內容提供更加有用的重定向鏈接。
現行的 404 處理程序允許我們為各種錯誤提供一些建議鏈接,比如說將用戶指向站點目錄。一些拼寫校正程序(比如說 mod_speling ——— 沒錯,它只有一個 “l”)可用於糾正詞典單詞中的錯誤,從而將用戶定向到正確的頁面。本文中的代碼將幫助您構建一個建議生成引擎,它可以根據 Web 站點的內容來處理在詞典中無法找到的單詞和目錄鏈接。
我們考慮這樣一個場景:您在電話會議中聽到了一個 Web 頁面名稱,因此便嘗試打開 blegs/DavSmath.html 鏈接。現行的拼寫校正模塊無法為此情況提供一個有用的鏈接。使用本文中的代碼,您將能夠生成一個 404 頁面,並在其中顯示建議的有效頁面 /blogs/DaveSmith.html。
需求
本世紀生產的任何現代 PC 應該都足以編寫和運行本文中的代碼。如果您的 Web 頁面含有超過 10,000 個不同的頁面,那麼可能需要大容量的內存、高性能的硬件或足夠的耐心。
所提供的 Perl 和 CGI 腳本可以在多種 UNIX® 和 Windows® 平台上運行(請參閱 下載部分。雖然本文將使用 Apache 和一個 CGI 腳本作為建議引擎,但是所構建的工具應該能夠在大多數 Web 服務器上正常運行。對於變音匹配,本文將引用 Michael Schwern 編寫的 Text::Metaphone 模塊。在開始之前,先通過喜好的 CPAN 鏡像安裝 Text::Metaphone 模塊。請參閱 參考資料 獲得下載信息。
Web 服務器頁面和變音代碼
針對輸入和拼寫錯誤提供替代建議的主要方法為變音匹配。與 Soundex 語音算法和一些其他算法類似,Metaphone 使用字母數字代碼表示單詞的發音。但是,與 Soundex 語音算法有所不同,構建語音代碼的目的是匹配英文發音的語言可變性。因此,變音代碼通常能夠更加准確地表示特定的單詞,並且為建議庫的構建提供了理論基礎。
考慮示例 Web 服務器目錄中的下列文件。
清單 1. Web 服務器文件
以下為引用的內容:
./index.html
./survey.html
./search_tips.html
./about.html
./how.html
./why.html
./who.html
./NathanHarrington.html
./blogs/NathanHarrington.html
./blogs/DaveSmith.html
./blogs/MarkCappel.html
針對這些靜態 HTML 文件,我們將使用 buildMetaphoneList.pl 程序為所有擴展名為 .html 的文件創建變音。
清單 2. buildMetaphoneList.pl
以下為引用的內容:
#!/usr/bin/perl -w
# buildMetaphoneList.pl - / split filename, 0 score, metaphones
use strict;
use File::Find;
use Text::Metaphone;
find(\&htmlOnly,".");
sub htmlOnly
{
if( $File::Find::name =~ /\.html/ )
{
my $clipFname = $File::Find::name;
$clipFname =~ s/\.html//g;
my @slParts = split '/', $clipFname;
shift(@slParts);
print "$File::Find::name ### 0 ### ";
for( @slParts ){ print Metaphone($_) . " " }
print "\n";
}#if a matching .html file
}#htmlOnly sub
buildMetaphoneList.pl 程序只能處理擴展名為 .html 的文件,它將移除文件名中的 .html,然後為完整路徑名稱的各個部分生成變音。將 buildMetaPhoneList.pl 程序復制到 Web 服務器的根目錄下,然後運行命令 perl buildMetaphoneList.pl > metaphonesScore.txt。對於清單 1 中的文件,相應的 metaphonesScore.txt 文件內容如清單 3 所示。
清單 3. metaphonesScore.txt
以下為引用的內容:
./index.html ### 0 ### INTKS
./survey.html ### 0 ### SRF
./search_tips.html ### 0 ### SRXTPS
./about.html ### 0 ### ABT
./how.html ### 0 ### H
./why.html ### 0 ### H
./who.html ### 0 ### H
./NathanHarrington.html ### 0 ### N0NHRNKTN
./blogs/NathanHarrington.html ### 0 ### BLKS N0NHRNKTN
./blogs/DaveSmith.html ### 0 ### BLKS TFSM0
./blogs/MarkCappel.html ### 0 ### BLKS MRKKPL
清單 3 中的每一行文字都顯示了 Web 服務器根目錄下的實際鏈接、默認作用域和變音代碼。注意,how.html、 why.html 和 who.html 都解析為了相同的變音代碼。要解決這個不明確的地方,需要修改作用域字段,讓鏈接建議程序以指定的順序向頁面提供鏈接。比如說,將 “H” 變音條目修改為:
以下為引用的內容:
./how.html ### 100 ### H
./why.html ### 50 ### H
./who.html ### 0 ### H
這樣將創建一個直觀的鏈接重排序,並留下空間用於作用域的進一步修改。作用域的數字越大,插入同一變音文件(不過是不同的作用域)的順序就越靠後。比如說添加一個作用域為 25 的 hoo.html 文件列表,那麼它將位於 who.html 條目之上和 why.html 條目之下。
您還可以使用作用域字段區分目錄不同而名稱相同的文件。比如說,將 ./NathanHarrington.html 一行的的作用域修改為 100,那麼類似 nathenHorrington.html 這樣的請求會將 ./NathanHarrington.html 鏈接列在 ./blogs/NathanHarrington.html 頁面之前。
選擇文件的作用域時,務必要考慮 Web 站點的統計和邏輯訪問組件。從日志文件可以看出,用戶對 why.html 頁面的請求比較頻繁,但是如果您認為 how.html 對於用戶更為重要,那麼只需修改相應的作用域值對排序做出糾正。
構建 CGI 404 處理程序
我們已經生成了適當的變音並為它們指定了相關的作用域值,下一步將構建實際的建議生成器。通常,404 錯誤消息的原因為鏈接輸入錯誤或鏈接本身的問題。以下代碼生成的建議將通過以下三個主要測試創建:根據目錄結構匹配、使用變音組合匹配,以及當其他方法失敗時使用 “包含” 匹配。這三種測試的設計目的是處理大多數 404 錯誤。MetaphoneSuggest CGI Perl 腳本的開始部分如下所示。
清單 4. MetaphoneSuggest CGI 第 1 部分
以下為引用的內容:
#!/usr/bin/perl -w
# MetaphoneSuggest - suggest links for typographical and other errors from 404s
use strict;
use CGI::Pretty ':standard'; #standard cgi stuff
use Text::Metaphone;
my @suggestLinks = (); # suggested link list
my %mt = (); # filename, score, metaphone code hash
my $origLink = substr($ENV{REDIRECT_URL},1); # remove leading /
$origLink =~ s/\.html//g; # remove trailing .html
open(MPH,'metaphonesScore.txt') or die "can't open metaphones";
while(my @slPart = split '###', <MPH>)
{
$slPart[0] =~ s/ //g; #remove trailing space
$mt{$slPart[0]}{ score } = $slPart[1];
$mt{$slPart[0]}{ metaphones } = $slPart[2];
}
close(MPH);
代碼首先引入了一些常用庫並聲明了一些變量,然後將加載 404 報告文本和通過 buildMetaphoneList.pl 程序創建的變音。這時,我們可以開始編寫主要的程序邏輯了,如下所示。
清單 5. 主要程序邏輯
以下為引用的內容:
push @suggestLinks, sortResults( directorySplitTest( $origLink ) );
push @suggestLinks, sortResults( combinedTest( $origLink ) );
push @suggestLinks, sortResults( containsTest( $origLink ) );
# from the book - unique-ify the array
my %seen = ();
@suggestLinks = grep{ ! $seen{$_}++ } @suggestLinks ;
print header;
print qq{Error 404: The file requested [$ENV{REDIRECT_URL}] is unavailable.<BR >};
next if( @suggestLinks == 0 );
print qq{Please try one of the following pages:<BR >};
for my $link( @suggestLinks ){
$link = substr($link,index($link,'./')+1);
print qq{<a href="$link">$link</a><BR >};
}
首先,對匹配測試各部分的輸出進行排序,然後將其添加到總建議鏈接列表。對鏈接列表進行排序和惟一化(unique-ifying)之後,將建議鏈接直接打印輸出。
三個排序命令將結果保存在同一個數組中,目的是創建一個有序的建議列表。發生 404 錯誤時,目錄樹中(至少第一級目錄)極有可能會出現目錄分隔符(用於表示 Web 頁面)。比如說,以 bloggs/nathenherringtoon.html 頁面請求為例。上述代碼中所調用的 directorySplitTest 方法將創建一個排序的頁面列表,BLKS 和子目錄 N0NHRNKTN 的變音匹配都將包含在該列表中。這一策略可用於區分根目錄中的文件(如 blogs.html 和 nathanharrington.html)和完整路徑名匹配的頁面(如 blogs/nathanharrington.html)。下面的清單顯示了 directorySplitTest 子例程的內容。
清單 6. directorySplitTest subroutine
以下為引用的內容:
sub directorySplitTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my @inLinkMetas = ();
# process each metaphone chunk as a directory
for my $inP ( split '\/', $inLink ){ push @inLinkMetas, Metaphone($inP) }
my @metaList = split ' ', $mt{$fileName}{metaphones};
next if( @metaList != @inLinkMetas );
my $pos = 0;
my $totalMatch = 0;
for( @metaList )
{
$totalMatch++ if( $metaList[$pos] =~ /(\b$inLinkMetas[$pos]\b)/i );
$pos++;
}#for meatlist
# make sure there is a match in each metaphone chunk
next if( $totalMatch != @metaList );
push @matchRes, "$mt{$fileName}{score} ## $fileName";
}#for keys in metaphone hash
return( @matchRes );
}#directorySplitTest
組合測試位於 directorySplitTest 之後,用於檢查變音混和在一起時的匹配情況 — 忽略任何目錄結構。該測試用於糾正 404 類錯誤,即文件名中含有空格、斜槓、反斜槓、冒號和其他一些無發音的字符。比如說,如果針對 blogs_nathanherrington.html 發出一個 404 請求,那麼 directorySplitTest 將返回零結果,但是 combinedTest 將發現該 404 產生的變音組合在一起是 blogs/NathanHarrington.html 頁面的准確匹配。同樣,這些建議的優先級低於目錄匹配,因此這些分類結果將在 directorySplitTest 之後存入 suggestLinks 數組。以下清單顯示了 combinedTest 子例程。
清單 7. combinedTest 子例程
以下為引用的內容:
sub combinedTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my $inLinkMeta = Metaphone($inLink);
# smoosh all of the keys together, removing spaces and trailing newline
my $metaList = $mt{$fileName}{metaphones};
$metaList =~ s/( |\n)//g;
next if( $metaList !~ /(\b$inLinkMeta\b)/i );
push @matchRes, "$mt{$fileName}{score} ## $fileName";
}#for filename keys in metaphone hash
return(@matchRes);
}#combinedTest
在 combinedTest 之後是最後一個匹配測試,該測試基於一個廣度包含搜索。如果當前的 404 鏈接的變音是 metaphoneScores.txt 文件中可用變音的一部分,我們將把它添加到建議列表。包含搜索的設計目的是尋找內容極度不完整的 URL。nathan.html 頁面在任何位置都無法找到,但是一個良好的建議應該是 /NathanHarrington.html 和 /blogs/NathanHarrington.html,並且它們根據作用域值排序並添加到 suggestLinks 數組中。注意,此方法還將為單字母變音 404(如 whoo.html)生成 NathanHarrington.html 建議。由於 NathanHarrington.html 變音中含有一個 “H”,故將其添加到建議列表。考慮創建一個最小長度的匹配變音,或提供一個包含總數受限的匹配,以修改這一行為。清單 8 顯示了 containsTest 和 sortResults 子例程。
清單 8. sortResults 和 containsTest 子例程
以下為引用的內容:
sub sortResults
{
# simply procedue to sort an array of 'score ## filename' entries
my @scored = @_;
my @idx = (); #temporary index for sorting
for my $entry( @scored ){
# create an index of scores
my $item = substr($entry,0,index($entry,'##'));
push @idx, $item;
}
# sort the index of scores
my @sorted = @scored[ sort { $idx[$b] <=> $idx[$a] } 0 .. $#idx ];
return( @sorted );
}#sortResults
sub containsTest
{
my @matchRes = ();
my $inLink = $_[0];
for my $fileName ( keys %mt )
{
my $inLinkMeta = Metaphone($inLink);
my $metaList = $mt{$fileName}{metaphones};
next if( $metaList !~ /$inLinkMeta/i );
push @matchRes, "$mt{$fileName}{score} ## $fileName";
}#for filename keys in metaphone hash
return(@matchRes);
}#containsTest
修改 Apache httpd.conf 文件
上面所設計的 MetaphoneSuggest 腳本是一個將從 Apache 中直接調用的 cgi-bin 腳本。要運行 MetaphoneSuggestscript 腳本,我們需要對 httpd.conf 文件進行適當修改,否則將顯示 404 錯誤頁面。比如說,如果默認的 httpd.conf 文件含有以下部分:
清單 9. 默認 httpd.conf 部分
以下為引用的內容:
# Customizable error responses come in three flavors:
# 1) plain text 2) local redirects 3) external redirects
#
# Some examples:
#ErrorDocument 500 "The server made a boo boo."
#ErrorDocument 404 /missing.html
#ErrorDocument 404 "/cgi-bin/missing_handler.pl"
#ErrorDocument 402 http://www.example.com/subscription_info.html
在注釋掉的 ErrorDocument 代碼行之後插入如下代碼:ErrorDocument 404 "/cgi-bin/MetaphoneSuggest"。確保 MetaphoneSuggest 和 metaphonesScore.txt 文件位於 Web 服務器的 <document_root</cgi-bin/ 目錄下。以根用戶身份發起服務器重啟命令:例如 /usr/local/apache2/bin/apachectl restart,至此靈活的建議機制將徹底結束笨拙的 404 錯誤。
結束語
記住,使用 MetaphoneSuggest 程序中所描述的工具時,錯誤條件必須為 404 頁面。試著提供少量建議的選擇並保持設計的簡單性。請教 Web 設計方面的知名人士,了解他們為什麼沒有提供自動鏈接建議,或者開展各種可用性研究,了解何種情況下最適合在站點中實現鏈接建議工具。
本文提供了各種工具和代碼,用於在 404 頁面中創建實用的鏈接建議。但是,這些示例都已經實現,您可以通過它們提供一些復雜的功能,而不僅僅是簡單的目錄鏈接或拼寫建議。通過對特定站點和內容進行調整,笨拙的 404 錯誤將不復存在。