要有效地管理Web服務器,就有必要反饋服務器的活動、性能以及出現的問題。Apache
HTTP服務器提供了非常全面而靈活的日志記錄功能。本文將闡述如何配置文件以及如何理解日志內容。
安全警告
任何人只要對Apache存放日志文件的目錄具有寫權限,也就當然地可以獲得啟動Apache的用戶(通常是root)的權限,絕對不要隨意給予任何人存放日志文件目錄的寫權限。細節請參見安全方面的提示。
另外,日志文件可能會包含未加轉換的來自用戶的信息,用戶就有機會惡意插入控制符,所以處理原始日志時應該當心這個問題。
錯誤日志(Error Log)相關模塊相關指令
ErrorLog
LogLevel
錯誤日志是最重要的日志文件,其文件名和位置取決於ErrorLog指令。Apache
httpd將在這個文件中存放診斷信息和處理請求中出現的錯誤,由於這裡經常包含了出錯細節以及如何解決,如果服務器啟動或運行中有問題,首先就應該查看這個錯誤日志。
錯誤日志通常被寫入一個文件(unix系統上一般是error_log,Windows和OS/2上一般是error.log)。在unix系統中,錯誤日志還可能被重定向到syslog或通過管道操作傳遞給一個程序。
錯誤日志的格式相對靈活,並可以附加文字描述。某些信息會出現在絕大多數記錄中,一個典型的例子是:
[Wed Oct 11 14:32:52 2000] [error] [client 127.0.0.1] client denied by
server configuration: /export/home/live/ap/htdocs/test
其中,第一項是錯誤發生的日期和時間;第二項是錯誤的嚴重性,LogLevel指令使只有高於指定嚴重性級別的錯誤才會被記錄;第三項是導致錯誤的IP地址;此後是信息本身,在此例中,服務器拒絕了這個客戶的訪問。服務器在記錄被訪問文件時,用的是文件系統路徑,而不是Web路徑。
錯誤日志中會包含類似上述例子的多種類型的信息。此外,CGI腳本中任何輸出到stderr的信息會作為調試信息原封不動地記錄到錯誤日志中。
用戶可以增加或刪除錯誤日志的項。但是對某些特殊請求,在訪問日志(access
log)中也會有相應的記錄,比如上述例子在訪問日志中也會有相應的記錄,其狀態碼是403,因為訪問日志也可以定制,所以可以從訪問日志中得到錯誤事件的更多信息。
在測試中,對任何問題持續監視錯誤日志是非常有用的。在unix系統中,可以這樣做:
tail -f error_log
訪問日志(Access Log)相關模塊相關指令
mod_log_config
mod_setenvif
CustomLog
LogFormat
SetEnvIf
訪問日志中會記錄服務器所處理的所有請求,其文件名和位置取決於CustomLog指令,LogFormat指令可以簡化日志的內容。這裡闡述如何配置服務器的訪問日志。
實施日志管理,首先當然必須產生訪問日志,然後才能分析日志從而得到有用的統計信息。日志分析不是Web服務器的職責,已超出本文的范疇,更多資料和有關分析工具的信息,可以查看Open
Directory或Yahoo。
不同版本的Apache httpd使用了不同的模塊和指令來控制對訪問的記錄,包括mod_log_referer,
mod_log_agent和TransferLog指令。現在,CustomLog指令包含了舊版本中相關指令的所有功能。
訪問日志的格式是高度靈活的,使用很象C風格的printf()函數的格式字符串。下面有幾個例子,完整的說明可以查看用於mod_log_config模塊的格式字符串。
通用日志格式(Common Log Format)
這是一個典型的記錄格式:
LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog
logs/access_log common
它定義了一種特定的記錄格式字符串,並給它起了個別名叫common,其中的"%"指示服務器用某種信息替換,其他字符則不作替換。引號(")必須加反斜槓轉義,以避免被解釋為字符串的結束。格式字符串還可以包含特殊的控制符,如換行符"\n"
、制表符"\t"。
CustomLog指令建立一個使用指定別名的新日志文件,除非其文件名是以斜槓開頭的絕對路徑,否則其路徑就是相對於ServerRoot的相對路徑。
上述配置是一種被稱為通用日志格式(CLF)的記錄格式,它被許多不同的Web服務器所采用,並被許多日志分析程序所識別,它產生的記錄形如:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326
記錄的各部分說明如下:
127.0.0.1(%h)
這是發送請求到服務器的客戶的IP地址。如果HostnameLookups設為
On,則服務器會嘗試解析這個IP地址的主機名並替換此處的IP地址,但並不推薦這樣做,因為它會顯著拖慢服務器,最好是用一個日志後續處理器來判斷主機名,比如logresolve。如果客戶和服務器之間存在代理,那麼記錄中的這個IP地址就是那個代理的IP地址,而不是客戶機的真實IP地址。
-(%l)
這是由客戶端identd進程判斷的RFC1413身份(identity),輸出中的符號"-"表示此處的信息無效。除非在嚴格控制的內部網絡中,此信息通常很不可靠,不應該被使用。只有在將IdentityCheck指令設為
On時,Apache才會試圖得到這項信息。
frank(%u)
這是HTTP認證系統得到的訪問該網頁的客戶標識(userid),環境變量REMOTE_USER會被設為該值並提供給CGI腳本。如果狀態碼是401,表示客戶未通過認證,則此值沒有意義。如果網頁沒有設置密碼保護,則此項將是"-"。
[10/Oct/2000:13:55:36 -0700](%t)
這是服務器完成請求處理時的時間,其格式是:
[日/月/年:時:分:秒 時區]
日 = 2數字
月 = 3字母
年 = 4數字
時 =
2數字
分 = 2數字
秒 = 2數字
時區 = (+|-)4數字
可以在格式字符串中使用
%{format}t來改變時間的輸出形式,其中的format與C標准庫中的strftime()用法相同。
"GET /apache_pb.gif HTTP/1.0"(\"%r\")
引號中是客戶端發出的包含許多有用信息的請求行。可以看出,該客戶的動作是GET,請求的資源是/apache_pb.gif,使用的協議是HTTP/1.0。另外,還可以記錄其他信息,如:格式字符串"%m %U%q
%H"會記錄動作、路徑、查詢字符串、協議,其輸出和"%r"一樣。
200(%>s)
這是服務器返回給客戶端的狀態碼。這個信息非常有價值,因為它指示了請求的結果,或者是被成功響應了(以2開頭),或者被重定向了(以3開頭),或者出錯了(以4開頭),或者產生了服務器端錯誤(以5開頭)。完整的狀態碼列表參見 HTTP規范(RFC2616第10章)。
2326(%b)
最後這項是返回給客戶端的不包括響應頭的字節數。如果沒有信息返回,則此項應該是"-",如果希望記錄為""的形式,就應該用%B。組合日志格式(Combined Log Format)
另一種常用的記錄格式是組合日志格式,形式如下:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\"
\"%{User-agent}i\"" combined
CustomLog log/access_log combined
這種格式與通用日志格式類似,但是多了兩個 %{header}i項,其中的header可以是任何請求頭。這種格式的記錄形如:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en]
(Win98; I ;Nav)"
其中,多出來的項是:
"http://www.example.com/start.html"(\"%{Referer}i\")
"Referer"請求頭。此項指明了該請求是被從哪個網頁提交過來的,這個網頁應該包含有/apache_pb.gif或者其連接。
"Mozilla/4.08 [en] (Win98; I ;Nav)"(\"%{User-agent}i\")
"User-Agent"請求頭。此項是客戶端提供的浏覽器識別信息。多文件訪問日志
可以簡單地在配置文件中用多個CustomLog指令來建立多文件訪問日志。如下例,既記錄基本的CLF信息,又記錄提交網頁和浏覽器的信息,最後兩行CustomLog示范了如何模擬ReferLog和AgentLog指令的效果。
LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog
logs/access_log common
CustomLog logs/referer_log "%{Referer}i ->
%U"
CustomLog logs/agent_log "%{User-agent}i"
此例也說明了,記錄格式可以直接由CustomLog指定,而並不一定要用LogFormat起一個別名。
條件日志
許多時候,根據與請求特征相關的環境變量來有選擇地記錄某些客戶端請求會帶來便利。首先,需要使用SetEnvIf指令來設置特定的環境變量以標識符合某種特定條件的請求,然後用CustomLog指令的
env=子句,根據這些環境變量來決定記錄或排除特定的請求。例如:
# 不記錄本機發出的請求
SetEnvIf Remote_Addr "127\.0\.0\.1" dontlog
#
不記錄對robots.txt文件的請求
SetEnvIf Request_URI "^/robots\.txt$" dontlog
#
記錄其他請求
CustomLog logs/access_log common env=!dontlog
再如,將使用英語的請求記錄到一個日志,而記錄非英語的請求到另一個日志:
SetEnvIf Accept-Language "en" english
CustomLog logs/english_log
common env=english
CustomLog logs/non_english_log common env=!english
雖然上述已經展示了條件日志記錄的強大和靈活,但這不是控制日志內容的唯一手段,還可以用日志後繼處理程序來剔除你不關心的內容,從而使日志更加有用。
日志滾動
即使一個並不繁忙的服務器,其日志文件的信息量也會很大,一般每10000個請求,訪問日志就會增加1MB或更多。這就有必要定期滾動日志文件。由於Apache會保持日志文件的打開,並持續寫入信息,因此服務器運行期間不能執行滾動操作。移動或者刪除日志文件以後,必須重新啟動服務器才能讓它打開新的日志文件。
用優雅的(graceful)方法重新啟動,可以使服務器啟用新的日志文件,而不丟失原來尚未寫入的信息。為此,有必要等待一段時間,讓服務器完成正在處理的請求,並將記錄寫入到原來的日志文件。以下是一個典型的日志滾動和為節省存儲空間而壓縮舊日志的例子:
mv access_log access_log.old
mv error_log error_log.old
apachectl
graceful
sleep 600
gzip access_log.old error_log.old
另一種執行滾動的方法是使用下一節闡述的管道日志。
管道日志
Apache
httpd可以通過管道將訪問記錄和出錯信息傳遞給另一個進程,而不是寫入一個文件,由於無須對主服務器進行編程,這個功能顯著地增強了日志的靈活性。只要用管道操作符"|"後面跟一個可執行文件名,就可以使這個程序從標准輸入設備獲得事件記錄。Apache在啟動時,會同時啟動這個管道日志進程,並且在運行過程中,如果這個進程崩潰了,會重新啟動這個進程(所以我們稱這個技術為"可靠管道日志")。
管道日志進程由其父進程Apache httpd產生,並繼承其權限,這意味著管道進程通常是作為root運行的,所以保持這個程序簡單而安全極為重要。
管道日志的一種重要用途是,允許日志滾動而無須重新啟動服務器。為此,服務器提供了一個簡單的程序rotatelogs。每24小時滾動一次日志的例子如下:
CustomLog "|/usr/local/apache/bin/rotatelogs /var/log/access_log 86400"
common
注意:引號用於界定整個管道命令行。雖然這是針對訪問日志的,但是其用法對於其他日志也一樣。
在其他站點,有一個類似但更靈活的日志滾動程序叫cronolog。
如果有較簡單的離線處理日志的方案,就不應該使用條件日志和管道日志,即使它們非常強大。
虛擬主機
如果服務器配有若干虛擬主機,那麼還有幾個控制日志文件的功能。首先,可以把日志指令放在<VirtualHost>段之外,讓它們與主服務器使用同一個訪問日志和錯誤日志來記錄所有的請求和錯誤,但是這樣就不能方便的獲得每個虛擬主機的信息了。
如果把CustomLog或ErrorLog指令放在<VirtualHost>段內,所有對這個虛擬主機的請求和錯誤信息會被記錄在其私有的日志文件中,那些沒有在<VirtualHost>段內使用日志指令的虛擬主機將仍然和主服務器使用同一個日志。這種方法對虛擬主機較少的服務器很有用,但虛擬主機非常多時,就會帶來管理上的困難,還經常會產生文件描述符短缺的問題。
對於訪問日志,有一個很好的折衷方案,在同一個訪問日志文件中記錄對所有主機的訪問,而每條記錄都注明虛擬主機的信息,日後再把記錄拆開存入不同的文件。例如:
LogFormat "%v %l %u %t \"%r\" %>s %b" comonvhost
CustomLog
logs/access_log comonvhost
%v用來附加虛擬主機的信息。有個split-logfile程序可以根據不同的虛擬主機信息對日志進行拆分,並將結果存入不同的文件。
其他日志文件相關模塊相關指令
mod_logio
mod_log_forensic
mod_cgi
mod_rewrite
LogFormat
ForensicLog
PidFile
RewriteLog
RewriteLogLevel
ScriptLog
ScriptLogBuffer
ScriptLogLength
記錄接收和發送的實際字節數
mod_logio增加了兩個額外的LogFormat字段(%I 和
%O)用於記錄接收和發送的實際字節數。
對比記錄(Forensic Logging)
mod_log_forensic提供了對客戶端請求的對比記錄,也就是在請求被處理之前和處理完成之後進行兩次記錄,所以對比日志(forensic
log)對於每個請求都包含兩條記錄。對比記錄器(forensic logger)十分嚴格,不可以進行定制。它可以成為無價的調試和安全工具。
PID文件
在啟動時,Apache httpd將會在logs/httpd.pid文件中保存其父進程httpd的進程ID(process
id[PID])。該文件名可以用PidFile指令改變。該PID可以被管理員利用來重新啟動或者終止服務器後台守護進程。在Windows中,可以使用命令行參數
-k 。更多信息請參見停止和重新啟動。
腳本日志
為了方便調試,可以用ScriptLog指令來記錄CGI腳本的輸入和輸出。此功能應該僅用於測試,而不應該用於正常工作的服務器。更多資料請參見mod_cgi文檔。
重寫日志
在使用強大且靈活的mod_rewrite時,幾乎都有必要用RewriteLog來幫助調試。這個日志提供了重寫引擎如何轉換請求的詳細分解信息,其詳細程度取決於RewriteLogLevel指令。
*