要麼頁面原始漢字和從數據庫裡取出的漢字全是亂碼;要麼原始漢字和數據庫漢字,一個顯示正常了,另一個就變成亂碼了。很煩很氣人! 問題需要一步一步的解決。在實際操作以下方法之前,需要配置 Web 服務器,使其與 PHP 集成,最終可以調試 PHP 程序。我們以常見的 GB2312 和 UTF-8 字符集為例來測試和說明。浏覽器是 IE7.0。
頁面原始漢字亂碼的解決
PHP字符集編碼的原理我就不說了,網上搜索一下字符串“PHP 亂碼”,整框整框的文章供大家閱讀。我最關心的是具體怎麼做,就可以解決這個實際問題。我最喜歡使用的文本編輯器是 UltraEdit,不僅僅因為它可以進行 16 進制編輯,還因為它支持多編碼文檔。解決這個問題就需要使用 UltraEdit 的這個功能。
打開中文 Windows,用 UltraEdit 創建一個文本文件,手工輸入一個 PHP 頁面文件,文件內容如下。保存為 test1.php 文件,注意保存時“格式”下拉框選擇“默認”- 特別注意這裡。
- < Html>
- < head>
- < title>頁面標題< /title>
- < META http-equiv=Content-Type content="text/html; charset=gb2312">
- < /head>
- < Body>
- 電腦學習網:< br>
- < /body>
- < /html>
用 IE 浏覽器打開網站的這一頁面。可以看到,頁面顯示正常。在 IE 浏覽器的“查看”/“編碼”菜單下看到(勾選了“自動選擇”),字符編碼是 GB2312。
[Firefox 2.0 下顯示正常。]
然後,在 UltraEdit 的“文件”菜單下,選“另存為”,格式選擇“UTF-8”,文件名為 test2.php。用 IE 浏覽器打開這一頁面。可以看到,頁面顯示正常(其實英文字體已經有略微的變化了)。在 IE 浏覽器的“查看”/“編碼”菜單下看到(勾選了“自動選擇”),字符編碼是 UTF-8,自動變了!注意 一句並沒有修改,但是浏覽器卻自動辨別出了真實的PHP字符集編碼!看來 IE 還是比較聰明的,也說明 IE 自動判別字符集是比 METE 標簽中 charset=xxx 的定義優先的。
[Firefox 2.0 下顯示出現亂碼。]
在該頁面首部加語句
- header("Content-Type:text/html;
- charset=utf-8");
- ?>
再次保存該頁面文件,“格式”下拉框選擇“默認”,文件名為 test3.php。用 IE 打開網站裡的該文件,這次看到,除過英文字母,漢字變成亂碼了!同時在 IE 浏覽器的“查看”/“編碼”菜單下看到(勾選了“自動選擇”),字符編碼是 UTF-8,已經被強制改變了。
出現漢字亂碼的原因,是因為原本的 GB2312 編碼,被強制以 UTF-8 的編碼形式顯示,所以亂碼出現了。這個時候在浏覽器裡人為指定 GB2312 編碼,頁面漢字又顯示正常了(真正制作頁面時是不能這麼做的,非要讓浏覽者自己選擇PHP字符集編碼,一個是浏覽者可能根本不知道怎麼選擇編碼、選什麼編碼,再者也顯得我們太菜了!)。
[Firefox 2.0 下顯示出現亂碼。]
在該頁面首部加語句
- < ?php
- header("Content-Type:text/html;
- charset=GB2312");
- ?>
再次保存該頁面文件,“格式”下拉框選擇“UTF-8”,文件名為 test4.php。用 IE 打開網站裡的該文件,奇怪:看到頁面漢字顯示正常,並不是預想到的亂碼?!在 IE 浏覽器的“查看”/“編碼”菜單下看到(勾選了“自動選擇”),PHP字符集編碼仍然是 UTF-8,並沒有被強制改變了 GB2312 字符集。
這個時候在浏覽器裡人為指定 GB2312 編碼,發現 IE 浏覽器並不能人為指定編碼。看來 IE 浏覽器對 UTF-8 字符集特別關照。無論是在 META 標簽指定,還是 PHP 語句指定,都不能讓 IE 浏覽器顯示出漢字亂碼。
[Firefox 2.0 下顯示出現亂碼。]
小結一下: 以上測試主要在 IE7.0 下進行,Web 服務器為 Windows Server 2003 下的 IIS6.0,PHP 版本為 4.4.7。可以看到,IE7.0 為了正確識別字符集做了很多額外的自動處理的工作,以顯示其智能和友好。有時太殷勤了反而使我們不知所措。由於漢字亂碼問題與不同的浏覽器及其不同的版本、Web 服務器、後台腳本和不同的字符集都有點關系,所以問題顯得特別復雜。作為 Web 編程人員,主要關心與自己有關的因素就可以了,沒必要成為PHP字符集編碼的專家。為了兼容目前流行的 IE 和 FF 浏覽器,我們可以按照以下簡單的方法處理我們的 PHP 代碼:
1,頁面的真正字符集與 META 標簽指定的應該一致;
2,也可以使用 header("Content-Type:text/html;charset=xxx"); 語句指定字符集,但是不能與字符的真正字符集沖突,也不能與 META 標簽沖突。(盡管根據測試結果表明,當 header() 和 META 沖突時,header() 比 META 指定的字符集更優先,因為根據 HttpWatch Basic 跟蹤顯示,header() 指定字符集後,IE 浏覽器 Type 會明確的得到字符集指定。但是不能保證其它非主流浏覽器也會這樣。)
3,PHP字符集編碼不能與數據庫取回的字符的字符集沖突,否則頁面會出現頁面本身的漢字和數據庫取回的漢字,全部亂碼或部分亂碼問題。