程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> Java字符編碼根本原理

Java字符編碼根本原理

編輯：關於JAVA

Java開發中，常常會遇到亂碼的問題，一旦遇到這種問題，常常就很扯蛋，每個人都不願意承認是自己的代碼有問題。其實編碼問題並沒有那麼神秘，那麼不可捉摸，搞清Java的編碼本質過程就真相大白了。

先看個圖：

其實，編碼問題存在兩個方面：JVM之內和JVM之外。

1、Java文件編譯後形成class

這裡Java文件的編碼可能有多種多樣，但Java編譯器會自動將這些編碼按照Java文件的編碼格式正確讀取後產生class文件，這裡的class文件編碼是Unicode編碼（具體說是UTF-16編碼）。

因此，在Java代碼中定義一個字符串：

String s="漢字";

不管在編譯前Java文件使用何種編碼，在編譯後成class後，他們都是一樣的----Unicode編碼表示。

2、JVM中的編碼

JVM加載class文件讀取時候使用Unicode編碼方式正確讀取class文件，那麼原來定義的String s="漢字";在內存中的表現形式是Unicode編碼。

當調用String.getBytes()的時候，其實已經為亂碼買下了禍根。因為此方法使用平台默認的字符集來獲取字符串對應的字節數組。在WindowsXP中文版中，使用的默認編碼是GBK，不信運行下：

public class Test {   
public static void main(String[] args) {   
System.out.println("當前JRE：" + System.getProperty("Java.version"));   
System.out.println("當前JVM的默認字符集：" + Charset.defaultCharset());   
}   
}

當前JRE：1.6.0_16

當前JVM的默認字符集：GBK

當不同的系統、數據庫經過多次編碼後，如果對其中的原理不理解，就容易導致亂碼。因此，在一個系統中，有必要對字符串的編碼做一個統一，這個統一模糊點說，就是對外統一。比如方法字符串參數，IO流，在中文系統中，可以統一使用GBK、GB13080、UTF-8、UTF-16等等都可以，只是要選擇有些更大字符集，以保證任何可能用到的字符都可以正常顯示，避免亂碼的問題。（假設對所有的文件都用ASCII碼）那麼就無法實現雙向轉換了。

要特別注意的是，UTF-8並非能容納了所有的中文字符集編碼，因此，在特殊情況下，UTF-8轉GB18030可能會出現亂碼，然而一群傻B常常在做中文系統喜歡用UTF-8編碼而不說不出個所以然出來！最傻B的是，一個系統多個人做，源代碼文件有的人用GBK編碼，有人用UTF-8，還有人用GB18030。FK，都是中國人，也不是外包項目，用什麼UTF-8啊，神經！源代碼統統都用GBK18030就OK了，免得ANT腳本編譯時候提示不可認的字符編碼。

因此，對於中文系統來說，最好選擇GBK或GB18030編碼（其實GBK是GB18030的子集），以便最大限度的避免亂碼現象。

3、內存中字符串的編碼

內存中的字符串不僅僅局限於從class代碼中直接加載而來的字符串，還有一些字符串是從文本文件中讀取的，還有的是通過數據庫讀取的，還有可能是從字節數組構建的，然而他們基本上都不是Unicode編碼的，原因很簡單，存儲優化。

因此就需要處理各種各樣的編碼問題，在處理之前，必須明確“源”的編碼，然後用指定的編碼方式正確讀取到內存中。如果是一個方法的參數，實際上必須明確該字符串參數的編碼，因為這個參數可能是另外一個日文系統傳遞過來的。當明確了字符串編碼時候，就可以按照要求正確處理字符串，以避免亂碼。

在對字符串進行解碼編碼的時候，應該調用下面的方法：

getBytes(String charsetName)   
String(byte[] bytes, String charsetName)

而不要使用那些不帶字符集名稱的方法簽名，通過上面兩個方法，可以對內存中的字符進行重新編碼。

關於JAVA

JBuilder2007----嶄新的Java開發工具

JBuilder的發展史說起來並不順暢，從早期JBuild

Eclipse不自動編譯java文件的解決方法

最近我的eclipse經常犯傻，項目中總是有很

Struts 2.0的Action講解

有Struts 1.x經驗的朋友都知道Acti

Struts 2.0中的轉換器（Converter）

在我已往的Struts 1.x項目經驗中，有個

Java的異常處理及應用

Java 異常處理是使用 Java 語言進行軟

探討JDBC 4.0在設計和性能方面的改進

摘要 JDBC（Java數據庫連接）4.0預計

閱讀排行榜

關於JDBC檢測數據庫用戶的問題 Java多線程：“基礎篇”09之interrupt()和線程終止方式 Java generic中通配符的幾點理解對Java多線程技術中所有方法的詳細解析上溯造型的問題教您如何成為 EJB 專家詳解系列連載之一 Java Inner Class JAVA設計模式之事務處理真實世界中的Rails: Rails中的緩存處理系統中的各類附件，上傳下載分析Java虛擬機死鎖的方法

熱門圖文

uva 10765 Doves and bombs(雙聯通分量) mediaplayer-結束activity中出現MediaPlayer異常 C#中的類型轉換， [C語言] 使用回調函數實現冒泡排序析構-C++ 新手求解。。。。。 uva 10561 - Treblecross(Nim) C#關於使用正則表達式解析字符串 WPF基礎到企業應用系列3——WPF開發漫談

欄目導航

JAVA編程入門知識關於JAVA J2EE J2SE J2ME JAVA綜合教程