基於Java字符編碼的應用詳解。本站提示廣大學習愛好者:(基於Java字符編碼的應用詳解)文章只能為提供參考,不一定能成為您想要的結果。以下是基於Java字符編碼的應用詳解正文
1,甚麼是字符編碼?
字符(Character)是文字與符號的總稱,包含文字、圖形符號、數學符號等。一組籠統字符的聚集就是字符集(Charset)。字符集的湧現是為了信息停止流傳貯存供給便利。今朝經常使用到字符集有:ASCII,ISO 8859-1,Unicode,GB2312
2,各類編碼集有哪些特色?
ASCII:
ASCII(American Standard Code for Information Interchange,美國信息交流尺度代碼)是基於拉丁字母的一套電腦編碼體系。
包括內容:掌握字符(回車,退格,換行鍵),可顯示式字符(英文年夜小寫,阿拉伯數字和西文符號)。
技巧特點:7位(bits)表現一個字符,共128字符
缺乏的地方:只能表現英語,想西歐,東亞和拉美地域的說話符號沒法表現。
ISO 8859-1:
ISO 8859-1,正式編號為ISO/IEC 8859-1:1998,又稱Latin-1或“西歐說話”,是國際尺度化組織內ISO/IEC 8859的第一個8位字符集。
它以ASCII為基本,在空置的0xA0-0xFF的規模內,參加96個字母及符號,藉以供應用附加符號的拉丁字母說話應用。曾推出過 ISO 8859-1:1987 版。
包括內容:ASCII編碼包括的,部門西歐應用的說話。
技巧特點:8位表現一個字符。
Unicode:
Unicode字符集編碼是Universal Multiple-Octet Coded Character Set 通用多八位編碼字符集的簡稱,是由一個名為 Unicode 學術學會(Unicode Consortium)的機構制定的字符編碼體系,支撐當今世界各類分歧說話的書面文本的交流、處置及顯示。該編碼於1990年開端研發,1994年正式頒布,最新版本是2005年3月31日的Unicode 4.1.0。
技巧特點:16位編碼,每一個字符占用2個字節。一個字符的Unicode編碼是肯定的。然則在現實傳輸進程中,因為分歧體系平台的設計紛歧定分歧,和出於節儉空間的目標,對Unicode編碼的完成方法有所分歧。Unicode的完成方法稱為Unicode轉換格局(Unicode Transformation Format,簡稱為UTF)。假如一個7位的ASCII字符的Unicode文件,在傳輸進程中假如應用2個字節的原Unicode編碼傳輸會形成比擬年夜的糟蹋。關於這類情形,可使用UTF-8編碼,這是一種變長編碼,它將根本7位ASCII字符仍用7位編碼表現,占用一個字節(首位補0)。而碰到與其他Unicode字符混雜的情形,將按必定算法轉換,每一個字符應用1-3個字節編碼,並應用首位為0或1停止辨認。
GB2312:
GB 2312 或 GB 2312-80 是中國國度尺度簡體中文字符集,全稱《信息交流用漢字編碼字符集·根本集》,又稱GB0,由中國國度尺度總局宣布,1981年5月1日實行。GB2312編碼通行於中國年夜陸;新加坡等地也采取此編碼。中國年夜陸簡直一切的中文體系和國際化的軟件都支撐GB 2312。
包括內容:6763個漢字,個中一級漢字3755個,二級漢字3008個;同時收錄了包含拉丁字母、希臘字母、日文平化名及片化名字母、俄語西裡爾字母在內的682個字符。
技巧特點:每一個漢字及符號以兩個字節來表現。第一個字節稱為“高位字節”,第二個字節稱為“低位字節”。“高位字節”應用了0xA1-0xF7,“低位字節”應用了0xA1-0xFE0xA0)。 因為一級漢字從16區肇端,漢字區的“高位字節”的規模是0xB0-0xF7,“低位字節”的規模是0xA1-0xFE,占用的碼位是72*94=6768。個中有5個空位是D7FA-D7FE。