程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> 詳解Java如何獲取文件編碼格式

詳解Java如何獲取文件編碼格式

編輯：關於JAVA

詳解Java如何獲取文件編碼格式。本站提示廣大學習愛好者：（詳解Java如何獲取文件編碼格式）文章只能為提供參考，不一定能成為您想要的結果。以下是詳解Java如何獲取文件編碼格式正文

1：復雜判別是UTF-8或不是UTF-8，由於普通除了UTF-8之外就是GBK，所以就設置默許為GBK。

依照給定的字符集存儲文件時，在文件的最掃尾的三個字節中就有能夠存儲著編碼信息，所以，根本的原理就是只需讀出文件前三個字節，斷定這些字節的值，就可以得知其編碼的格式。其實，假如項目運轉的平台就是中文操作零碎，假如這些文本文件在項目內發生，即開發人員可以控制文本的編碼格式，只需斷定兩種罕見的編碼就可以了：GBK和UTF-8。由於中文Windows默許的編碼是GBK，所以普通只需斷定UTF-8編碼格式。

關於UTF-8編碼格式的文本文件，其前3個字節的值就是-17、-69、-65，所以，斷定能否是UTF-8編碼格式的代碼片段如下：

File file = new File(path); InputStream in= new java.io.FileInputStream(file); byte[] b = new byte[3]; in.read(b); in.close(); if (b[0] == -17 && b[1] == -69 && b[2] == -65) System.out.println(file.getName() + "：編碼為UTF-8"); else System.out.println(file.getName() + "：能夠是GBK，也能夠是其他編碼");

2：若想完成更復雜的文件編碼檢測，可以運用一個開源項目cpdetector，它所在的網址是：http://cpdetector.sourceforge.net/。它的類庫很小，只要500K左右，cpDetector是基於統計學原理的，不保證完全正確，應用該類庫斷定文本文件的代碼如下：

讀內部文件(先應用cpdetector檢測文件的編碼格式，然後用檢測到的編碼方式去讀文件):

/** * 應用第三方開源包cpdetector獲取文件編碼格式 * * @param path * 要判別文件編碼格式的源文件的途徑 * @author huanglei * @version 2012-7-12 14:05 */ public static String getFileEncode(String path) { /* * detector是探測器，它把探測義務交給詳細的探測完成類的實例完成。 * cpDetector內置了一些常用的探測完成類，這些探測完成類的實例可以經過add辦法加出去，如ParsingDetector、 * JChardetFacade、ASCIIDetector、UnicodeDetector。 * detector依照“誰最先前往非空的探測後果，就以該後果為准”的准繩前往探測到的 * 字符集編碼。運用需求用到三個第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar * cpDetector是基於統計學原理的，不保證完全正確。 */ CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance(); /* * ParsingDetector可用於反省HTML、XML等文件或字符流的編碼,結構辦法中的參數用於 * 指示能否顯示探測進程的詳細信息，為false不顯示。 */ detector.add(new ParsingDetector(false)); /* * JChardetFacade封裝了由Mozilla組織提供的JChardet，它可以完成大少數文件的編碼 * 測定。所以，普通有了這個探測器就可滿足大少數項目的要求，假如你還不擔心，可以 * 再多加幾個探測器，比方上面的ASCIIDetector、UnicodeDetector等。 */ detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar // ASCIIDetector用於ASCII編碼測定 detector.add(ASCIIDetector.getInstance()); // UnicodeDetector用於Unicode家族編碼的測定 detector.add(UnicodeDetector.getInstance()); java.nio.charset.Charset charset = null; File f = new File(path); try { charset = detector.detectCodepage(f.toURI().toURL()); } catch (Exception ex) { ex.printStackTrace(); } if (charset != null) return charset.name(); else return null; }

String charsetName = getFileEncode(configFilePath); System.out.println(charsetName); inputStream = new FileInputStream(configFile); BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

讀jar包外部資源文件(先應用cpdetector檢測jar外部的資源文件的編碼格式，然後以檢測到的編碼方式去讀文件)：

/** * 應用第三方開源包cpdetector獲取URL對應的文件編碼 * * @param path * 要判別文件編碼格式的源文件的URL * @author huanglei * @version 2012-7-12 14:05 */ public static String getFileEncode(URL url) { /* * detector是探測器，它把探測義務交給詳細的探測完成類的實例完成。 * cpDetector內置了一些常用的探測完成類，這些探測完成類的實例可以經過add辦法加出去，如ParsingDetector、 * JChardetFacade、ASCIIDetector、UnicodeDetector。 * detector依照“誰最先前往非空的探測後果，就以該後果為准”的准繩前往探測到的 * 字符集編碼。運用需求用到三個第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar * cpDetector是基於統計學原理的，不保證完全正確。 */ CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance(); /* * ParsingDetector可用於反省HTML、XML等文件或字符流的編碼,結構辦法中的參數用於 * 指示能否顯示探測進程的詳細信息，為false不顯示。 */ detector.add(new ParsingDetector(false)); /* * JChardetFacade封裝了由Mozilla組織提供的JChardet，它可以完成大少數文件的編碼 * 測定。所以，普通有了這個探測器就可滿足大少數項目的要求，假如你還不擔心，可以 * 再多加幾個探測器，比方上面的ASCIIDetector、UnicodeDetector等。 */ detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar // ASCIIDetector用於ASCII編碼測定 detector.add(ASCIIDetector.getInstance()); // UnicodeDetector用於Unicode家族編碼的測定 detector.add(UnicodeDetector.getInstance()); java.nio.charset.Charset charset = null; try { charset = detector.detectCodepage(url); } catch (Exception ex) { ex.printStackTrace(); } if (charset != null) return charset.name(); else return null; }

URL url = CreateStationTreeModel.class.getResource("/resource/" + "配置文件"); URLConnection urlConnection = url.openConnection(); inputStream=urlConnection.getInputStream(); String charsetName = getFileEncode(url); System.out.println(charsetName); BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

3：探測恣意輸出的文本流的編碼，辦法是調用其重載方式：

charset=detector.detectCodepage(待測的文本輸出流,測量該流所需的讀入字節數);

下面的字節數由順序員指定，字節數越多，斷定越精確，當然時間也花得越長。要留意，字節數的指定不能超越文本流的最大長度。

4：斷定文件編碼的詳細使用舉例：

屬性文件(.properties)是Java順序中的常用文本存儲方式，象STRUTS框架就是應用屬性文件存儲順序中的字符串資源。它的內容如下所示：

#正文語句

屬性名=屬性值

讀入屬性文件的普通辦法是：

FileInputStream ios=new FileInputStream(“屬性文件名”); Properties prop=new Properties(); prop.load(ios); String value=prop.getProperty(“屬性名”); ios.close();

應用java.io.Properties的load辦法讀入屬性文件雖然方便，但假如屬性文件中有中文，在讀入之後就會發現呈現亂碼景象。發作這個緣由是load辦法運用字節流讀入文本，在讀入後需求將字節流編碼成為字符串，而它運用的編碼是“iso-8859-1”,這個字符集是ASCII碼字符集，不支持中文編碼，

辦法一：運用顯式的轉碼：

String value=prop.getProperty(“屬性名”); String encValue=new String(value.getBytes(“iso-8859-1″),”屬性文件的實踐編碼”);

辦法二：象這種屬性文件是項目外部的，我們可以控制屬性文件的編碼格式，比方商定采用Windows內定的GBK，就直接應用”gbk”來轉碼，假如商定采用UTF-8，就運用”UTF-8″直接轉碼。

辦法三：假如想靈敏一些，做到自動探測編碼，就可應用下面引見的辦法測定屬性文件的編碼，從而方便開發人員的任務

補充：可以用上面代碼取得Java支持編碼集合：

Charset.availableCharsets().keySet();

可以用上面的代碼取得零碎默許編碼：

Charset.defaultCharset();

以上就是本文的全部內容，希望對大家的學習有所協助，也希望大家多多支持。

上一頁:java獲取文件擴展名的辦法小結【正則與字符串截取】
下一頁:Java int與integer的比照區別

關於JAVA

基於Eclipse的Birt國際化的分析與改進
開發環境本文的開發環境為 Windows Vi

為什麼Eclipse不能啟動
最近要寫個程序，所以下了ECLIPSE，裝好J

java 小結2：多態問題和容器簡介
面向對象這個東西，其實我們一直是不是都沒有感覺

 注釋驅動的Spring cache緩存介紹
概述Spring 3.1 引入了激動人心的基於

 選擇適當的Eclipse發行版
哪個 Eclipse 發行版適合您使用？基於

 Spring學習（四） Spring實例分析
上次的博文中深入淺出Spring（二） Io

相關文章

詳解Swift中的下標拜訪用法
詳解Swift中enum列舉類型的用法
詳解Swift中的函數及函數閉包應用
詳解Swift說話的while輪回構造
詳解Swift編程中下標的用法
詳解Swift說話中的類與構造體
詳解Swift編程中的for輪回的編寫辦法
詳解Swift編程中的常量和變量
詳解Swift編程中的辦法與屬性的概念
java與c#的差別、二者有甚麼分歧？

閱讀排行榜

使用EMF Validation框架來驗證EMF模型使用JBuilder2007開發Web Services J2ME播放聲音的幾個問題(nokia) Java小例子：分解質因數創建一個Java應用數據庫的桌面應用程序 SpringMVC源碼解讀之 HandlerMapping - AbstractDetectingUrlHandlerMapping系列初始化 Java編程那些事兒49—多維數組使用示例 Java Math 類中的新功能，第 1 部分: 實數 JDK5新特性之新的格式化輸出伯伯菜園系列之 “接口”白菜 JBPM工作流引擎

熱門圖文

Win32調試接口設計與實現淺析 android-關於Android中ProgressBar的問題闡述C++的編程工具幾大重要元素 c#定義鼠標為指定的動畫圖標 ASP編碼和解碼函數詳解 asp.net的一個bug的發現和解決 android-關於Android的問題，請各位幫幫忙，謝謝異常處理與程序調試（二）

欄目導航

JAVA編程入門知識關於JAVA J2EE J2SE J2ME JAVA綜合教程