對IO操作真心不是很懂。。。對編碼、亂碼也是一知半解。。。今天遇到了一個需求,要求將一個文件進行編碼轉換,並且返回編碼後的字符串,如原本的GBK編碼,轉換為UTF-8
其中這個BytesEncodingDetect 類就不貼了。主要用了裡面的獲取文件編碼格式。
剛開始試了直接在源文件修改編碼方式,采用URLEncoder和URLDecoder進行轉換,卻遲遲不行。出現了中文奇數最後一個字亂碼
百度找了解決方法,都未果,只好采用我的思路是:先讀取源文件的內容,存放到StringBuffer裡面,然後刪除源文件,再重新new一個文件,再以另一中編碼形式存放進去。
查看編碼後效果:注意不要在eclipse查看效果,eclipse以一種編碼形式查看而已,所以可以在浏覽器端查看如html文件,查看指定編碼可以右鍵---編碼,以此來判斷是否成功。
代碼如下:
package com.test;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.net.URLDecoder;
import java.net.URLEncoder;
public class Transcoding {
private BytesEncodingDetect encode = new BytesEncodingDetect();
public Transcoding() {
}
/**
* 編碼轉換
* @param toCharset 要轉換的編碼
* @param path 要轉換的文件路徑
* @return
* @throws Exception
*/
public String encoding(String toCharset, String path) throws Exception{
File srcFile = new File(path);
int index = encode.detectEncoding(srcFile);
String charset = BytesEncodingDetect.javaname[index];
// 編碼相同,無需轉碼
if (charset.equalsIgnoreCase(toCharset)) {
return "編碼一樣,無需轉換";
}
InputStream in = new FileInputStream(path);
BufferedReader br = new BufferedReader(
new InputStreamReader(in, charset));
StringBuffer sb = new StringBuffer();
String s1;
while ((s1=br.readLine())!=null) {
String s = URLEncoder.encode(s1, toCharset);
sb.append(s+"\r\n");//一行+回車
}
br.close();
srcFile.delete();//刪除原來文件
//重新以新編碼寫入文件並返回值
File newfile = new File(path);//重新建原來的文件
newfile.createNewFile();
OutputStream out = new FileOutputStream(newfile);
OutputStreamWriter writer = new OutputStreamWriter(out, toCharset);
BufferedWriter bw = new BufferedWriter(writer);
bw.write(URLDecoder.decode(sb.toString(), toCharset));
String result = URLDecoder.decode(sb.toString(), toCharset);
bw.flush();//刷到文件中
bw.close();
return result;
}
}