業務背景: 服務端是用Java寫的,客戶端的是使用C#寫的,他們交互以客戶端以http協議方式請求服務端,http請求方式要求URL轉碼為GBK。但是後來發現,服務端收到客戶端提交的GBK字符,偶爾會有亂碼。於是將同一個字符串分別用URL轉換GBK,然後發現只有一點點不一樣。 示例如下: 字符串:赟俶鎮臨釵閣紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆 C#轉碼結果: %daS%82m%e6%82%c5R%e2O%b8%f3%bct%95N%cc%96%9ee%98I%85%5e%cc%96%e4k%b0l%8fS%84%a2%96%7c%85%5e%9e%b3%98I%85%5e%8c%8d%98I%ccm%84%93%fcS%e8A%aef%90a Java轉碼結果: %DA%53%82%6D%E6%82%C5%52%E2%4F%B8%F3%BC%74%95%4E%CC%96%9E%65%98%49%85%5E%CC%96%E4%6B%B0%6C%8F%53%84%A2%96%7C%85%5E%9E%B3%98%49%85%5E%8C%8D%98%49%CC%6D%84%93%FC%53%E8%41%AE%66%90%61 對比結果截圖: 找了很久的原因都沒有發現時什麼問題,最後查了一下GBK字符的 范圍 http://blog.csdn.net/gaoqingyu/article/details/5709958 發現JAVA轉出來是正確的,C#轉出來是錯誤的。每個漢子字符轉出GBK應該都睡四個字節碼,C#中有些字轉出來只有三個字符(當然每兩個字符會以%拼接),盯著C#轉出來的字節碼和GBK進行對比,發現C#中最後一個字母有些是大於F的,看到GBK字符集中是沒有最大就到F不可能有什麼NMSWZ等這些字母。猜測三個字母中應該最後一個字母是需要轉出16進制的。然會就試著轉了一下,果然和Java的一樣的。 以下是C#的代碼: 復制代碼 1 public static void ConvertURLGBKEnCode() 2 { 3 string str2 = "赟俶鎮臨釵閣紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆"; 4 5 string str = string.Empty; 6 string urlEnCodeStr = string.Empty; 7 Regex reg = new Regex(@"[\u4e00-\u9fa5]");//正則表達式 8 StringBuilder sb1 = new StringBuilder(); 9 for (int i = 0; i <= str2.Length - 1; i++) 10 { 11 string tempStr = str2[i].ToString(); 12 urlEnCodeStr = System.Web.HttpUtility.UrlEncode(tempStr, Encoding.GetEncoding("GBK")); 13 14 // 如果是漢子的話,將URL編碼過後再進行16進制轉換 15 if (reg.IsMatch(tempStr)) 16 { 17 // 判斷轉碼過後的字符,如果只有4位的話,代表最後一個字符需要轉換成16進制行拼接 18 if (urlEnCodeStr.Length <= 4) 19 { 20 StringBuilder sb = new StringBuilder(); 21 string firstStr = urlEnCodeStr.Substring(0, 3); 22 string LastStr = urlEnCodeStr.Substring(3, 1); 23 sb.Append(firstStr + "%"); 24 byte[] targetData = Encoding.GetEncoding("GBK").GetBytes(LastStr); 25 for (int j = 0; j < targetData.Length; j++) 26 { 27 sb.Append(targetData[j].ToString("x2")); 28 } 29 sb1.Append(sb.ToString()); 30 } 31 else 32 { 33 sb1.Append(urlEnCodeStr); 34 } 35 } 36 else 37 { 38 sb1.Append(urlEnCodeStr); 39 } 40 } 41 42 Console.WriteLine(sb1.ToString()); 43 44 Console.ReadLine(); 45 } 復制代碼 對於漢字中的生僻字和繁體字問題已經解決了,但是剛剛有跑一下特殊符號又郁悶了。 將上面C#的代碼 :if (reg.IsMatch(tempStr)) 改為 if (urlEnCodeStr.Length > 1) 對於GBK中包含的特殊字符都是可以順利轉換的,但是,不是GBK字符符號的轉換就沒法確認了。 如:符號:“-” C#轉換結果:“-”; Java:“-” 字符:"(" C# 轉換結果: "(",而Java跑出來的結果卻是"%28",關於這個左括號我查過了,是不屬於GBK中的字符,應該也不算特殊字符,應該是直接顯示的,像字母和數字以及"-"等字符一樣,但就是不知道為什麼,Java會轉換成"%28"。 關於這個不是GBK的字符,進行轉換GBK的問題還有待研究。