程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> PHP綜合 >> 簡單談談php中的unicode和utf8編碼

簡單談談php中的unicode和utf8編碼

編輯：PHP綜合

重新認識unicode和utf8編碼

直到今天，准確的說是剛才，我才知道UTF-8編碼和Unicode編碼是不一樣的，是有區別的囧
他們之間是有一定的聯系的，看看他們的區別：
UTF-8的長度是不一定的，有可能是1、2、3字節
Unicode長度一定，2個字節（USC-2）
UTF-8可以和Unicode互相轉換

unicode和utf8的關系

Unicode(16進制)

UTF-8(二進制)

0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

上面的表格有2個意思，第一個顯而易見就是說Unicode和UTF-8字符范圍的對應，還有一個可以看出Unicode怎麼和UTF-8互相轉換：

先說UTF-8到Unicode的轉換

UTF-8編碼的二進制和上面的3種格式進行匹配，匹配到之後去掉固定位（表格中的非x位置），然後從右到左每8位一組，不夠8位左邊不領，湊夠2個字節16 bits，這16 bits所表示的就是UTF-8對應的Unicode編碼，看看下面幾個例子：

上面圖片中的文字編碼格式為UTF-8，可以用WinHex看到其16進制表示
復制代碼代碼如下:
字符 => UTF-8 => UTF-8二進制=> 去掉固定位置湊夠16位的二進制 => 16進制

漢 => E6B189 => 11100110 10110001 10001001 => 01101100 01001001 => 6C49
字 => E5AD97 => 11100101 10101101 10010111 => 01011011 01010111 => 5B57

#下面是在chrome命令行下面運行的結果
'\u6C49'
"漢"
'\u5B57'
"字"

#到這裡的話，從UTF-8轉換到Unicode已經是一件非常容易的事了，看看轉換的偽代碼
讀取一個字節，11100110
判斷該UTF-8字符的格式，屬於第三種，3個字節
繼續讀取2個字節得到 11100101 10101101 10010111
按照格式去掉固定位 1011011 01010111
不夠16位，左邊補零 01011011 01010111 => 5B57

再看看從Unicode到UTF-8的轉換

復制代碼代碼如下:
5B57
獲取5B57所在的Unicode范圍，0800 <= 5B57 <= FFFF，得知5B57的UTF-8有三個字節，形式為1110xxxx 10xxxxxx 10xxxxxx
獲取5B57的二進制編碼 101101101010111
用上一步驟的二進制編碼從右至左拼接UTF-8編碼 11100101 10101101 10010111

說說問題

再說說今天這個問題的起因，從前端輸入很多單詞，UTF-8格式每個詞最多30個字節，因此會在前端和後台分別做驗證，javascript用的是Unicode編碼，後端程序用的是UTF-8編碼，現在的解決辦法是這樣

前端

function utf8_bytes(str)
{
 var len = 0, unicode;
 for(var i = 0; i < str.length; i++)
 {
 unicode = str.charCodeAt(i);
 if(unicode < 0x0080) {
  ++len;
 } else if(unicode < 0x0800) {
  len += 2;
 } else if(unicode <= 0xFFFF) {
  len += 3;
 }else {
  throw "characters must be USC-2!!"
 }
 }
 return len;
}

#例子
utf8_bytes('asdasdas')
8
utf8_bytes('yrt燕睿濤')
12

後台

#對於GBK字符串
$len = ceil(strlen(bin2hex(iconv('GBK', 'UTF-8', $word)))/2);
#對於UTF8字符串
$len = ceil(strlen(bin2hex($word))/2);

以上所述就是本文的全部內容了，希望大家能夠喜歡。

上一頁:簡單談談favicon
下一頁:PHP中生成UUID自定義函數分享

PHP綜合

PHP中使用imagick實現把PDF轉成圖片

PHP Manual裡，對imagick的描述，真的是簡潔，

PHP的運行機制與原理(底層)

說到php的運行機制還要先給大家介紹php的模塊，PHP總共

php創建無限級樹型菜單

寫遞歸函數，可考慮緩存，定義一些靜態變量來存上一次運行的結果

編寫PHP腳本使WordPress的主題支持Widget側邊欄

幫網友小改了一下主題. 任務比較簡單, 只是為一個三欄主題添

PHP中使用imagick生成PSD文件縮略圖教程

第一步、安裝ImageMagick　　首先需要安裝 Imag

PHP擴展框架之Yaf框架的安裝與使用

安裝windows下載擴展：https://pecl.php

熱門圖文

jquery-我想用easyui的樣式,不想用easyui的功能,怎麼辦? PHP 分頁原理分析，大家可以看看讀數據-新手求教，DS1302讀出來的都是0XFF？ Ajax 的安全－不容忽視的問題 [JAVA &#183; 初級]：20.IO流技術 [ACM] HUST 1017 Exact cover (Dancing Links,DLX模板題）初步理解struts Mac OS 10.8 中的 OpenCV 開發環境設置

欄目導航

PHP基礎知識 PHP綜合 PHP入門知識關於PHP編程