中文字符編碼研究系列第三期,PHP函數篇掌握ord()與 chr()函數應用,上期[PHP基礎篇詳解ASCII碼對照表與字符轉換]一文中了解了ASCII碼和字符轉換的方法,但使用時發現在字符轉換之間需要兩個特殊的函數,用於字符與十進制之間的轉換,ord()函數把字符轉換為十進制數字,chr()函數把十進制數字轉化為字符,在二進制,八進制,十進制與十六進制之間充當橋梁的作用。
一,ord()函數的應用
ord()函數用於返回一個字符的ASCII值,最基本的用法如獲取a 的ASCII值ord('a')返回 97,但在實際開發中,應用最多的還是用於字符截取函數中獲取中文字符高低位編碼的十進制數,如常見的中文字符截取函數具體可看看PHPWind或 Discuz!論壇源代碼中substrs()函數或cutstr()函數,其原理就是通過ord()函數獲取字符的ASCII碼值,如果返回值大於 127則表示為中文字符的一半,再獲取後一半組合成一個完整字符,同時結合字符編碼如GBK或UTF-8等。
以GBK編碼為例利用ord()函數判斷中文字符返回各中文字符的ASCII值,代碼如下
復制代碼 代碼如下:
$string = "不要迷戀哥";
$length = strlen($string);
var_dump($string);//原始中文
var_dump($length);//長度
$result = array();
for($i=0;$i<$length;$i++){
if(ord($string[$i])>127){
$result[] = $string[$i].' '.$string[++$i];
}
}
var_dump($result);
代碼說明
1,定義一個變量$string,其值為字符串
2,獲取變量的長度(字節數)
3,打印變量和變量的長度
4,通過for循環獲取變量的各個字節值,把一個漢字的兩個字節中間用空格隔開顯示。
結果如下圖
圖解:“不要迷戀哥”為5個漢字,共10個字節(一個漢字2個字節),分別打印各個字節無法正常顯示如上圖
初始值不變修改for循環部分代碼顯示各個字節ASCII值
復制代碼 代碼如下:
$result = array();
for($i=0;$i<$length;$i++){
if(ord($string[$i])>127){
$result[] = ord($string[$i]).' '.ord($string[++$i]);
}
}
var_dump($result);
如上代碼使用ord()函數打印各個字符的ASCII值,結果如下
通過ord()函數轉換後就能正常查看各個字符的ASCII值。
二,chr()函數的應用
chr()函數的作用與ord()函數相反,用於返回指定的字符,如chr(97)返回a。
結合上面實例,只要獲取到中文字符的ASCII值,就可以通過chr()函數組裝出中文字符,代碼如下
復制代碼 代碼如下:
$string = "不要迷戀哥";
$length = strlen($string);
var_dump($string);//原始中文
var_dump($length);//長度
$result = array();
for($i=0;$i<$length;$i++){
if(ord($string[$i])>127){
$result[] = ord($string[$i]).' '.ord($string[++$i]);
}
}
var_dump($result);
foreach($result as $v){
$decs = explode(" ",$v);
echo chr($decs[0]).chr($decs[1]);
}
結果如下圖
如上代碼並沒有直接輸出中文字符,但打印出正常的漢字,其原理是首先獲取各個字節的ASCII值,通過chr()函數轉化為字節,再把兩個字節組合起來就形成了一個完整的中文漢字。
通過對ord()與chr()函數的討論已經初步了解了中文字符的編碼原理,了解GBK編碼中一個漢字二個字節,使用ord()與chr()函數實現各字節轉換方法,請關注下一期中文字符編碼研究系列之中文字符編碼轉換原理。
參考資料
PHPWind與Discuz截取字符函數substrs與cutstr性能比較