程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> PHP綜合 >> 編寫PHP程序檢查字符串中的中文字符個數的實例分享

編寫PHP程序檢查字符串中的中文字符個數的實例分享

編輯:PHP綜合

有時候我們需要計算一個字符串中包含的字數,對於純英文字符串,字數等於字符串長度,用
strlen函數即可獲得,但如果字符串中包含中文怎辦?mb_strlen可以實現,但不幸沒裝擴展,那就自己實現一下吧。

php有一個擴展一般是必裝的,我們可以使用mb_strlen來獲取字符串中的字數,用法一般如下:

$len = mb_strlen("你是我的小蘋果","utf-8");


如願獲得字符串長度:7.

如果沒裝mb擴展呢?自己實現一下吧。

我們要先明白一個事實:字符串是由字符組成的,而字符是由字節表示的,每個英文字符是一個字節,對應一個ascii碼,英文字符的ascii碼是小於128的,也就是十六進制的 0x80 .當一個字節的ascii碼超過了127,那就說明當前字節不是一個完整的字符。

比如

$str = "你是我的小蘋果";

中的$str{0}可以取到第一個字節,我們來看一下它是啥:

php > $str = "你是我的小蘋果";
php > echo $str{0};
�

是個亂碼,它只是
復制代碼 代碼如下:你       
字的字節之一,也就是說,
復制代碼 代碼如下:你
這個字符是由超過一個字節組成的,我們這樣試試:

php > echo $str{0}.$str{1}.$str{2};


可以看到,將三個字節連在一起輸出,就成了一個完整的
復制代碼 代碼如下:你

至於這裡為什麼是三個字節,而不是兩個或4個?這個取決於字符串的編碼,我這裡控制台默認是utf8編碼的,在PHP中,一個utf8字符是用三個字節表達的,如果是gbk編碼,則會是兩個字節。至於編碼和字節的關系,這個話題比較大,一篇說不完,請參考這篇文章:字符編碼筆記:ascii,unicode和utf8 。

知道了這些,我們就可以自己編寫一個字數檢查的函數了,大致流程如下:

1.for循環遍歷字節 2.判斷字節編碼是否 >= 0x80,是的話跳過N個字節

我寫了個簡單的函數,可以判斷gbk或utf8字符串的長度,僅供參考:

<?php

function mbstrlen($str,$encoding="utf8")
{

  if (($len = strlen($str)) == 0) {
    return 0;
  }

  $encoding = strtolower($encoding);

  if ($encoding == "utf8" or $encoding == "utf-8") {
    $step = 3;
  } elseif ($encoding == "gbk" or $encoding == "gb2312") {
    $step = 2;
  } else {
    return false;
  }

  $count = 0;
  for ($i=0; $i<$len; $i++) {
    $count++;
    //如果字節碼大於127,則根據編碼跳幾個字節
    if (ord($str{$i}) >= 0x80) {
      $i = $i + $step - 1;//之所以減去1,因為for循環本身還要$i++
    }
  }
  return $count;
}

echo mbstrlen(iconv("utf-8","gbk","你是我的小蘋果"),"gbk");
echo mbstrlen("你是我的小蘋果");

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved