程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> PHP獲取中英混合字符串長度的方法

PHP獲取中英混合字符串長度的方法

編輯:關於PHP編程

     今晚在寫框架的表單驗證類時,需要判斷某個字符串長度是否在指定區間內,很自然地,想到了PHP中的strlen函數。

    .代碼如下:
    $str = 'Hello world!';
    echo strlen($str); // 輸出12


    然而在PHP自帶的函數中,strlen及mb_strlen都是通過計算字符串所占字節數來計算長度的,在不同的編碼情況下,中文所占的字節數是不同的。在GBK/GB2312下,中文字符占2個字節,而在UTF-8下,中文字符占3個字節。

    .代碼如下:
    $str = '你好,世界!';
    echo strlen($str); // GBK或GB2312下輸出12,UTF-8下輸出18


    而我們在判斷字符串長度時往往需要判斷的是字符的數量,而非字符串所占字節數,如在UTF-8下的這段PHP代碼:

    .代碼如下:
    $name = '張耕暢';
    $len = strlen($name);
    // 輸出 FALSE,因為在UTF-8下三個中文占9個字節
    if($len >= 3 && $len <= 8){
     echo 'TRUE';
    }else{
     echo 'FALSE';
    }


    那麼有什麼方便而實用的方法可以獲得含中文字符串的長度呢?可以用正則計算出中文字符的個數,在GBK/GB2312編碼下除以2,UTF-8編碼下則除以3,最後再加上非中文字符串的長度,但這樣未免太過麻煩。

     

    WordPress這麼一段代碼,借鑒如下:

    .代碼如下:
    $str = 'Hello,世界!';
    preg_match_all('/./us', $str, $match);
    echo count($match[0]); // 輸出9


    思想是用正則表達式將字符串分割成單個字符,並直接用count計算出匹配到的字符數,便是我們想要的結果了。

     

    但以上代碼在UTF-8編碼下並不能處理GBK/GB2312的中文字符串,因為GBK/GB2312的中文字符會被識別為兩個字符而計算出來的中文字符數量會翻倍,於是我想到了這麼一個辦法:

    .代碼如下:
    $tmp = @iconv('gbk', 'utf-8', $str);
    if(!empty($tmp)){
     $str = $tmp;
    }
    preg_match_all('/./us', $str, $match);
    echo count($match[0]);


    可兼容GBK/GB2312及UTF-8編碼,經小量數據測試通過,但暫未確定是否完全正確,盼有大牛指點一二。

     

    以上本意是為了框架可以兼容多種編碼格式,但一般在日常開發中,一個項目是已經可以確定為何種編碼的,因此可以使用以下函數來方便地獲取字符串長度:

    .代碼如下:
    int iconv_strlen ( string $str [, string $charset = ini_get("iconv.internal_encoding") ] )
    1. 上一頁:
    2. 下一頁:
    Copyright © 程式師世界 All Rights Reserved