文章詳細的介紹了關於strlen,mb_strlen,substr(),mb_substr()及mb_strcut的區別和用法,有需要學習的同學可參考一下。
關於mb_*的字符串分割函數使用:
在win下的配置
需要按裝php_mbstring.dll擴展
需要在php.ini在把php_mbstring.dll打開
linux下的配置 可以在網上搜索一下也很簡單
<?php
//測試時文件的編碼方式要是UTF8
$str='中文a字1符';
echo strlen($str).'<br>';//14
echo mb_strlen($str,'utf8').'<br>';//6
echo mb_strlen($str,'gbk').'<br>';//8
echo mb_strlen($str,'gb2312').'<br>';//10
?>
結果分析:在strlen計算時,對待一個UTF8的中文字符是3個長度,所以“中文a字1符”長度是3*4+2=14,在mb_strlen計算時,選定內碼為UTF8,則會將一個中文字符當作長度1來計算,所以“中文a字1符”長度是6
mb_strlen 默認編碼可以通過
mb_internal_encoding()獲取到。
利用這兩個函數則可以聯合計算出一個中英文混排的串的占位是多少(一個中文字符的占位是2,英文字符是
1 echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;
PHP內置的字符串長度函數strlen無法正確處理中文字符串,它得 到的只是字符串所占的字節數。對於GB2312的中文編碼,strlen得到的值是漢字個數的2倍,而對於UTF-8編碼的中文,就是3倍的差異了(在 UTF-8編碼下,一個漢字占3個字節)。
字符串分割
substr()函數可以分割文字,但要分割的文字如果包括中文字符往往會遇到問題,這時可以用mb_substr()/mb_strcut這個函數
mb_substr是按字來切分字符,而mb_strcut是按字節來切分字符,但是都不會產生半個字符的現象.
substr()函數可以分割文字,但要分割的文字如果包括中文字符往往會遇到問題,這時可以用mb_substr()/mb_strcut這個函數,mb_substr()/mb_strcut的用法與substr()相似,只是在mb_substr()/mb_strcut最後要加入多一個參數,以設定字符串的編碼,但是一般的服務器都沒打開php_mbstring.dll,需要在php.ini在把php_mbstring.dll打開。
舉個例子:
代碼如下 復制代碼 <?php輸出:這樣一來我的字
代碼如下 復制代碼 <?php
輸出:這樣一
從上面的例子可以看出,mb_substr是按字來切分字符,而mb_strcut是按字節來切分字符,但是都不會產生半個字符的現象……
mbstring 函數的說明:
php的mbstring擴展模塊提供了多字節字符的處理能力,平常最常用的就是用mbstring來切分多字節的中文字符,這樣可以避免出現半個字符的情況,由於是php的擴展,它的性能也要比一些自定義的多字節切分函數要好上一些。
mbstring extension提供了幾個功能類似的函數,mb_substr和mb_strcut,看看手冊上對它們的解釋。
mb_substr
mb_substr() returns the portion of str specified by the start and length parameters.
mb_substr() performs multi-byte safe substr() operation based on number of characters. Position is sqlserver/42852.htm target=_blank >counted from the beginning of str. First character's position is 0. Second character position is 1, and so on.
mb_strcut
mb_strcut() returns the portion of str specified by the start and length parameters.
mb_strcut() performs equivalent operation as mb_substr() with different method. If start position is multi-byte character's second byte or larger, it starts from first byte of multi-byte character.
It subtracts string from str that is shorter than length AND character that is not part of multi-byte string or not being middle of shift sequence.
再舉個例子,有一段文字, 分別用mb_substr和mb_strcut來做切分:
PLAIN TEXT
CODE:
<?php
$str = '我是一串比較長的中文-www.webjx.com';
echo "mb_substr:" . mb_substr($str, 0, 6, 'utf-8');
echo "<br>";
echo "mb_strcut:" . mb_strcut($str, 0, 6, 'utf-8');
?>
輸出結果如下:
mb_substr:我是一串比較
mb_strcut:我是
測試代碼:
代碼如下 復制代碼/**
* 字符串分割 按字分割
* @param $content string
* @param $length int
* @param $etc string
* @return string
*/
function Truncate($content, $length, $etc = '...') {
if ($length == 0) {
return '';
} elseif (mb_strlen($content,'utf-8') > $length) {
$length -= min($length, mb_strlen($etc));
$charset = 'utf-8';
$content = mb_substr($content, 0, $length, $charset) . $etc;
}
return $content;
}
$str ='伏爾泰(1694~1778)法國資產階級啟蒙思想家,哲學家,史學家,文學家。伏爾泰原名F.M.阿魯埃。';
echo strlen($str);//字符串長度
echo '<hr/>';
echo mb_strlen($str,'utf-8');//字符串長度
echo '<hr/>';
echo mb_strcut($str,0,35,'utf-8');//按字節分割
echo '<hr/>';
echo mb_substr($str,0,35,'utf-8');//按字 分割
echo '<hr/>';
echo Truncate($str,35);//字符串截取方法