復制代碼 代碼如下:
function binsearch(&$arr, $key, $value)
{
$low = 0;
$high = count($arr);
while ($low <= $high) {
$mid = floor($low + ($high - $low) / 2);
$item = $arr[$mid][$key];
if ($item == $value) {
return $mid;
} else if ($value > $item) {
$low = $mid + 1;
} else {
$high = $mid - 1;
}
}
return false;
}
在這裡,$mid 采用了先減後加的方法計算,目的是為了防止整數的溢出。不是故意寫復雜了。
我用下面的代碼進行測試:
復制代碼 代碼如下:
$data = array();
for ($i = 0; $i < 1000000; $i++)
{
$data[] = array("sq" => $i * 2);
}
var_dump(binsearch($data, "sq", 10000));
發現,binsearch 的時候,總是要花個 0.2s左右。理論上來說,100萬的數據,最多也就是循環20次。怎麼會這樣慢呢。
後來監控了一下內存,data 數組 占用了 230M 的內存。而 binsearch 的時候,占用了60K 的內存。但是,理論上來說,binsearch
不應該占用如此多的內存。因為,我覺得,我已經用引用了,根本就沒有對data 的結構進行修改。
我也是百思不得其解,後來,我把引用參數去掉,居然 binsearch 只要 0.0002s ,看來是引用耗費了大量的cpu 資源。
PHP 內部遵循一個copy on write 的原則。實際上這個引用是多余的。
但是為什麼,加了引用速度會變慢呢?今天重點就談談這個問題。明白道理後,大家一定知道怎麼用引用了。
如果在binsearch 調用前,直接 $a = &$data,這個引用的速度會非常的快。看來肯定不是引用本身產生的問題。
這個問題,實際上涉及了zend 引擎如何管理PHP變量。
先看下面的問題:
復制代碼 代碼如下:
<?php
function demo(&$a, &$b) { $a =& $b; }
$a = 1;
$b = 2;
demo($a, $b);
$b = 3;
print $a;
?>
$a 輸出是多少呢?不錯,是2. 不過,我一開始覺得是3。
那麼怎麼解釋上面這個問題呢?
實際上,函數的參數引用是這樣進行的。
復制代碼 代碼如下:
$tmp = $a;
$a1 = &$tmp;
$a = $tmp;
unset($a1, $tmp);
這裡,引用的實際上是一個臨時變量。這個時候,$tmp 是帶引用屬性的,而$a 變量不是帶引用屬性的。
根據zend引擎管理內存的方法,在內部,不能用一個zval 來表示,必須強制分離這個zval。
用這樣的理解方法,上面的問題就解決了。函數內部,不會改變函數外部的引用特性。這也是PHP
不贊成用 calltime_by_ref 的原因,而選擇上面如此低效的拷貝方法。
下面的分析,也能證明,在傳遞參數時,的確發生了拷貝。
在 binsearch 函數裡面。
$data[0] = 1;
這樣,就會發生一次$data 所在zval 的拷貝。內存使用量 就是 60K。和函數調用加引用一模一樣。
可能很多人會疑問,為什麼不是多了230M呢,這其實就是PHP的高明之處,數組Key 對應的是一個zval的指針。(內部是一個哈希表)
所以,只要把這些指針復制一遍就就好了,數據不用復制。但是,100萬的PHP 哈希表實際上要占用 50M 內存。為什麼只有60K呢。
在 binsearch 函數的外面,運行
復制代碼 代碼如下:
$t = $data;
$t[0] = 1;
unset($t);
果然,多了60K 的內存。估計和PHP的內存管理機制有關系。
現在一切都明白了吧!今天,想了好幾個小時,才把這個問題想通,不敢獨享。
函數中的引用不是給你傳參數方便的,而是讓你實現,一個函數,可以有多個返回值的,所以,最好不要畫蛇添足。
實際上,用引用它會降低性能。