在前面的文章中我已經介紹了PHP的變量的內部表示(深入理解PHP原理之變量(Variables inside PHP)),以及PHP中作用域的實現機制(深入理解PHP原理之變量作用域(Scope inside PHP))。這節我們就接著前面的文章,繼續介紹PHP中變量分離和引用的概念:
首先我們回顧一下zval的結構:
struct _zval_struct {
/* Variable information */
zvalue_value value; /* value */
zend_uint refcount;
zend_uchar type; /* active type */
zend_uchar is_ref;
};
其中的refcount和is_ref字段我們一直都沒有介紹過,我們知道PHP是一個長時間運行的服務器端的腳本解釋器。那麼對於它來說,效率和資源占用率是一個很重要的衡量標准,也就是說,PHP必須盡量介紹內存占用率,考慮下面這段代碼:
<?php
$var = "laruence";
$var_dup = $var;
unset($var);
?>
第一行代碼創建了一個字符串變量,申請了一個大小為9字節的內存,保存了字符串”laruence”和一個NULL(\0)的結尾。
第二行定義了一個新的字符串變量,並將變量var的值”復制”給這個新的變量。
第三行unset了變量var
這樣的代碼在我們平時的腳本中是很常見的,如果PHP對於每一個變量賦值都重新分配內存,copy數據的話,那麼上面的這段代碼公要申請18個字節的內存空間,而我們也很容易的看出來,上面的代碼其實根本沒有必要申請倆份空間,呵呵,PHP的開發者也看出來了:
我們之前講過,PHP中的變量是用一個存儲在symbol_table中的符號名,對應一個zval來實現的,比如對於上面的第一行代碼,會在symbol_table中存儲一個值”var”, 對應的有一個指針指向一個zval結構,變量值”laruence”保存在這個zval中,所以不難想象,對於上面的代碼來說,我們完全可以讓”var”和”var_dup”對應的指針都指向同一個zval就可以了。
PHP也是這樣做的,這個時候就需要介紹我們之前一直沒有介紹過的zval結構中的refcount字段了。
refcount,顧名思義,記錄了當前的zval被引用的計數。
比如對於代碼:
<?php
$var = 1;
$var_dup = $var;
?>
第一行,創建了一個整形變量,變量值是1。 此時保存整形1的這個zval的refcount為1。
第二行,創建了一個新的整形變量,變量也指向剛才創建的zval,並將這個zval的refcount加1,此時這個zval的refcount為2。
PHP提供了一個函數可以幫助我們了解這個過程debug_zval_dump:
<?php
$var = 1;
debug_zval_dump($var);
$var_dup = $var;
debug_zval_dump($var);
?>
輸出:
long(1) refcount(2)
long(1) refcount(3)
如果你奇怪 ,var的refcount應該是1啊?
我們知道,對於簡單變量,PHP是以傳值的形式穿參數的。也就是說,當執行debug_zval_dump($var)的時候,$var會以傳值的方式傳遞給debug_zval_dump,也就是會導致var的refcount加1,所以我們只要能看到,當變量賦值給一個變量以後,能導致zval的refcount加1這個事實即可。
現在我們回頭看文章開頭的代碼, 當執行了最後一行unset($var)以後,會發生什麼呢? 對,既是refcount減1,上代碼:
<?php
$var = "laruence";
$var_dup = $var;
unset($var);
debug_zval_dump($var_dup);
?>
輸出:
string(8) "laruence" refcount(2)
但是,對於下面的代碼呢?
<?php
$var = "laruence";
$var_dup = $var;
$var = 1;
?>
很明顯在這段代碼執行以後,$var_dup的值應該還是”laruence”, 那麼這又是怎麼實現的呢?
這就是PHP的copy on write機制:
PHP在修改一個變量以前,會首先查看這個變量的refcount,如果refcount大於1,PHP就會執行一個分離的例程, 對於上面的代碼,當執行到第三行的時候,PHP發現$var指向的zval的refcount大於1,那麼PHP就會復制一個新的zval出來,將原zval的refcount減1,並修改symbol_table,使得$var和$var_dup分離(Separation)。這個機制就是所謂的copy on write(寫時復制)。
上代碼測試:
<?php
$var = "laruence";
$var_dup = $var;
$var = 1;
debug_zval_dump($var);
debug_zval_dump($var_dup);
?>
輸出:
long(1) refcount(2)
string(8) "laruence" refcount(2)
現在我們知道,當使用變量復制的時候 ,PHP內部並不是真正的復制,而是采用指向相同的結構來盡量節約開銷。那麼,對於PHP中的引用,那又是如何實現呢?
<?php
$var = "laruence";
$var_ref = &$var;
$var_ref = 1;
?>
這段代碼結束以後,$var也會被間接的修改為1,這個過程稱作(change on write:寫時改變)。那麼ZE是怎麼知道,這次的復制是不需要Separation的呢?
這個時候就要用到zval中的is_ref字段了:
對於上面的代碼,當第二行執行以後,$var所代表的zval的refcount變為2,並且同時置is_ref為1。
到第三行的時候,PHP先檢查var_ref代表的zval的is_ref字段,如果為1,則不分離,大體邏輯示意如下:
if((*val)->is_ref || (*val)->refcount<2){
//不執行Separation
... ;//process
}
但是,問題又來了,對於如下的代碼,又會怎樣呢?
<?php
$var = "laruence";
$var_dup = $var;
$var_ref = &$var;
?>
對於上面的代碼,存在一對copy on write的變量$var和$var_dup, 又有一對change on write機制的變量對$var和$var_ref,這個情況又是如何運作的呢?
當第二行執行的時候,和前面講過的一樣,$var_dup 和 $var 指向相同的zval, refcount為2.
當執行第三行的時候,PHP發現要操作的zval的refcount大於1,則,PHP會執行Separation, 將$var_dup分離出去,並將$var和$var_ref做change on write關聯。也就是,refcount=2, is_ref=1;
基於這樣的分析,我們就可以讓debug_zval_dump出refcount為1的結果來:
<?php
$var = "laruence";
$var_dup = &$var;
debug_zval_dump($var);
?>
輸出:
string(8) "laruence" refcount(1)
詳細原因,讀者你只要稍加分析就能得出,我就不越俎代庖了。;)
這次我們介紹了PHP的變量分離機制,下次我會繼續介紹如果在擴展中接收和傳出PHP腳本中的參數。另外,因為最近變動比較大(換工作),所以抱歉這麼長時間才有更新