PHP是一門托管型語言,在PHP編程中程序員不需要手工處理內存資源的分配與釋放(使用C編寫PHP或Zend擴展除外),這就意味著PHP本身實現了垃圾回收機制(Garbage Collection)。現在如果去PHP官方網站(php.net)可以看到,目前PHP5的兩個分支版本PHP5.2和PHP5.3是分別更新的,這是因為許多項目仍然使用5.2版本的PHP,而5.3版本對5.2並不是完全兼容。PHP5.3在PHP5.2的基礎上做了諸多改進,其中垃圾回收算法就屬於一個比較大的改變。本文將分別討論PHP5.2和PHP5.3的垃圾回收機制,並討論這種演化和改進對於程序員編寫PHP的影響以及要注意的問題。
PHP變量及關聯內存對象的內部表示
垃圾回收說到底是對變量及其所關聯內存對象的操作,所以在討論PHP的垃圾回收機制之前,先簡要介紹PHP中變量及其內存對象的內部表示(其C源代碼中的表示)。
PHP官方文檔中將PHP中的變量劃分為兩類:標量類型和復雜類型。標量類型包括布爾型、整型、浮點型和字符串;復雜類型包括數組、對象和資源;還有一個NULL比較特殊,它不劃分為任何類型,而是單獨成為一類。
所有這些類型,在PHP內部統一用一個叫做zval的結構表示,在PHP源代碼中這個結構名稱為“_zval_struct”。zval的具體定義在PHP源代碼的“Zend/zend.h”文件中,下面是相關代碼的摘錄。
- typedef union _zvalue_value {
- long lval; /* long value */
- double dval; /* double value */
- struct {
- char *val;
- int len;
- } str;
- HashTable *ht; /* hash table value */
- zend_object_value obj;
- } zvalue_value;
- struct _zval_struct {
- /* Variable information */
- zvalue_value value;
- /* value */
- zend_uint refcount__gc;
- zend_uchar type; /* active type */
- zend_uchar is_ref__gc;
- };
其中聯合體“_zvalue_value”用於表示PHP中所有變量的值,這裡之所以使用union,是因為一個zval在一個時刻只能表示一種類型的變量。可以看到_zvalue_value中只有5個字段,但是PHP中算上NULL有8種數據類型,那麼PHP內部是如何用5個字段表示8種類型呢?這算是PHP設計比較巧妙的一個地方,它通過復用字段達到了減少字段的目的。例如,在PHP內部布爾型、整型及資源(只要存儲資源的標識符即可)都是通過lval字段存儲的;dval用於存儲浮點型;str存儲字符串;ht存儲數組(注意PHP中的數組其實是哈希表);而obj存儲對象類型;如果所有字段全部置為0或NULL則表示PHP中的NULL,這樣就達到了用5個字段存儲8種類型的值。
而當前zval中的value(value的類型即是_zvalue_value)到底表示那種類型,則由“_zval_struct”中的type確定。_zval_struct即是zval在C語言中的具體實現,每個zval表示一個變量的內存對象。除了value和type,可以看到_zval_struct中還有兩個字段refcount__gc和is_ref__gc,從其後綴就可以斷定這兩個家伙與垃圾回收有關。沒錯,PHP的垃圾回收全靠這倆字段了。其中refcount__gc表示當前有幾個變量引用此zval,而is_ref__gc表示當前zval是否被按引用引用,這話聽起來很拗口,這和PHP中zval的“Write-On-Copy”機制有關,由於這個話題不是本文重點,因此這裡不再詳述,讀者只需記住refcount__gc這個字段的作用即可。
PHP5.2中的垃圾回收算法——Reference Counting
PHP5.2中使用的內存回收算法是大名鼎鼎的Reference Counting,這個算法中文翻譯叫做“引用計數”,其思想非常直觀和簡潔:為每個內存對象分配一個計數器,當一個內存對象建立時計數器初始化為1(因此此時總是有一個變量引用此對象),以後每有一個新變量引用此內存對象,則計數器加1,而每當減少一個引用此內存對象的變量則計數器減1,當垃圾回收機制運作的時候,將所有計數器為0的內存對象銷毀並回收其占用的內存。而PHP中內存對象就是zval,而計數器就是refcount__gc。
例如下面一段PHP代碼演示了PHP5.2計數器的工作原理(計數器值通過xdebug得到):
- <?php
- $val1 = 100; //zval(val1).refcount_gc = 1;
- $val2 = $val1; //zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2(因為是Write on copy,當前val2與val1共同引用一個zval)
- $val2 = 200; //zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1(此處val2新建了一個zval)
- unset($val1); //zval(val1).refcount_gc = 0($val1引用的zval再也不可用,會被GC回收)
- ?>
Reference Counting簡單直觀,實現方便,但卻存在一個致命的缺陷,就是容易造成內存洩露。很多朋友可能已經意識到了,如果存在循環引用,那麼Reference Counting就可能導致內存洩露。例如下面的代碼:
- <?php
- $a = array();
- $a[] = & $a;
- unset($a);
- ?>
這段代碼首先建立了數組a,然後讓a的第一個元素按引用指向a,這時a的zval的refcount就變為2,然後我們銷毀變量a,此時a最初指向的zval的refcount為1,但是我們再也沒有辦法對其進行操作,因為其形成了一個循環自引用,如下圖所示: