phpQuery是一個用php實現的類似jQuery的開源項目,可以在服務器端以jQuery的語法形式解析網頁元素。 相對於正則或其它方式匹配網頁方式,phpQuery使用起來要方便的多。
在使用phpQuery采集網頁時,遇到一個問題:在處理大量網頁之後,phpQuery占用的內存數量非常驚人(很快就超過了1G),
比如這段代碼:
復制代碼 代碼如下:
while (true) {
phpQuery::newDocumentFile($htmlFile);
// 處理網頁元素...
echo memory_get_usage() . "\n";
}
謹慎運行上面這段代碼,它會很快用光你的內存。
經過查看phpQuery的源代碼終於發現了問題所在,phpQuery在每處理一個網頁就會產生一個DOMDocumentWrapper 對象,而每個DOMDocumentWrapper 對象會被保存在靜態成員$documents中(phpQuery::createDocumentWrapper中),這個變量是一個數組,每解析一個網頁數組元素就增加一個。
phpQuery::$documents[$wrapper->id] = $wrapper;
找到問題後,解決就很容易了,每次解析完一個網頁,把phpQuery::$documents置空即可。
復制代碼 代碼如下:
while (true) {
phpQuery::newDocumentFile($htmlFile);
// 處理網頁元素...
phpQuery::$documents = array();
echo memory_get_usage() . "\n";
}
內存占用穩定了。