談到php采集,絕大多數朋友想到的是使用正則表達式方式。今天,筆者使用strtok來完成php采集功能!效果一樣不錯哦!
首先介紹下strtok:
//原型
string strtok ( string $str , string $token )
string strtok ( string $token )
//功能:分解字符串為一組標記串。s為要分解的字符串,delim為分隔符字符串。
/*說明:首次調用時,s必須指向要分解的字符串,隨後調用要把s設成NULL。
strtok在s中查找包含在delim中的字符並用NULL('\0')來替換,直到找遍整個字符串。
返回指向下一個標記串。當沒有標記串時則返回空字符NULL。
*/
html標簽是以<tag></tag>形式出現的,如:
hello,world
我們以“<”作為strtok的分隔符,找出所有有效的html tag,那麼得到的不就是我們想要的內容麼?下面拿采集一個頁面的title標簽的內容作例子。