1.問題描述
實現對固定網頁上自己需要的信息抓取,以表格形式存儲。我是拿wustoj上的一個排行榜來練習的,地址:wustoj
2.思路
網頁自己就簡單學習了一下php,剛好用它來做點事情吧,我的想法是這樣的:
(1)查看網頁源代碼並保存在文件中。
(2)根據需要的信息寫出正則表達式,讀文件,根據正則表達式來提取需要的信息。寫正則表達式的時候最好分組,這樣提取起來就方便了很多。
(3)對excel操作,將提取的信息以excel的形式輸出。
比較好的開源php處理excel類鏈接:點擊打開鏈接
3.體會
^是指要是原字符串的開頭,$是指要是原字符串的結尾。
空字符不一定是空格。
用()來分組是好方法,如preg_macth_all(/$pattern/,$subject,matches)。
matches為二維數組,如果沒有_all,則只會匹配第一部分,是一維數組。
$matches[0]保存完整模式的所有匹配。$matches[1]保存第一子組所有匹配,即所有匹配的第一部分。
中文匹配串我用的這個$patt_ch=chr(0x80)."-".chr(0xff)。
4.代碼