在前面的案例中都是只抓取了一個Url對應的頁面,但在實際應用中,通常需要抓取多個Url,在爬蟲類的start_urls變量中添加多個Url,運行爬蟲時就會抓取start_urls變量中所有的Url。下面的代碼在start_urls變量中添加了2個Url,運行MultiUrlSpider爬蟲後,就會抓取這兩個Url對應的頁面。
class MultiUrlSpider(scrapy.Spider):
name = 'MultiUrlSpider'
start_urls = [
'https://www.jd.com',
'https://www.taobao.com'
]
... ...
下面的例子通過一個文本文件(urls.txt)提供多個Url,並在爬蟲類中讀取urls.txt文件中的內容,然後將讀取的多個Url存入start_urls變量中。最後會抓取urls.txt文件中所有的Url對應的頁面,並輸出頁面的博文數(本例提供的Url是geekori.com的博文列表頁面,如果讀者使用其他的Url,需要修改分析頁面的邏輯代碼)。
import scrapy
class MultiUrlSpider(scrapy.Spider):
name = 'Mult