程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python爬蟲編程思想(153):使用Scrapy抓取數據,抓取多個Url

編輯:Python

        在前面的案例中都是只抓取了一個Url對應的頁面,但在實際應用中,通常需要抓取多個Url,在爬蟲類的start_urls變量中添加多個Url,運行爬蟲時就會抓取start_urls變量中所有的Url。下面的代碼在start_urls變量中添加了2個Url,運行MultiUrlSpider爬蟲後,就會抓取這兩個Url對應的頁面。

class MultiUrlSpider(scrapy.Spider):
name = 'MultiUrlSpider'
start_urls = [
'https://www.jd.com',
'https://www.taobao.com'
]
... ...

        下面的例子通過一個文本文件(urls.txt)提供多個Url,並在爬蟲類中讀取urls.txt文件中的內容,然後將讀取的多個Url存入start_urls變量中。最後會抓取urls.txt文件中所有的Url對應的頁面,並輸出頁面的博文數(本例提供的Url是geekori.com的博文列表頁面,如果讀者使用其他的Url,需要修改分析頁面的邏輯代碼)。

import scrapy
class MultiUrlSpider(scrapy.Spider):
name = 'Mult

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved