程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

​python爬蟲-34-scrapy框架入門,scrapy架構模塊功能認識

編輯:Python

Scrapy是適用於Python的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

1、scrapy初始

我們知道,寫一個爬蟲是比較費勁的,比如說發起請求、數據解析、反反爬蟲機制、異步請求等。如果我們每次都手動去操作,就很麻煩。​​scrapy​​這個框架已經把一些基礎的內容封裝好了,我們可以直接來使用,非常方便。

2、scrapy架構

我們通過下面兩個圖,來簡單有個認識;

可以個上圖看到,​​scrapy​​也是有很多組件組成的,那麼我們分別看下每個組件的作用是什麼吧;

3、scrapy組成

  1. ​Scrapy Engine(引擎)​​​:​​Scrapy​​​框架的核心部分。負責在​​Spider​​​和​​ItemPipeline​​​、​​Downloader​​​、​​Scheduler​​中間通信、傳遞數據等。
  2. ​Spider(爬蟲)​​:發送需要爬取的鏈接給引擎,最後引擎把其他模塊請求回來的數據再發送給爬蟲,爬蟲就去解析想要的數據。這個部分是我們開發者自己寫的,因為要爬取哪些鏈接,頁面中的哪些數據是我們需要的,都是由程序員自己決定。
  3. ​Scheduler(調度器)​​:負責接收引擎發送過來的請求,並按照一定的方式進行排列和整理,負責調度請求的順序等。
  4. ​Downloader(下載器)​​:負責接收引擎傳過來的下載請求,然後去網絡上下載對應的數據再交還給引擎。
  5. ​Item Pipeline(管道)​​​:負責將​​Spider(爬蟲)​​傳遞過來的數據進行保存。具體保存在哪裡,應該看開發者自己的需求。
  6. ​Downloader Middlewares(下載中間件)​​:可以擴展下載器和引擎之間通信功能的中間件。
  7. ​Spider Middlewares(Spider中間件)​​:可以擴展引擎和爬蟲之間通信功能的中間件。

本文結束,相關內容每日更新。

 更多內容請轉至VX公眾號 “運維家” ,獲取最新文章。


------ “運維家”  ------

------ “運維家”  ------

------ “運維家”  ------


linux系統下,mknodlinux,linux目錄寫權限,大白菜能安裝linux嗎,linux系統創建文件的方法,領克linux系統怎麼裝軟件,linux文本定位;

ocr識別linux,linux錨定詞尾,linux系統使用記錄,u盤有linux鏡像文件,應屆生不會Linux,linux內核64位,linux自啟動管理服務;

linux計算文件夾大小,linux設備名稱有哪些,linux能用的虛擬機嗎,linux系統進入不了命令行,如何創建kalilinux,linux跟so文件一樣嗎。




  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved