https://space.bilibili.com/523606542

Python學習交流群：1039649593

scrapy 框架結構

思考

在開始爬取之前，必須創建一個新的Scrapy專案，進入您打算存盤代碼的目錄中，運行下列命令:

注意:創建專案時，會在當前目錄下新建爬蟲專案的目錄，

這些檔案分別是:

Scrapy Engine(引擎):負責Spider、ltemPipeline、Downloader、Scheduler中間的通訊，信號、資料傳遞等，
Scheduler(調度器):負責接受引擎發送過來的Request請求，并按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎，
Downloader(下載器):負責下載Scrapy Engine(引擎)發送的所有Requests請求，并將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理，
Spider(爬蟲)︰負責處理所有Responses,從中分析提取資料，獲取ltem欄位需要的資料，并將需要跟進的URL提交給引擎，再次進入Scheduler(調度器)，
ltem Pipeline(管道):負責處理Spider中獲取到的ltem，并進行進行后期處理(詳細分析、過濾、存盤等）的地方.
Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件，
Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件（比如進入Spider的Responses;和從Spider出去的Requests)

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/288357.html

標籤：Python