1 前言
Python開發網路爬蟲獲取網頁資料的基本流程為:
發起請求
通過URL向服務器發起request請求,請求可以包含額外的header資訊,
獲取回應內容
服務器正常回應,將會收到一個response,即為所請求的網頁內容,或許包含HTML,Json字串或者二進制的資料(視頻、圖片)等,
決議內容
如果是HTML代碼,則可以使用網頁決議器進行決議,如果是Json資料,則可以轉換成Json物件進行決議,如果是二進制的資料,則可以保存到檔案做進一步處理,
保存資料
可以保存到本地檔案,也可以保存到資料庫(MySQL,Redis,MongoDB等),

2 爬蟲程式架構及運行流程

網路爬蟲程式框架主要包括以下五大模塊:
- 爬蟲調度器
- URL管理器
- HTML下載器
- HTML決議器
- 資料存盤器
五大模塊功能如下所示:
- 爬蟲調度器:主要負責統籌其它四個模塊的協調作業,
- URL管理器:負責管理URL鏈接,維護已經爬取的URL集合和未爬取的URL集合,提供獲取新URL鏈接的介面,
- HTML下載器:用于從URL管理器中獲取未爬取的URL鏈接并下載HTML網頁,
- HTML決議器:用于從HTML下載器中獲取已經下載的HTML網頁,并從中決議出新的URL鏈接交給URL管理器,決議出有效資料交給資料存盤器,
- 資料存盤器:用于將HTML決議器決議出來的資料通過檔案或者資料庫的形式存盤起來,
網路爬蟲程式框架的動態運行流程如下所示:

3 小結
本文簡要介紹了Python開發網路爬蟲的程式框架,將網路爬蟲運行流程按照具體功能劃分為不同模塊,以便各司其職、協同運作,搭建好網路爬蟲框架后,能夠有效地提高我們開發網路爬蟲專案的效率,避免一些重復造車輪的作業,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/180075.html
標籤:Python
