如果未啟用 JavaScript,我正在嘗試抓取一個回傳 HTTP403 的網站。
我試圖實作的方法是,
在 parse 方法中,Selenium 驅動程式從中獲取 urlresponse.requets.url并獲取頁面
但我面臨的問題是 selenium 在獲取 HTTP403 后自動關閉請求并且不進入 parse 方法。
這是我的代碼:
class SampleSpider(scrapy.Spider):
name = "sample_spider"
start_urls = ["https://website_that_returning_403.com"]
def parse(self, response):
bot = webdriver.Chrome()
bot.get(response.request.url)
uj5u.com熱心網友回復:
要處理200-300范圍以外的狀態,請使用以下handle_httpstatus_list蜘蛛屬性
class SampleSpider(scrapy.Spider):
name = "sample_spider"
handle_httpstatus_list = [403]
start_urls = ["https://website_that_returning_403.com"]
def parse(self, response):
bot = webdriver.Chrome()
bot.get(response.request.url)
從檔案中了解更多資訊
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/405008.html
標籤:
