我在嘗試爬取這個
uj5u.com熱心網友回復:
您嘗試抓取的網址需要很長時間才能加載。即使您在瀏覽器中嘗試,您也會注意到完全加載和停止旋轉需要時間。
因此,在頁面完全加載并回傳之前,Splash 會超時。
你需要做兩件事。
首先在啟動啟動服務器時增加最大超時值,如下所示。
docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600
其次,在spider中,您可以提供一個小于或等于splash服務器的max-timeout值的超時值。
yield SplashRequest(url=url, args={"timeout": 3000})
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/426940.html
下一篇:試圖抓取資料提供空結果
