正在爬點小資料,網頁抓包程序是:原網址302到一個驗證網址,完了又302回來顯示內容。
在使用scrapy框架時,使用代理ip會被302重定向到其他網址,然后就獲取不到資料。不使用代理的情況下可以正常爬取資料,不過會一會就會被封。爬蟲ua是隨機的,其他請求頭也按照原網頁添加。代理ip也檢測過能用,研究好幾天了沒有眉目,請問大佬們,這個是什么問題啊,怎么解決?
只有這點分了,大佬們幫幫忙
uj5u.com熱心網友回復:
1.“在使用scrapy框架時,使用代理ip會被302重定向到其他網址,然后就獲取不到資料。不使用代理的情況下可以正常爬取資料”:——大概率你所用的代理非高匿,后臺識別出來并進行了資料限制。換一批高質量代理?買買買。
2.“不使用代理的情況下可以正常爬取資料,不過會一會就會被封。爬蟲ua是隨機的,其他請求頭也按照原網頁添加。”
——嘗試降低爬取頻率。另外頻繁隨機ua也容易被反爬。建議增加sleep時間,從高往底測驗服務器的檢測閾值。
另:檢查一下settings檔案配置項是否相應進行了修改。
uj5u.com熱心網友回復:
程式用的是scrapy_redis,設定了retry和redirect貌似沒有起作用,另一個scrapy腳本可以通過兩次跳轉獲取到資料
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/129643.html
