scrapy爬蟲-有解無憂

正在爬點小資料，網頁抓包程序是：原網址302到一個驗證網址，完了又302回來顯示內容。
在使用scrapy框架時，使用代理ip會被302重定向到其他網址，然后就獲取不到資料。不使用代理的情況下可以正常爬取資料，不過會一會就會被封。爬蟲ua是隨機的，其他請求頭也按照原網頁添加。代理ip也檢測過能用，研究好幾天了沒有眉目，請問大佬們，這個是什么問題啊，怎么解決？

只有這點分了，大佬們幫幫忙

uj5u.com熱心網友回復：

1.“在使用scrapy框架時，使用代理ip會被302重定向到其他網址，然后就獲取不到資料。不使用代理的情況下可以正常爬取資料”：
——大概率你所用的代理非高匿，后臺識別出來并進行了資料限制。換一批高質量代理？買買買。

2.“不使用代理的情況下可以正常爬取資料，不過會一會就會被封。爬蟲ua是隨機的，其他請求頭也按照原網頁添加。”
——嘗試降低爬取頻率。另外頻繁隨機ua也容易被反爬。建議增加sleep時間，從高往底測驗服務器的檢測閾值。

另：檢查一下settings檔案配置項是否相應進行了修改。

uj5u.com熱心網友回復：

參考 1 樓 weixin_41768513 的回復:

1.“在使用scrapy框架時，使用代理ip會被302重定向到其他網址，然后就獲取不到資料。不使用代理的情況下可以正常爬取資料”：
——大概率你所用的代理非高匿，后臺識別出來并進行了資料限制。換一批高質量代理？買買買。

2.“不使用代理的情況下可以正常爬取資料，不過會一會就會被封。爬蟲ua是隨機的，其他請求頭也按照原網頁添加。”
——嘗試降低爬取頻率。另外頻繁隨機ua也容易被反爬。建議增加sleep時間，從高往底測驗服務器的檢測閾值。

另：檢查一下settings檔案配置項是否相應進行了修改。

程式用的是scrapy_redis，設定了retry和redirect貌似沒有起作用，另一個scrapy腳本可以通過兩次跳轉獲取到資料

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/129643.html

標籤：腳本語言(Perl/Python)

上一篇：arm匯編怎么實作對固定地址區的資料求絕對值，并存入新地址呢？

下一篇：如何在自制軟體中嵌入一個代碼編輯器