

因為是航空業內人士,需要實時關注多個航段多個日期機票資訊,資料需求量較大,因此寫了一個攜程機票資訊爬蟲,原先嘗試用aiohttp、asyncio,后改用原始的requests,不管如何降速,采集一小部分資料后攜程總會提示訪問太快,然后彈出驗證,應該是遭遇了反爬。對于反爬,已經嘗試用隨機user_agent,隨機代理(網上抄的比較low,沒有驗證代理有效性的機制),time.sleep等等方式,請問大神該如何修改代碼?或者提供一個比較高效的代理池代碼?或者如何自動應付網站驗證機制?
uj5u.com熱心網友回復:
關于這兩個問題 ---> 充錢才能變得更強!uj5u.com熱心網友回復:
"或者提供一個比較高效的代理池代碼?或者如何自動應付網站驗證機制?”——高效的代理池代碼都建立在代理源的質量上吧,代理源質量過低的話代理池也高效不起來。建議花點小錢錢選購高質的代理。
——在弄清楚網站驗證機制時,除了常規的ua外,建議先從除錯sleep開始,從大往底測驗網站檢測閾值。另外可以嘗試一下手機端的爬取,檢測相對較弱。
uj5u.com熱心網友回復:
設定個timesleep轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/127602.html
上一篇:golang如何將上傳的2003版xls轉換型別為2007xlsx
下一篇:請教一個小數保留小數點位數的問題
