
前言
你在爬蟲的時候,是否會經常的擔心IP被封掉呢?
或者說,在使用免費IP的時候,并不知道那個IP是不是已經被封了,
對于大批量的爬取資料的時候,我在第五篇做并發爬蟲的時候就發現了,第一篇提供的那個免費代理很多都已經被封掉了,
那怎么辦呢?
這時候不得有一個自己的代理池嘛,
除了去買,相信大多數小伙伴還是愿意用自己的吧,畢竟又不是天天爬,爬個幾次,又不能當飯吃,花這錢干什么?
揭開神秘面紗
其實這個代理池的建立啊,也不是什么稀奇玩意兒了,從User-Agent模塊中不斷抽取隨機IP,然后拿去訪問網址,如果可以用的話,就留下來,如果不能用的話,就算了,
通俗地比喻一下,它就是一個池子,里面裝了很多代理ip,它有如下的行為特征:
1.池子里的ip是有生命周期的,它們將被定期驗證,其中失效的將被從池子里面剔除,
2.池子里的ip是有補充渠道的,會有新的代理ip不斷被加入池子中,
3.池子中的代理ip是可以被隨機取出的,
這里有一個==站大爺==,還行,但是只有免費體驗,有興趣的小伙伴可以去看看,
我自己也沒用過,因為每類產品只能免費體驗一次,省著點用吧,萬一哪天就需要優質IP了呢,
我有headers了,為什么還要用代理?
代理,那個proxy啊,
1.服務器會判斷一個頻繁的請求是不是來自于同一個User-Agent標識,或者判斷User-Agent是不是以python開頭,如果是,則會限制訪問,
解決方案:隨機切換User-Agent的值
2.服務器會判斷一個頻繁的請求是不是來自于同一個IP地址發出的,如果是,則會對IP進行限制訪問,
解決方案:使用代理IP,隨機切換IP地址,不使用真實的IP來發起請求,
如果你想有自己的免費代理池
對于這件事,我不吹也不黑,因為我自己應該是用不上了,
那我就找幾篇寫的比較良心的吧,畢竟網上這吹牛逼的太多了,
不過這種專案到GitHub上一找一大把(我自己也偷偷下載了一個)
怎么自己搭建免費代理IP池,代碼,網站啥的都有,就是要翻墻去看看,
免費代理池的搭建,這個牛逼,拿了好多家的代理來做自己的代理池,
如何構建一個自己的代理ip池,這篇收藏的人不少,代碼也干凈利落有注釋,
ProxyPool,前面沒提到的一個新專案,
反正挑著用嘛,看你喜歡哪個啦,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/253593.html
標籤:其他
上一篇:【CC精品教程】任務三:CC刺像控點,提交空三,新建重建專案(三維格網、三維點云、DOM和DSM)
下一篇:七大頂級編程學習網站
