爬蟲之路
爬蟲的一周學習計劃:
下圖是爬蟲的準備

爬蟲爬取快代理案例:
網站的url=“https://www.kuaidaili.com/free/”
這次爬取我們采用的是requests第三方庫
Requests 是一個 Python 的 HTTP 客戶端庫,我們可以用它得到HTML原始碼
import requests
url="https://www.kuaidaili.com/free/"
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
}
#這里進行了頭部的偽裝
res=requests.get(url,headers=headers)
res.encoding="utf-8"
html=res.text
之后我們用xpath實作標簽的遍歷獲取到我們需要的內容
e=etree.HTML(html)
ip_list=e.xpath("//tr/td[1]/text()")
port_list=e.xpath("//tr/td[2]/text()")
#采用zip迭代的方式列印輸出
for ip,port in zip(ip_list,port_list):
str="ip:"+ip+"\t埠號:"+port
print(str)
小結
本文主要講解了網路爬蟲的結構和應用,以及Python實作爬蟲的案例,希望大家對本文中的網路爬蟲作業流程和Requests實作HTTP請求的方式重點吸收消化,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/123912.html
標籤:其他
