剛學會一點點爬蟲,想寫個爬蟲,去爬取指定貼吧的圖片。
然后使用requests.get()得到網頁內容后。
發現etree.HTML只決議出一小部分網頁,我無法使用xpath獲取我想要的內容。
研究了好久,發現可能是因為貼吧回傳的網頁內容中含有兩個html標簽,所以導致HTMl無法正常決議網頁為Xpath物件。
求解這種情況應該怎么辦?
import requests
from lxml import etree
url = "https://tieba.baidu.com/f?kw=lol&fr=ala0&tpl=5&pn=0&"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
response = requests.get(url, headers=headers)
content = response.content
html = etree.HTML(content)
print(etree.tostring(html).decode())
運行代碼可以發現,只能列印出部分網頁。
uj5u.com熱心網友回復:
沒有解決,換了種思路,用正則去提取url了轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/68406.html
