我正在刮取h1標簽的HTML。selector只針對h1標簽,但當我列印它時,它也列印了一個不必要的HTML與h1標簽。
import requests
from scrapy.selector import Selector
r = requests.get('https://www.catholicgallery.org/mass-reading/310122/')
resp = Selector(text=r.text)
h1 = resp.xpath('//h1[@class="tdb-title-text"]').get()
print(h1)
uj5u.com熱心網友回復:
看起來它受這個問題的影響:
scrapy/parsel: 從節點提取HTML代碼不作業 #228
據報道,將libxml降級到2.9.10可以解決這個問題。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/331293.html
標籤:

