我有一小部分湯標簽元素,我使用Selenium&拉出BeautifulSoup。
<footer>
<p class="tags environment-tags">Environment:
<span class="tag environment-tag">Desert</span>
</p>
<p class="source monster-source">Basic Rules
<span class="page-number">, pg. 334</span>
</p>
</footer>
我試圖從 p 元素中獲取文本,但每次我嘗試它都會獲取跨度。到目前為止,這是我嘗試過的:
for p in Environment.findAll('p'):
print(p.text)
我也嘗試使用提取資訊,.extract()但這似乎對我不起作用。
uj5u.com熱心網友回復:
您可以使用.contents和訪問第 0 個元素:
for tag in soup.find_all("p"):
print(tag.contents[0].strip())
輸出:
Environment:
Basic Rules
或者通過您的嘗試,您可以通過以下方式洗掉<span>' 使用.extract():
for tag in soup.select("p span"):
tag.extract()
print(soup.prettify())
輸出:
<footer>
<p class="tags environment-tags">
Environment:
</p>
<p class="source monster-source">
Basic Rules
</p>
</footer>
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/417264.html
標籤:
上一篇:R:比較隨機搜索的時間
下一篇:優化.append嵌套回圈
