我正在使用 python3.8 和 BeautfiulSoup 4 來決議網站。我想閱讀的部分在這里:
<h1 class="pr-new-br">
<a href="/rotring-x-b104743">Rotring</a>
<span> 0.7 Imza U?lu Kur?un Versatil Kalem 37.28.221.368 </span>
</h1>
我使用此代碼從網站上找到它并從中獲取文本(soup 是網站上 BeautifulSoup 物件的變數):
product_name_text = soup.select("h1.pr_new_br")[0].get_text()
但是,這當然會回傳我所有的文本。我想將<a href>和 之間的文本分開<span>.
我怎樣才能做到這一點?我如何專門用于 href 中的標簽或鏈接?
非常感謝您,我在該領域很新,抱歉,如果這是非常基本的。
uj5u.com熱心網友回復:
get_text 方法有一個引數來分割不同元素的文本。舉個例子:
product_name_text = soup.select("h1.pr_new_br")[0].get_text('|')
# You will get -> Rotring|0.7 Imza U?lu Kur?un Versatil Kalem 37.28.221.368
# Then you can split with same symbol and you would have list of different el's texts
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/344490.html
下一篇:bs4不回傳完整的HTML
