我正在處理文本資料,我想洗掉任何帶有“<”和“>”的 HTML 代碼。例如
<< HTML > < p style="text-align:justify" >Labour Solutions Australia (LSA) 是一個全國性的勞動力雇傭和采購機構`
所以我使用以下代碼
def remove_html(s):
s = re.sub('[^\S]*<[^\S]*', "", s)
s = re.sub('[^\S]*>[^\S]*', "", s)
return s
隨著代碼的執行,我們得到以下結果
Solutions Australia LSA 是一家全國性的勞動力雇傭和采購公司
我不想洗掉“Labor”這個詞,但它會被洗掉,因為它堅持使用“>”。有什么辦法可以挽救它嗎?請建議
uj5u.com熱心網友回復:
import re
def remove_html(data):
return re.sub('<[^>] >', '', data).strip()
test_case = '< HTML > < p style="text-align:justify" >Labour Solutions Australia (LSA) is a national labour hire and sourcing'
print(remove_html(test_case))
輸出:
澳大利亞勞工解決方案 (LSA) 是一家全國性的勞動力雇傭和采購機構
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/392717.html
