我有一個字串'<span>TEST1</span> <span>TEST2</span> <a href="#">TEST3</a>'
我需要洗掉 html 標簽并留下文本
import re
p = re.compile( '\s*<[^>] >\s*')
test = p.sub('', '<span>TEST1</span> <span>TEST2</span> <a href="#">TEST3</a>')
print(test)
輸出:TEST1TEST2TEST3
但這會洗掉每個 html 元素,我應該如何更改正則運算式以使輸出如下所示:
OUTPUT: TEST1 TEST2 <a href="#">TEST3</a>
uj5u.com熱心網友回復:
您可以使用所謂的“負前瞻”。
在您的情況下,您可以省略<a and </a>:
(?!<a )(?!<\/a>)<[^>] >
請注意其中的空格<a 和右括號,</a>以便只有<a>元素的開始和結束標記匹配,而其他任何內容均不以 a 開頭。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/465810.html
下一篇:紅寶石和用正則運算式分割字串
