例如,我想清理page_url熊貓資料框下的欄位df
df:
| page_url |
|---|
| https://www.google.com/ |
我們的目標是像下面這樣清理它:
| page_url |
|---|
| https://www.google.com/ |
我試過了:
df['page_url'].str.strip().replace(dict(zip(["/", ":"], ["/", ":"])),regex=True)
它適用于此示例,但是資料框page_url列具有其他值,例如 '+' 或其他字串,只是想看看在 Python 3 中是否有替代方法可以做到這一點,而不是寫下需要替換的每個字串。謝謝
uj5u.com熱心網友回復:
import urllib.parse
urllib.parse.unquote("https://www.google.com/")
# 'https://www.google.com/'
所以我們需要的是
df['page_url'].apply(urllib.parse.unquote)
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/493885.html
標籤:python-3.x 熊猫 网址 编码
上一篇:如何將bash腳本陳述句合二為一
下一篇:從URL呼叫SelectTag
