我正在對一個特定列“標題”上的資料集進行一些預處理,我已經洗掉了數字和標點符號。但也想洗掉測量值。測量值不在單獨的列中,它們在標題列中。
#Load data set
df = pd.read_csv (r'example')
#df = pd.read_csv (r'example)
# remove numbers and punctuation
df['Title'] = df['Title'].str.replace(r'[^\w\s] ', '')
df['Title'] = df['Title'].str.replace('\d ', '')
print (df['Title'])
回傳和資料集列
uj5u.com熱心網友回復:
df['Title'] = df['Title'].str.replace(r'\sg$|\skg$|\sml$', '')
舉個例子。或更一般地,洗掉最后一個詞將等于:
df['Title'] = df['Title'].str.replace(r'\s[a-z] $', '')
uj5u.com熱心網友回復:
您可以再次使用正則運算式。
df['Title'] = df['Title'].str.replace('xg$|g$|kg$|ml$', '')
美元符號充當字串末尾的錨點。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/399308.html
標籤:Python 熊猫 数据框 jupyter-笔记本 数据清理
上一篇:用向量替換矩陣列的磁區
下一篇:熊貓按特定順序填充()行
