我想使用正則運算式洗掉一列中的逗號。此鏈接顯示了如何執行此操作。問題是我在影像中收到此錯誤。檔案說它必須是一個字串,正如你在 dtypes 中看到的那樣。 如果這是 True 則 to_replace 必須是一個字串。為什么我仍然收到此錯誤?謝謝!
uj5u.com熱心網友回復:
from pyspark.sql.functions import udf, concat, col, lit
import re
commaRep = udf(lambda x: re.sub(',$|^,','', x))
count_df_2=count_df.withColumn('tags',commaRep('tags'))
count_df_2.show(3)
uj5u.com熱心網友回復:
您當前呼叫replace整個資料框的語法在我看來是正確的。問題可能是該count列是數字,因此呼叫它是沒有意義的replace。嘗試replace僅在tags列上呼叫:
count_df["tags"] = count_df["tags"].str.replace(',', '')
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/361032.html
下一篇:是否可以通過管道實作命令替換?
