我有以下 pyspark 資料框列。
Column_1
daily_trend_navigator
weekly_trend_navigator
day_of_week_trend_display
day_of_month_trend_notifier
empty_navigator
unique_notifier
我必須拆分上面的列,如果該列有趨勢作為它的一部分,則只提取直到趨勢,否則我必須在第一次出現“_”之前提取存在的內容
預期輸出:
column_1
daily_trend
weekly_trend
day_of_week_trend
day_of_month_trend
empty
unique
uj5u.com熱心網友回復:
它可能沒有考慮到所有情況,但至少,它適用于您的示例。
- 您處理“趨勢”案例:如果存在,則按趨勢拆分
- 你除以 _ 否則
df.withColumn(
"Column_1",
F.when(
F.col("Column_1").contains("trend"),
F.concat(F.split("Column_1", "trend").getItem(0), F.lit("trend")),
).otherwise(F.split("Column_1", "_").getItem(0)),
).show()
------------------
| Column_1|
------------------
| daily_trend|
| weekly_trend|
| day_of_week_trend|
|day_of_month_trend|
| empty|
| unique|
------------------
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/340520.html
