我需要在資料框中進行雙引號檢查。因此,我正在遍歷所有列以進行此檢查,但需要花費大量時間。為此,我正在使用 Azure Databricks。
for column in columns_list:
column_name = "`" column "`"
df_reject = source_data.withColumn("flag_quotes",when(source_data[column_name].rlike("[\"\"]"),lit("Yes")).otherwise(lit("No")))
df_quo_rejected_df = df_reject.filter(col("flag_quotes") == "Yes")
df_quo_rejected_df = df_quo_rejected_df.withColumn('Error', lit(err))
df_quo_rejected_df.coalesce(1).write.mode("append").option("header","true")\
.option("delimiter",delimiter)\
.format("com.databricks.spark.csv")\
.save(filelocwrite)
我有大約 500 列和 4000 萬條記錄。我嘗試在每次迭代時合并資料幀,但操作在一段時間后會 OOM。所以我保存資料框并在每次迭代時附加它。請幫助我優化運行時間。
uj5u.com熱心網友回復:
您可以嘗試使用檢查它們的值,而不是遍歷列exists。
from pyspark.sql import functions as F
columns_list = [f"`{c}`" for c in columns_list]
df_reject = source_data.filter(F.exists(F.array(*columns_list), lambda x: x.rlike("[\"\"]")))
df_cols_add = df_reject.select('*', F.lit('Yes').alias('flag_quotes'), F.lit(err).alias('Error'))
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/483625.html
