我正在使用 spark 3.0 并且正在設定引數
我的引數:
spark.conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.conf.set("fs.s3a.fast.upload.buffer", "bytebuffer")
spark.conf.set("spark.sql.files.maxPartitionBytes",134217728)
spark.conf.set("spark.executor.instances", 4)
spark.conf.set("spark.executor.memory", 3)
錯誤:
pyspark.sql.utils.AnalysisException: Cannot modify the value of a Spark config: spark.executor.instances
我不想通過 spark-submit 傳遞它,因為這是我正在寫的 pytest 案例。
我該如何度過這個難關?
uj5u.com熱心網友回復:
您可以嘗試PYSPARK_SUBMIT_ARGS在初始化 SparkContext 之前添加這些選項。它的語法類似于spark-submit.
uj5u.com熱心網友回復:
根據spark官方檔案,spark.executor.instances在運行時通過SparkConf編程設定可能不影響該屬性,建議通過組態檔或spark-submit命令列選項設定。
Spark的屬性主要可以分為兩種:一種是和deploy相關的,比如“ spark.driver.memory ”、“ spark.executor.instances ”, 這種屬性在運行時通過SparkConf編程設定可能不受影響,或者行為取決于您選擇的集群管理器和部署模式,因此建議通過組態檔或 spark-submit 命令列選項進行設定;另一個主要和Spark運行時控制有關,比如“spark.task.maxFailures”,這種屬性可以任意設定。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/492247.html
標籤:阿帕奇火花 pyspark apache-spark-sql
