我正在尋找安裝 Spark 包(特別是 spark-avro)以在本地運行并通過 spark-submit 命令正確使用它們的清晰指南或步驟。
我花了很多時間閱讀許多帖子和指南,但仍然無法讓 spark-submit 使用本地部署的 spark-avro 包。因此,如果有人已經使用 spark-avro 或其他軟體包完成了這項作業,請分享您的智慧:)
我發現的所有現有檔案都有點不清楚。
非常感謝清晰的步驟和示例!PS 我知道 Python/PySpark/SQL,但對 Java 了解不多(還)...
邁克爾
uj5u.com熱心網友回復:
在 spark-submit 命令本身中,您可以傳遞 avro 包詳細資訊(確保支持 avro 和 spark 版本)
spark-submit --packages org.apache.spark:spark-avro_<required_version>:<spark_version>
例子,
spark-submit --packages org.apache.spark:spark-avro_2.11:2.4.0
同樣,您也可以將它與 spark-shell 命令一起傳遞以處理 avro 檔案。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/477858.html
標籤:阿帕奇火花 pyspark apache-spark-sql 火花avro
下一篇:RDD[(String,Iterable[GenericData.Record])]到Map[(String,RDD[GenericData.Record])]
