DataProcSparkOperator 本質上是什么?我發現了很多資訊和使用它的代碼片段,但是,我仍然找不到它的可靠定義。
uj5u.com熱心網友回復:
我認為您在談論的是用于將 Spark 作業提交到 Dataproc 集群的 Apache Airflow 操作員。檢查Airflow 檔案、這篇介紹性文章、這個示例代碼。
uj5u.com熱心網友回復:
Dataproc 是一項托管 Apache Spark 和 Apache Hadoop 服務,可讓您利用開源資料工具進行批處理、查詢、流式傳輸和機器學習。Dataproc 自動化可幫助您快速創建集群、輕松管理集群并在您不需要集群時關閉它們,從而節省資金。您可以在本檔案中查看更多資訊。
您可以在此處查看有關不同 DataProc 運算子的更多檔案。
Airflow 提供 DataProcSparkOperator 將作業提交到您的 dataproc 集群。
這是示例:
submit_job = DataProcSparkOperator(
task_id='submit_job',
dataproc_spark_jars=['{{var.value.spark_bq_jar}}'],
main_class='LoadData',
arguments=[
"job_name==currency",
"data_type=={{params.thirty_raw_folder_prefix}}",
"input_path==gs://input-bucket/input-folder",
"output_path==gs://staging-bucket/staging_folder",
"week=={{dag_run.conf['week']}}",
"year=={{dag_run.conf['year']}}",
"genres=={{dag_run.conf['genres']}}"
],
files=['gs://bucket/folder/properties/loaddata.properties'],
cluster_name='{{params.cluster_name}}',
dag=dag
)
在這里, spark_bq_jar 變數包含您的火花罐的位置。并且提供了所有引數來告訴 jar 要運行哪個作業。您可以在此鏈接中查看更多示例。
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/350957.html
標籤:阿帕奇火花 谷歌云平台 apache-spark-sql 谷歌云数据处理
上一篇:一文搞懂Python中正則運算式
下一篇:虛擬環境下的spyder安裝
