我正在試驗 GCP。我有一個帶有 Hadoop 的本地環境。它由存盤在 HDFS 上的檔案和一堆 python 腳本組成,這些腳本進行 API 呼叫和觸發豬作業。這些 python 作業是通過 cron 安排的。
我想了解在 GCP 中做類似事情的最佳方法。我知道我可以使用 GCS 作為 HDFS 的替代品。Dataproc 可用于啟動 Hadoop 集群并運行 Pig 作業。
是否可以將這些 Python 腳本存盤到 GCS 中,有一個類似 cron 的計劃來啟動 Hadoop 集群,并在 GCS 中指向這些 Python 腳本來運行?
uj5u.com熱心網友回復:
如果您正在 GCP 上尋找 cron 作業或作業流調度程式,請考慮:
Cloud Scheduler,它是一個完全托管的企業級 cron 作業調度器;
Cloud Workflows結合了 Google Cloud 服務和 API,可輕松構建可靠的應用程式、流程自動化以及資料和機器學習管道。
Cloud Composer,它是基于 Apache Airflow 構建的完全托管的作業流編排服務。
Cloud Scheduler 是最簡單的一種,但可能最適合您的用例。Cloud Workflows 與 Cloud Composer 有一些重疊,請在此檔案中查看它們的主要區別以及如何選擇。
uj5u.com熱心網友回復:
我發現您可以使用 Dataproc 通過“提交豬”作業運行 Python 腳本。該作業允許您運行 Bash 腳本,您可以從中呼叫 Python 腳本:
gcloud dataproc jobs submit pig --cluster=test-python-exec --region=us-central1 -e='fs -cp -f gs://testing_dataproc/main/execution/execute_python.sh file:///tmp/execute_python.sh; sh chmod 750 /tmp/execute_python.sh; sh /tmp/execute_python.sh'
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/460159.html
標籤:Python Hadoop 谷歌云平台 谷歌云数据处理 气相色谱仪
上一篇:在PigLatin的多條件RegExp中使用REPLACE
下一篇:將兩個類似的.js函式合二為一
