我知道這方面的資訊值得 10 個谷歌頁面,但是,所有這些資訊都告訴我只需--master yarn輸入spark-submit命令。但是,在集群模式下,我的本地筆記本電腦怎么可能知道這意味著什么?假設我有我的筆記本電腦和一個正在運行的 dataproc 集群。如何使用筆記本電腦上的 spark-submit 向該集群提交作業?
uj5u.com熱心網友回復:
大多數關于在集群模式下運行 Spark 應用程式的檔案都假設您已經在配置 YARN/Hadoop 的同一個集群上(例如,您是 ssh'ed),在這種情況下,大多數情況下 Spark 會選擇適當的本地配置和“正常作業”。
Dataproc 也是如此:如果您通過 ssh 連接到 Dataproc 主節點,則只需運行spark-submit --master yarn. 可以在檔案中找到更詳細的說明。
如果您嘗試在筆記本電腦上本地運行應用程式,這將更加困難。您需要設定一個到集群的ssh 隧道,然后在本地創建組態檔,告訴 Spark 如何通過隧道到達主服務器。
或者,您可以使用Dataproc 作業 API將作業提交到集群,而無需直接連接。需要注意的是,您必須使用屬性來告訴 Spark 在集群模式而不是客戶端模式下運行 ( --properties spark.submit.deployMode=cluster)。請注意,通過 Dataproc API 提交作業時,客戶端模式和集群模式之間的區別要小得多,因為無論哪種情況,Spark 驅動程式實際上都會在集群上(分別在主服務器或作業人員)上運行,而不是在本地筆記本電腦上運行。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/405134.html
標籤:
下一篇:pysparksql將日期格式從mm/dd/yyhh:mm或yyyy-mm-ddhh:mm:ss轉換為yyyy-mm-ddhh:mm格式
