我對如何在 Spark 的集群模式下將主節點和作業節點分配給網路上各自連接的機器 (VM) 感到有些困惑。我有兩個節點,我在其中一個節點上進行 Hadoop 配置(我認為是主要節點),mapred-set.xml core-site.xml hdfs-site.xml, hadoop-env.sh, worker然后是 Yarn 相關的組態檔(在我的情況下,我選擇了資源管理器作為 Yarn)。在 hadoop 主檔案夾下,我在檔案中設定了作業 IP worker。然后我在第二個節點上復制相同的 hadoop 整個檔案夾并設定 Hadoop 路徑。
我的問題是,當我啟動 Spark 作業(使用 Spark-submit)時,負責分配主節點和作業節點的流程作業流是什么。在沒有 Hadoop 的基本示例中,我將通過在每臺機器上啟動start-slave.sh或來明確start-master.sh指定作業節點和主節點,但是 Spark/Hadoop 主要如何通過 Hadoop 組態檔分配作業節點和主節點?
謝謝 !
uj5u.com熱心網友回復:
Driver 和 Executors 從 yarn 請求容器來啟動并執行作業。Yarn 會為您處理分配,因此您無需擔心 master(驅動程式)/slave(執行程式)的分配位置。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/330067.html
