我想用 YARN 集群管理器部署一個 spark 集群。這個 Spark 集群需要從屬于現有 Hadoop 生態系統的外部 HDFS 檔案系統讀取資料,該系統也有自己的 YARN(但是,我不允許使用 Hadoop 的 YARN。)
我的問題是 -
- 是否可以使用獨立的 YARN 運行 spark 集群,同時仍從外部 HDFS 檔案系統讀取資料?
- 如果是,這種方法是否有任何缺點或性能損失?
- 如果不是,我可以將 Spark 作為獨立集群運行嗎?會有任何性能問題嗎?
假設 spark 集群和 Hadoop 集群都在同一個資料中心運行。
uj5u.com熱心網友回復:
使用獨立的 YARN,同時仍從外部 HDFS 檔案系統讀取資料
是的。將 配置yarn-site.xml為必要的集群并使用完整的 FQDN 來參考外部檔案位置,例如hdfs://namenode-external:8020/file/path
這種方法的任何缺點或性能損失
是的。所有讀取都將是遠程的,而不是集群本地的。然而,這實際上與從 S3 或其他遠程位置讀取類似的性能下降。
我可以將 Spark 作為獨立集群運行嗎
你可以,或者你可以使用 Kubernetes,如果可用的話,但是如果已經有一個可用的 YARN 集群(有足夠的資源),那么兩者都是毫無意義的 IMO
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/440129.html
上一篇:如何將S3連接到本地的pyspark(org.apache.hadoop.fs.UnsupportedFileSystemException:NoFileSystemforscheme"s3
