spark安裝-有解無憂

spark安裝

前言

資料鏈接

安裝scala

創建scala作業目錄

配置環境變數（三臺機器）

查看是否安裝成功

分發到節點

驗證

安裝spark

創建spark作業目錄

編輯spark-env.sh

配置spark從節點

配置環境變數（三臺機器）

分發到節點

測驗運行環境（只在master節點執行）

訪問spark web界面

開啟spark-shell

輸入pyspark測驗python環境spark互動模式

spark安裝

Apache Spark 是專為大規模資料處理而設計的快速通用的計算引擎，Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同于MapReduce的是——Job中間輸出結果可以保存在記憶體中，從而不再需要讀寫HDFS，因此Spark能更好地適用于資料挖掘與機器學習等需要迭代的MapReduce的演算法，

前言

在部署完hadoop集群后，再安裝scala與spark

Spark 是在 Scala 語言中實作的，它將 Scala 用作其應用程式框架，與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合物件一樣輕松地操作分布式資料集，

資料鏈接

鏈接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取碼：yikm

安裝scala

創建scala作業目錄

mkdir -p /usr/scala/
tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

配置環境變數（三臺機器）

vim /etc/profile

添加以下內容：

#scala
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH

生效環境變數

 source /etc/profile

查看是否安裝成功

scala -version

分發到節點

 scp -r /usr/scala/ root@slave1:/usr/
 scp -r /usr/scala/ root@slave2:/usr/

驗證

scala -version

安裝spark

創建spark作業目錄

mkdir -p /usr/spark
tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

編輯spark-env.sh

cd /usr/spark/spark-2.4.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下內容：

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

配置spark從節點

mv slaves.template slaves
vim slaves

修改localhost：

slave1
slave2

配置環境變數（三臺機器）

vim /etc/profile

添加以下內容：

#spark
export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

生效環境變數

source /etc/profile

分發到節點

scp -r /usr/spark/ root@slave1:/usr/
scp -r /usr/spark/ root@slave2:/usr/

測驗運行環境（只在master節點執行）

啟動hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

啟動spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

jps查看行程

訪問spark web界面

192.168.111.3:8080

開啟spark-shell

spark-shell

輸入以下命令測驗：

println("Hello world")

輸入pyspark測驗python環境spark互動模式

pyspark

輸入命令測驗：

 print("Hello world")

輸入quit()可退出

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/323377.html

標籤：其他

上一篇：Pyhton操作Neo4j圖資料庫實踐（南北朝隋唐歷史北朝主要人物知識圖譜）

下一篇：“紅亞杯”-大資料環境搭建與資料采集技能線上專題賽賽題