作者：京東物流秦彪

工欲善其事必先利其器，在深入學習大資料相關技術之前，先手動從0到1搭建一個屬于自己的本地Hadoop和Spark運行環境，對于繼續研究大資料生態圈各類技術具有重要意義，本文旨在站在研發的角度上通過手動實踐搭建運行環境，文中不拖泥帶水過多講述基礎知識，結合Hadoop和Spark最新版本，幫助大家跟著步驟一步步實踐環境搭建，

1. 總體運行環境概覽

（1）軟體包及使用工具版本介紹表：

技術名稱或工具名稱	版本	備注
Hadoop	hadoop-3.3.4.tar.gz
VirtualBox	6.0.0 r127566	虛擬機，推薦
CentOS	centos7.3
JDK	jdk-8u212-linux-x64.tar.gz	1.8.0_111
Zookeeper	zookeeper-3.6.tar.gz
FileZilla	FileZilla_3.34.0	檔案傳輸工具，推薦
MobaXterm	MobaXterm_Portable_v10.9	SSH連接工具，推薦
Idea	IDEA COMMUNITY 2019.1.4	代碼IDE開發工具，推薦

（2）環境部署與分布介紹表：

主機名	IP	運行的行程
master	192.168.0.20	QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master
slave1	192.168.0.21	QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master、Worker
slave2	192.168.0.22	QuorumPeerMain、NameNode、DataNode、JournalNode、NodeManager、Worker

（3）行程介紹：（1表示行程存在，0表示不存在）

行程名	含義	master	slave1	slave2
QuorumPeerMain	ZK行程	1	1	1
NameNode	Hadoop主節點	1	1	0
DataNode	Hadoop資料節點	1	1	1
ResourceManager	Yarn管理行程	1	1	0
NodeManager	Yarn 作業行程	1	1	1
JournalNode	NameNode同步行程	1	1	1
DFSZKFailoverController	NameNode監控行程	1	1	0
Master	Spark主節點	1	1	0
Worker	Spark作業節點	1	1	1

2. 系統基礎環境準備

步驟1：虛擬機中Linux系統安裝（略）

VirtualBox中安裝CentOS7作業系統

步驟2： CentOS7基礎配置

（1）配置主機的hostname

命令： vim/etc/hostname

（2）配置hosts，命令vim /etc/hosts

（3）安裝JDK

命令：

rpm -qa | grep java 查看是否有通過rpm方式安裝的java

java -version 查看當前環境變數下的java 版本

1） filezilla上傳安裝包，tar -zxvf
jdk-8u212-linux-x64.tar.gz 解壓

2） bin目錄的完整路徑：
/usr/local/jdk/jdk1.8.0_212/bin

3） vim /etc/profile 配置jdk環境變數

（4）復制主機：

1）利用VirtualBox復制功能復制兩臺主機

2）命令：vi
/etc/sysconfig/network-scripts/ifcfg-eth0，設定相應的網路資訊

3）三臺主機IP分別為： 192.168.0.20/21/22

（5）配置三臺主機ssh無密碼登錄（略）

（6）安裝zookeeper

1） filezilla上傳安裝包，zookeeper-3.4.10.tar.gz 解壓

2） bin目錄的完整路徑：
/usr/local/zookeeper/zookeeper-3.4.10/bin

3） vim /etc/profile 配置jdk環境變數

4） zookeeper的組態檔修改，zookeeper-3.4.10/conf/

5）執行命令從master節點復制配置到其他兩個節點

6）每臺機器zookeeper目錄下新建一個data目錄， data目錄下新建一個myid檔案，master主機存放標識值1；slave1主機標識值為2；slave3主機標識值為3

7）每臺機器上命令：zkServer.sh start ，啟動ZK，行程名：QuorumPeerMain

3. Hadoop安裝與部署

3.1安裝Hadoop

1）filezilla上傳安裝包，hadoop-3.3.4.tar.gz 解壓

2）bin目錄的完整路徑： /usr/local/hadoop/hadoop-3.3.4/bin

3）vim /etc/profile 配置jdk環境變數

4）修改組態檔共6個： hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers

檔案1： hadoop-env.sh；增加jdk環境變數

檔案2： core-site.xml；配置臨時目錄及zookeeper資訊

檔案3： hdfs-site.xml；配置hdfs資訊

檔案4： mapred-site.xml；配置mapreduce和dfs權限資訊

檔案5： yarn-site.xml；配置yarn資源調度資訊

檔案6: worker檔案存放當前的worker節點名，復制到每一個虛擬機中

3.2啟動Hadoop

1）使用命令： hadoop-daemon.sh start journalnode 啟動journalnode 行程（每個節點執行）

2）使用命令： hadoop-daemon.sh start namenode 啟動namenode 行程（master、slave1節點上執行）

3）使用命令：hadoop-daemon.sh start datanode 在所有節點上啟動datanode 行程

4）使用命令：start-yarn.sh 在master上啟動yarn

5）使用命令： hdfs zkfc -formatZK 在ZK上生成ha節點

6）使用命令： hadoop-daemon.sh start zkfc 啟動 DFSZKFailoverController行程，在master節點執行

a. 訪問HDFS的管理頁面

http://192.168.0.20:50070此處192.168.0.20為namenode節點的Active節點

http://192.168.0.21:50070 此處192.168.0.20為namenode節點的standby節點

3.3 驗證HDFS使用

使用命令：hdfs dfs -ls / 查看HDFS中檔案

使用命令：hdfs dfs -mkdir /input 在HDFS上創建目錄

使用命令：hdfs dfs -put ./test.txt /input 將本地檔案上傳到HDFS指定目錄

使用命令：hdfs dfs -get /input/test.txt ./tmp 將HDFS檔案復制到本地目錄

使用命令：hdfs dfs -text /input/test.txt 查看HDFS上的文本檔案

web端瀏覽HDFS目錄

3.4 驗證MapReduce的wordcount案例

（1）先通過命令將帶有文本內容的test2.txt檔案上傳到HDFS

（2）對HDFS上test2.txt檔案執行wordcount統計，結果放回HDFS新目錄，命令：

hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out

4. Spark安裝與部署

4.1安裝Scala

（1）安裝scala

上傳scala壓縮包解壓，使用命令：

scala -version 查看當前環境變數下的scala 版本

（2）拷貝scala目錄和環境變數到其他兩臺機器

使用命令：

scp -r /usr/local/scala root@slave1:/usr/local/

scp /etc/profile root@slave1:/etc/profile

4.2安裝Spark

（1）上傳spark壓縮包解壓，修改組態檔

命令： vim
/usr/local/spark/spark-3.3.1/conf/spark-env.sh

（2）新建worker目錄，寫入master機器名稱

4.3啟動Spark

（1）在master的spark安裝目錄下啟動spark

命令：

cd /usr/local/spark/spark-3.3.1/sbin

./start-all.sh

（2）在slave1同樣目錄啟動master行程

命令：./start-master.sh

（3）訪問spark管理頁面ui

4.4 驗證Spark的wordcount案例

（1）執行命令：

cd /usr/local/spark/spark-3.3.1/bin

./spark-shell --master spark://master:7077

（3）從HDFS讀取資料執行自定義wordcount代碼，結果寫入HDFS，命令：

sc.textFile("hdfs://master:9000/input/test2.txt").flatMap(.split(" ")).map(word=>(word,1)).reduceByKey(+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://master:9000/spark_out")

（4）輸出結果：

5. 后記

大資料技術日新月異，得益于互聯網技術加持下的商業和工業模式變革，人們日益增長的對生活生產便捷性、數字化、智能化的需求，催生了資料爆炸式的增長，推動了大資料技術推陳出新，作為新時代的程式開發者，必須掌握一定的大資料基礎知識才能適應時代的要求，本文只是一個引子，從自身實踐的角度幫助初學者認識大資料，并基于此搭建自己屬于自己的開發環境，希望大家能夠在此基礎上繼續鉆研有所建樹，

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/544664.html

標籤：其他

上一篇：挖礦僵尸網路蠕蟲病毒kdevtmpfsi處理程序

下一篇：為什么使用資料庫、資料庫的常用概念DB DBMS SQL、常見的資料庫排名、Mysql的安裝與卸載（windows上）、Mysql5.7和Mysql8.0的區別

Hadoop 及Spark 分布式HA運行環境搭建

作者：京東物流 秦彪