文章目錄
- 1 Hadoop 概述
- 1.1 Hadoop 是什么
- 1.2 Hadoop 優勢
- 1.3 Hadoop 組成(面試重點)
- 1.3.1 HDFS 架構概述
- 1.3.2 YARN 架構概述
- 1.3.3 MapReduce 架構概述
- 1.3.4 HDFS、YARN、MapReduce 三者關系
- 1.3.5 大資料技術生態體系
- 1.3.6 推薦系統框架圖
- 2 Hadoop 運行環境搭建(開發重點)
- 2.1 模板虛擬機環境準備
- 2.2 克隆虛擬機
- 2.3 在 hadoop102 安裝 JDK
- 2.4 在 hadoop102 安裝 Hadoop
- 2.5 Hadoop 目錄結構
- 3 Hadoop 運行模式
- 3.1 撰寫集群分發腳本 xsync
- 3.2 SSH 無密登錄配置
- 3.3 集群配置
- 3.4 群起集群
- 3.5 配置歷史服務器
- 3.6 配置日志的聚集
- 3.7 集群啟動/停止方式總結
- 3.8 撰寫 Hadoop集群常用腳本
- 3.9 常用埠號說明
1 Hadoop 概述
1.1 Hadoop 是什么
(1)Hadoop是一個由Apache基金會所開發的分布式系統基礎架構
(2)主要解決海量資料的存盤和海量資料的分析計算問題
(3)廣義上來說,Hadoop通常是指一個更廣泛的概念——Hadoop生態圈
1.2 Hadoop 優勢
(1)高可靠性:Hadoop底層維護多個資料副本,所以即使Hadoop某個計算元素或存盤出現故障,也不會導致資料的丟失,
(2)高擴展性:在集群間分配任務資料,可方便的擴展數以千計的節點,
(3)高效性:在MapReduce的思想下,Hadoop是并行作業的,以加快任務處理速度,
(4)高容錯性:能夠自動將失敗的任務重新分配,
1.3 Hadoop 組成(面試重點)

在Hadoop1.x 時代,Hadoop中的MapReduce同時處理業務邏輯運算和資源的調度,耦合性較大,
在Hadoop2.x時代,增加了Yarn,Yarn只負責資源的調度,MapReduce 只負責運算,
Hadoop3.x在組成上沒有變化,
1.3.1 HDFS 架構概述
Hadoop Distributed File System,簡稱HDFS,是一個分布式檔案系統,
(1)NameNode(nn):存盤檔案的元資料,如檔案名,檔案目錄結構,檔案屬性(生成時間、副本數、檔案權限),以及每個檔案的塊串列和塊所在的DataNode等,
(2)DataNode(dn):在本地檔案系統存盤檔案塊資料,以及塊資料的校驗和,
(3)Secondary NameNode(2nn):每隔一段時間對NameNode元資料備份,
1.3.2 YARN 架構概述
Yet Another Resource Negotiator 簡稱YARN ,另一種資源協調者,是Hadoop 的資源管理器,

ResourceManager(RM):整個集群資源(記憶體、CPU等)的管理者
NodeManager(NM):單個節點服務器資源的管理者,
ApplicationMaster(AM):單個任務運行的管理者,
Container:容器,相當于一臺獨立的服務器,里面封裝了任務運行所需要的資源,如記憶體、CPU、磁盤、網路等,
說明:
(1)客戶端可以有多個
(2)集群上可以運行多個ApplicationMaster
(3)每個NodeManager上可以有多個Container
1.3.3 MapReduce 架構概述
MapReduce 將計算程序分為兩個階段:Map 和Reduce
1)Map 階段并行處理輸入資料
2)Reduce 階段對Map 結果進行匯總

1.3.4 HDFS、YARN、MapReduce 三者關系
如圖所示:

1.3.5 大資料技術生態體系
如圖所示:

圖中涉及的技術名詞解釋如下:
(1)Sqoop:Sqoop 是一款開源的工具,主要用于在Hadoop、Hive 與傳統的資料庫(MySQL)間進行資料的傳遞,可以將一個關系型資料庫(例如 :MySQL,Oracle 等)中的資料導進到Hadoop 的HDFS 中,也可以將HDFS 的資料導進到關系型資料庫中,
(2)Flume:Flume 是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume 支持在日志系統中定制各類資料發送方,用于收集資料,
(3)Kafka:Kafka 是一種高吞吐量的分布式發布訂閱訊息系統,
(4)Spark:Spark 是當前最流行的開源大資料記憶體計算框架,可以基于Hadoop 上存盤的大資料進行計算,
(5)Flink:Flink 是當前最流行的開源大資料記憶體計算框架,用于實時計算的場景較多,
(6)Oozie:Oozie 是一個管理Hadoop 作業(job)的作業流程調度管理系統,
(7)Hbase:HBase 是一個分布式的、面向列的開源資料庫,HBase 不同于一般的關系資料庫,它是一個適合于非結構化資料存盤的資料庫,
(8)Hive:Hive 是基于Hadoop 的一個資料倉庫工具,可以將結構化的資料檔案映射為一張資料庫表,并提供簡單的SQL 查詢功能,可以將SQL 陳述句轉換為MapReduce 任務進行運行,其優點是學習成本低,可以通過類SQL 陳述句快速實作簡單的MapReduce 統計,不必開發專門的MapReduce 應用,十分適合資料倉庫的統計分析,
(9)ZooKeeper:它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等,
1.3.6 推薦系統框架圖
推薦系統專案框架

2 Hadoop 運行環境搭建(開發重點)
2.1 模板虛擬機環境準備
2.1.1 hadoop100 虛擬機配置要求如下
(1)使用 yum 安裝需要虛擬機可以正常上網,yum 安裝前可以先測驗下虛擬機聯網情況
[root@hadoop100 ~]# ping www.baidu.com
(2)安裝epel-release
[root@hadoop100 ~]# yum install -y epel-release
(3)注意:如果Linux 安裝的是最小系統版,還需要安裝如下工具;如果安裝的是Linux桌面標準版,不需要執行如下操作
net-tool:工具包集合,包含ifconfig 等命令
vim:編輯器
[root@hadoop100 ~]# yum install -y net-tools
[root@hadoop100 ~]# yum install -y vim
2.1.2 關閉防火墻,關閉防火墻開機自啟
[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service
2.1.3 創建普通用戶,并修改普通用戶的密碼
[root@hadoop100 ~]# useradd Tom
[root@hadoop100 ~]# passwd Tom
2.1.4 配置普通用戶具有 root 權限,方便后期加sudo 執行 root 權限的命令
[root@hadoop100 ~]# vim /etc/sudoers
修改/etc/sudoers 檔案,在%wheel 這行下面添加一行,如下所示:

注意:Tom這一行不要直接放到 root行下面,因為所有用戶都屬于 wheel組,你先配置了Tom具有免密功能,但是程式執行到 %wheel行時, 該功能又被覆寫回需要密碼 ,所以Tom要放到 %wheel這行下面,
2.1.5 在 /opt目錄下創建檔案夾 ,并修改所屬用戶和所屬組

2.1.6 卸載虛擬機自帶的 JDK
[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
rpm -qa:查詢所安裝的所有rpm軟體包
grep -i:忽略大小寫
xargs -n1:表示每次只傳遞一個引數
rpm -e --nodeps:強制卸載軟體
注意:注意:如果你的虛擬機是最小化安裝不需要執行這一步,
2.1.7 重啟虛擬機
[root@hadoop100 ~]# reboot
2.2 克隆虛擬機
2.2.1 利用模板機 hadoop100,克隆 三臺虛擬機 hadoop102 hadoop103 hadoop104
注意:克隆時,要先關閉 hadoop100
2.2.2 修改克隆機 IP,以 hadoop102 舉例說明
(1)修改克隆虛擬機的靜態 IP:
[Tom@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

(2)查看 Linux虛擬機的虛擬網路編輯器,編輯 ->虛擬網路編輯器 ->VMnet8


(3)查看 Windows系統配接器 VMware Network Adapter VMnet8的 IP地址

(4)保證 Linux系統 ifcfg-ens33檔案中 IP地址、虛擬網路編輯器地址和 Windows系統 VMnet8網路 IP地址相同,
2.2.3 修改克隆機主機名 ,以 hadoop102舉例說明
(1)修改主機名稱
[root@hadoop100 ~]# vim /etc/hostname
(2)配置 Linux克隆機主機名稱映射 hosts檔案 打開 /etc/hosts
[root@hadoop100 ~]# vim /etc/hosts

2.2.4 重啟克隆機 hadoop102
[root@hadoop100 ~]# reboot
2.2.5 修改 windows的主機映射檔案(hosts檔案)
進入C:\Windows\System32\drivers\etc路徑,打開 hosts檔案并添加如下內容 ,然后保存,

2.3 在 hadoop102 安裝 JDK
(1)卸載現有 JDK
注意:安裝 JDK前,一定確保提前洗掉了虛擬機自帶的 JDK,
(2)用 XShell傳輸工具將 JDK匯入到 opt目錄下面的 software檔案夾下面
(3)在 Linux系統下的 opt目錄中查看軟體包是否匯入成功
[Tom@hadoop102 ~]$ ls /opt/software/
jdk-8u212-linux-x64.tar.gz
(4)解壓 JDK到 /opt/module目錄下
[Tom@hadoop102 software]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
(5)配置 JDK環境變數
[Tom@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh

source一下 /etc/profile檔案 ,讓新的環境變數 PATH生效
[Tom@hadoop102 software]$ source /etc/profile
測驗JDK是否安裝成功
[Tom@hadoop102 software]$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)
[Tom@hadoop102 software]$
2.4 在 hadoop102 安裝 Hadoop
(1)用 XShell檔案傳輸 工具將 hadoop-3.1.3.tar.gz匯入到 opt目錄下面的 software檔案夾下面
(2)解壓安裝檔案到 /opt/module下面
[Tom@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
(3)查看是否解壓成功
[Tom@hadoop102 software]$ ls /opt/module/
hadoop-3.1.3 jdk1.8.0_212
(4)將 Hadoop添加到環境變數
[Tom@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh

讓修改后的檔案生效
[Tom@hadoop102 software]$ source /etc/profile
(5)測驗是否安裝成功
[Tom@hadoop102 software]$ hadoop version
Hadoop 3.1.3
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
Compiled by ztang on 2019-09-12T02:47Z
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar
[Tom@hadoop102 software]$
(6)重啟 如果 Hadoop命令不能用再重啟虛擬機
[Tom@hadoop102 hadoop-3.1.3]$ sudo reboot
2.5 Hadoop 目錄結構
查看 Hadoop目錄結構
[Tom@hadoop102 hadoop-3.1.3]$ ll
總用量 184
-rw-rw-r--. 1 Tom Tom 25 5月 28 16:49 a.txt
drwxr-xr-x. 2 Tom Tom 183 9月 12 2019 bin
drwxrwxr-x. 4 Tom Tom 37 5月 29 10:54 data
drwxr-xr-x. 3 Tom Tom 20 9月 12 2019 etc
drwxrwxr-x. 3 Tom Tom 18 5月 29 10:53 hdfsdata
drwxr-xr-x. 2 Tom Tom 106 9月 12 2019 include
drwxr-xr-x. 3 Tom Tom 20 9月 12 2019 lib
drwxr-xr-x. 4 Tom Tom 288 9月 12 2019 libexec
-rw-rw-r--. 1 Tom Tom 147145 9月 4 2019 LICENSE.txt
drwxrwxr-x. 3 Tom Tom 4096 5月 29 15:36 logs
-rw-rw-r--. 1 Tom Tom 21867 9月 4 2019 NOTICE.txt
-rw-rw-r--. 1 Tom Tom 1366 9月 4 2019 README.txt
drwxr-xr-x. 3 Tom Tom 4096 9月 12 2019 sbin
drwxr-xr-x. 4 Tom Tom 31 9月 12 2019 share
drwxrwxr-x. 2 Tom Tom 22 5月 6 22:23 wcinput
[Tom@hadoop102 hadoop-3.1.3]$
重要目錄
(1) bin目錄:存放對 Hadoop相關服務( hdfs yarn mapred)進行操作的腳本
(2)etc目錄: Hadoop的組態檔目錄,存放 Hadoop的組態檔
(3) lib目錄:存放 Hadoop的本地庫(對資料進行壓縮解壓縮功能)
(4) sbin目錄:存放啟動或停止 Hadoop相關服務的腳本
(5) share目錄:存放 Hadoop的依賴 jar包 、檔案和官方案例
3 Hadoop 運行模式
Hadoop官方網站: http://hadoop.apache.org/
Hadoop運行模 式包括:本地模式 、偽分布式模式以及完全分布式模式
本地模式:單機運行,只是用來演示一下官方案例, 生產環境不用,
偽分布式模式: 也是單機運行,但是具備 Hadoop集群的所有功能,一臺服務器模擬一個分布式的環境 ,個別缺錢的公司用來測驗,生產環境不用,
完全分布式模式: 多臺服務器組成分布式環境, 生產環境使用,
完全分布式模式搭建步驟:
(1)準備 3臺客戶機( 關閉防火墻、靜態 IP、主機名稱)
(2)安裝 JDK
(3)配置環境變數
(4)安裝 Hadoop
(5)配置環境變數
(6)配置集群
(7)單點啟動
(8)配置ssh
(9)群起并測驗集群
3.1 撰寫集群分發腳本 xsync
(1)scp (secure copy):安全拷貝
scp可以實作服務器與服務器之間的資料拷貝 ,(from server1 to server2)
基本語法:

(2)rsync遠程同步工具
rsync主要用于備份和鏡像,具有速度快、避免復制相同內容和支持符號鏈接的優點,
rsync和 scp區別: 用 rsync做檔案的復制要比 scp的速度快, rsync只對差異檔案做更新, scp是把所有檔案都復制過去,
基本語法:

(3)xsync集群分發腳本
需求:回圈復制檔案到所有節點的相同目錄下
需求分析:
rsync命令原始拷貝:
rsync -av /opt/module/ Tom@hadoop103:/opt/
期望腳本:xsync要同步的檔案名稱
期望腳本在任何路徑都能使用 (腳本放在宣告了全域環境變數的路徑)
[Tom@hadoop102 bin]$ echo $PATH
腳本實作:在 /home/Tom/bin目錄下創建 xsync檔案
#!/bin/bash
#1. 判斷引數個數
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍歷集群所有機器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍歷所有目錄,挨個發送
for file in $@
do
#4. 判斷檔案是否存在
if [ -e $file ]
then
#5. 獲取父目錄
pdir=$(cd -P $(dirname $file); pwd)
#6. 獲取當前檔案的名稱
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done
修改腳本 xsync 具有執行權限:
[Tom@hadoop102 bin]$ chmod +x xsync
測驗腳本:
[Tom@hadoop102 bin]$ xsync /home/Tom/bin/
將腳本復制到 /bin中,以便全域呼叫:
[Tom@hadoop102 bin]$ sudo cp xsync /bin/
同步環境變數配置( root所有者)
注意:如果用了 sudo,那么 xsync一定要給它的路徑補全,
[Tom@hadoop102 ~]$ sudo ./bin/xsync
讓環境變數生效:
[Tom@hadoop103 ~]$ source /etc/profile
[Tom@hadoop104 ~]$ source /etc/profile
3.2 SSH 無密登錄配置
配置 ssh
基本語法:ssh 另一臺電腦的 IP地址
無密鑰配置
免密登錄原理:

生成公鑰和私鑰
[Tom@hadoop102 .ssh]$ pwd
/home/Tom/.ssh
[Tom@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲(三個回車),就會生成兩個檔案id_rsa(私鑰)、id_rsa.pub(公鑰)
將公鑰拷貝到要免密登錄的目標機器上
[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop102
[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop103
[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop104
注意:還需要在hadoop103 上采用 Tom賬號配置一下無密登錄到hadoop102、hadoop103、hadoop104 服務器上,
在hadoop104 上采用 Tom賬號配置一下無密登錄到hadoop102、hadoop103、hadoop104 服務器上,
在hadoop102 上采用root 賬號,配置一下無密登錄到hadoop102、hadoop103、hadoop104,
.ssh 檔案夾下(~/.ssh)的檔案功能解釋

3.3 集群配置
集群部署規劃
(1)NameNode和 SecondaryNameNode不要安裝在同一臺服務器,
(2)ResourceManager也很消耗記憶體,不要和 NameNode、SecondaryNameNode配置在同一臺機器上,

組態檔說明
Hadoop組態檔分兩類:默認組態檔和自定義組態檔,只有用戶想修改某一默認配置值時,才需要修改自定義組態檔,更改相應屬性值,
(1)默認組態檔

(2)自定義組態檔
core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml四個組態檔存放在$HADOOP_HOME/etc/hadoop這個路徑上,用戶可以根據專案需求重新進行修改配置,
配置集群
(1)核心組態檔 配置core-site.xml
[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
<configuration>
<!--指定NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!--指定hadoop資料的存盤目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!--配置HDFS網頁登錄使用的靜態用戶為Tom -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>Tom</value>
</property>
</configuration>
(2)HDFS組態檔 配置 hdfs-site.xml
[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
<configuration>
<!--nn web端訪問地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!--2nn web端訪問地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
(3)YARN組態檔 配置 yarn-site.xml
[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml
<configuration>
<!--指定MR走shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!--環境變數的繼承-->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
(4)MapReduce組態檔 配置 mapred-site.xml
[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml
<configuration>
<!--指定MapReduce程式運行在Yarn上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
在集群上分發配置好的 Hadoop組態檔
[Tom@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/
去 103和 104上查看檔案分發情況
[Tom@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[Tom@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
3.4 群起集群
配置 workers
[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
在該檔案中增加如下內容:
hadoop102
hadoop103
hadoop104
同步所有節點組態檔
[Tom@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/
啟動集群
(1)如果集群是第一次啟動 ,需要在 hadoop102節點格式化 NameNode(注意格式化 NameNode會產生新的集群 id導致 NameNode和 DataNode的集群 id不一致,集群找不到已往資料, 如果集群在運行程序中報錯,需要重新格式化 NameNode的話, 一定要先停止 namenode和 datanode行程, 并且要洗掉所有機器的 data和 logs目錄,然后再進行格式化,)
[Tom@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
(2)啟動 HDFS
[Tom@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
(3)在配置了 ResourceManager的節點 hadoop103 啟動 YARN
[Tom@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
(4)Web端查看 HDFS的 NameNode
(a)瀏覽器中輸入 http://hadoop102:9870
(b)查看 HDFS上存盤的資料資訊

(5)Web端查看 YARN的 ResourceManager
(a)瀏覽器 中輸入 http://hadoop103:8088
(b)查看 YARN上運行的 Job資訊

集群基本測驗
(1)上傳檔案到集群
[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -put wcinput/ /input
[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
(2)上傳檔案后查看檔案存放在什么位置
查看檔案存盤路徑
[Tom@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-572133316-192.168.10.102-1623663396433/current/finalized/subdir0/subdir0
[Tom@hadoop102 subdir0]$
查看 HDFS在磁盤存盤檔案內容
[Tom@hadoop102 subdir0]$ cat blk_1073741825
yes
ok
thanks
ok
you
yes
yes
[Tom@hadoop102 subdir0]$
(3)拼接
[Tom@hadoop102 subdir0]$ cat blk_1073741826>>tmp.tar.gz
[Tom@hadoop102 subdir0]$ cat blk_1073741827>>tmp.tar.gz
[Tom@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz
(4)下載
[Tom@hadoop102 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
3.5 配置歷史服務器
為了查看程式的歷史運行情況,需要配置一下歷史服務器,具體配置步驟如下:
配置 mapred-site.xml
[Tom@hadoop102 hadoop-3.1.3]$ vim etc/hadoop/mapred-site.xml
<!--歷史服務器端地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
</property>
<!--歷史服務器web端地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
分發配置
[Tom@hadoop102 hadoop-3.1.3]$ xsync etc/hadoop/mapred-site.xml
在 hadoop102啟動歷史服務器
[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver
查看歷史服務器是否啟動
[Tom@hadoop102 hadoop-3.1.3]$ jps
查看 JobHistory
http://hadoop102:19888/jobhistory
3.6 配置日志的聚集
日志聚集概念:應用運行完成以后,將程式運行日志資訊上傳到 HDFS系統上,

日志聚集功能好處 :可以方便的查看到程式運行詳情,方便開發除錯 ,
開啟日志聚集功能需要重新啟動 NodeManager 、ResourceManager和HistoryServer,
開啟日志聚集功能具體步驟如下:
(1)配置 yarn-site.xml
[Tom@hadoop102 hadoop-3.1.3]$ vim etc/hadoop/yarn-site.xml
<!--開啟日志聚集功能-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!--設定日志聚集服務器地址-->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!--設定日志保留時間為7天-->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
(2)分發配置
[Tom@hadoop103 hadoop-3.1.3]$ xsync etc/hadoop/yarn-site.xml
(3)關閉 NodeManager 、 ResourceManager和 HistoryServer
[Tom@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver
(4)啟動 NodeManager 、 ResourceManage和 HistoryServer
[Tom@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver
(5)洗掉 HDFS上已經存在的輸出檔案
[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /output
(6)執行 WordCount程式
[Tom@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
(7)查看日志
歷史服務器地址:http://hadoop102:19888/jobhistory
歷史任務串列:

查看任務運行日志:

運行日志詳情:

3.7 集群啟動/停止方式總結
各個模塊分開啟動 /停止(配置 ssh是前提)常用
(1)整體啟動 /停止 HDFS
start dfs.sh/stop dfs.sh
(2)整體啟動 /停止 YARN
start yarn.sh/stop yarn.sh
各個服務組件逐一啟動 /停止
(1)分別啟動 /停止 HDFS組件
hdfs daemon start/stop namenode/datanode/secondarynamenode
(2)啟動 /停止 YARN
yarn daemon start/stop resourcemanager/nodemanager
3.8 撰寫 Hadoop集群常用腳本
Hadoop集群啟停腳本(包含 HDFS, Yarn, Historyserver) : myhadoop.sh
[Tom@hadoop102 hadoop-3.1.3]$ cd /home/Tom/bin/
[Tom@hadoop102 bin]$ vim myhadoop.sh
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 啟動hadoop集群==================="
echo " ---------------啟動hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
echo " ---------------啟動yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
echo " ---------------啟動historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
echo " =================== 關閉hadoop集群==================="
echo " ---------------關閉historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
echo " ---------------關閉yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
echo " ---------------關閉hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac
保存后退出,然后賦予腳本執行權限
[Tom@hadoop102 bin]$ chmod +x myhadoop.sh
查看三臺服務器 Java行程腳本: jpsall.sh
[Tom@hadoop102 hadoop-3.1.3]$ cd /home/Tom/bin/
[Tom@hadoop102 bin]$ vim jpsall.sh
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done
保存后退出,然后賦予腳本執行權限
[Tom@hadoop102 bin]$ chmod +x jpsall.sh
分發 /home/Tom/bin目錄,保證自定義腳本在三臺機器上都可以使用
[Tom@hadoop102 bin]$ xsync /home/Tom/bin/
3.9 常用埠號說明

參考:
https://www.bilibili.com/video/BV1Qp4y1n7ENspm_id_from=333.788.b_636f6d6d656e74.7
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/287901.html
標籤:其他
