文章目錄

1 Hadoop 概述
- 1.1 Hadoop 是什么
- 1.2 Hadoop 優勢
- 1.3 Hadoop 組成（面試重點）
- - 1.3.1 HDFS 架構概述
  - 1.3.2 YARN 架構概述
  - 1.3.3 MapReduce 架構概述
  - 1.3.4 HDFS、YARN、MapReduce 三者關系
  - 1.3.5 大資料技術生態體系
  - 1.3.6 推薦系統框架圖
2 Hadoop 運行環境搭建（開發重點）
- 2.1 模板虛擬機環境準備
- 2.2 克隆虛擬機
- 2.3 在 hadoop102 安裝 JDK
- 2.4 在 hadoop102 安裝 Hadoop
- 2.5 Hadoop 目錄結構
3 Hadoop 運行模式
- 3.1 撰寫集群分發腳本 xsync
- 3.2 SSH 無密登錄配置
- 3.3 集群配置
- 3.4 群起集群
- 3.5 配置歷史服務器
- 3.6 配置日志的聚集
- 3.7 集群啟動/停止方式總結
- 3.8 撰寫 Hadoop集群常用腳本
- 3.9 常用埠號說明

1 Hadoop 概述

1.1 Hadoop 是什么

（1）Hadoop是一個由Apache基金會所開發的分布式系統基礎架構
（2）主要解決海量資料的存盤和海量資料的分析計算問題
（3）廣義上來說，Hadoop通常是指一個更廣泛的概念——Hadoop生態圈

1.2 Hadoop 優勢

（1）高可靠性：Hadoop底層維護多個資料副本，所以即使Hadoop某個計算元素或存盤出現故障，也不會導致資料的丟失，
（2）高擴展性：在集群間分配任務資料，可方便的擴展數以千計的節點，
（3）高效性：在MapReduce的思想下，Hadoop是并行作業的，以加快任務處理速度，
（4）高容錯性：能夠自動將失敗的任務重新分配，

1.3 Hadoop 組成（面試重點）

在這里插入圖片描述
在Hadoop1.x 時代，Hadoop中的MapReduce同時處理業務邏輯運算和資源的調度，耦合性較大，
在Hadoop2.x時代，增加了Yarn，Yarn只負責資源的調度，MapReduce 只負責運算，
Hadoop3.x在組成上沒有變化，

1.3.1 HDFS 架構概述

Hadoop Distributed File System，簡稱HDFS，是一個分布式檔案系統，

（1）NameNode（nn）：存盤檔案的元資料，如檔案名，檔案目錄結構，檔案屬性（生成時間、副本數、檔案權限），以及每個檔案的塊串列和塊所在的DataNode等，
（2）DataNode(dn)：在本地檔案系統存盤檔案塊資料，以及塊資料的校驗和，
（3）Secondary NameNode(2nn)：每隔一段時間對NameNode元資料備份，

1.3.2 YARN 架構概述

Yet Another Resource Negotiator 簡稱YARN ，另一種資源協調者，是Hadoop 的資源管理器，
在這里插入圖片描述

ResourceManager(RM)：整個集群資源（記憶體、CPU等）的管理者
NodeManager(NM)：單個節點服務器資源的管理者，
ApplicationMaster(AM)：單個任務運行的管理者，
Container：容器，相當于一臺獨立的服務器，里面封裝了任務運行所需要的資源，如記憶體、CPU、磁盤、網路等，

說明：
（1）客戶端可以有多個
（2）集群上可以運行多個ApplicationMaster
（3）每個NodeManager上可以有多個Container

1.3.3 MapReduce 架構概述

MapReduce 將計算程序分為兩個階段：Map 和Reduce
1）Map 階段并行處理輸入資料
2）Reduce 階段對Map 結果進行匯總
在這里插入圖片描述

1.3.4 HDFS、YARN、MapReduce 三者關系

如圖所示：
在這里插入圖片描述

1.3.5 大資料技術生態體系

如圖所示：
在這里插入圖片描述
圖中涉及的技術名詞解釋如下：

（1）Sqoop：Sqoop 是一款開源的工具，主要用于在Hadoop、Hive 與傳統的資料庫（MySQL）間進行資料的傳遞，可以將一個關系型資料庫（例如：MySQL，Oracle 等）中的資料導進到Hadoop 的HDFS 中，也可以將HDFS 的資料導進到關系型資料庫中，
（2）Flume：Flume 是一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統，Flume 支持在日志系統中定制各類資料發送方，用于收集資料，
（3）Kafka：Kafka 是一種高吞吐量的分布式發布訂閱訊息系統，
（4）Spark：Spark 是當前最流行的開源大資料記憶體計算框架，可以基于Hadoop 上存盤的大資料進行計算，
（5）Flink：Flink 是當前最流行的開源大資料記憶體計算框架，用于實時計算的場景較多，
（6）Oozie：Oozie 是一個管理Hadoop 作業（job）的作業流程調度管理系統，
（7）Hbase：HBase 是一個分布式的、面向列的開源資料庫，HBase 不同于一般的關系資料庫，它是一個適合于非結構化資料存盤的資料庫，
（8）Hive：Hive 是基于Hadoop 的一個資料倉庫工具，可以將結構化的資料檔案映射為一張資料庫表，并提供簡單的SQL 查詢功能，可以將SQL 陳述句轉換為MapReduce 任務進行運行，其優點是學習成本低，可以通過類SQL 陳述句快速實作簡單的MapReduce 統計，不必開發專門的MapReduce 應用，十分適合資料倉庫的統計分析，
（9）ZooKeeper：它是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等，

1.3.6 推薦系統框架圖

推薦系統專案框架
在這里插入圖片描述

2 Hadoop 運行環境搭建（開發重點）

2.1 模板虛擬機環境準備

2.1.1 hadoop100 虛擬機配置要求如下

（1）使用 yum 安裝需要虛擬機可以正常上網，yum 安裝前可以先測驗下虛擬機聯網情況

[root@hadoop100 ~]# ping www.baidu.com

（2）安裝epel-release

[root@hadoop100 ~]# yum install -y epel-release

（3）注意：如果Linux 安裝的是最小系統版，還需要安裝如下工具；如果安裝的是Linux桌面標準版，不需要執行如下操作
net-tool：工具包集合，包含ifconfig 等命令
vim：編輯器

[root@hadoop100 ~]# yum install -y net-tools
[root@hadoop100 ~]# yum install -y vim

2.1.2 關閉防火墻，關閉防火墻開機自啟

[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service

2.1.3 創建普通用戶，并修改普通用戶的密碼

[root@hadoop100 ~]# useradd Tom
[root@hadoop100 ~]# passwd Tom

2.1.4 配置普通用戶具有 root 權限，方便后期加sudo 執行 root 權限的命令

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers 檔案，在%wheel 這行下面添加一行，如下所示：
在這里插入圖片描述
注意：Tom這一行不要直接放到 root行下面，因為所有用戶都屬于 wheel組，你先配置了Tom具有免密功能，但是程式執行到 %wheel行時，該功能又被覆寫回需要密碼，所以Tom要放到 %wheel這行下面，

2.1.5 在 /opt目錄下創建檔案夾，并修改所屬用戶和所屬組
在這里插入圖片描述
2.1.6 卸載虛擬機自帶的 JDK

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

rpm -qa：查詢所安裝的所有rpm軟體包
grep -i：忽略大小寫
xargs -n1：表示每次只傳遞一個引數
rpm -e --nodeps：強制卸載軟體
注意：注意：如果你的虛擬機是最小化安裝不需要執行這一步，

2.1.7 重啟虛擬機

[root@hadoop100 ~]# reboot

2.2 克隆虛擬機

2.2.1 利用模板機 hadoop100，克隆三臺虛擬機 hadoop102 hadoop103 hadoop104

注意：克隆時，要先關閉 hadoop100

2.2.2 修改克隆機 IP，以 hadoop102 舉例說明

（1）修改克隆虛擬機的靜態 IP：

[Tom@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

在這里插入圖片描述
（2）查看 Linux虛擬機的虛擬網路編輯器，編輯 ->虛擬網路編輯器 ->VMnet8

（3）查看 Windows系統配接器 VMware Network Adapter VMnet8的 IP地址

在這里插入圖片描述
（4）保證 Linux系統 ifcfg-ens33檔案中 IP地址、虛擬網路編輯器地址和 Windows系統 VMnet8網路 IP地址相同，

2.2.3 修改克隆機主機名，以 hadoop102舉例說明

（1）修改主機名稱

[root@hadoop100 ~]# vim /etc/hostname

（2）配置 Linux克隆機主機名稱映射 hosts檔案打開 /etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

在這里插入圖片描述
2.2.4 重啟克隆機 hadoop102

[root@hadoop100 ~]# reboot

2.2.5 修改 windows的主機映射檔案(hosts檔案)

進入C:\Windows\System32\drivers\etc路徑，打開 hosts檔案并添加如下內容，然后保存，
在這里插入圖片描述

2.3 在 hadoop102 安裝 JDK

（1）卸載現有 JDK
注意：安裝 JDK前，一定確保提前洗掉了虛擬機自帶的 JDK，

（2）用 XShell傳輸工具將 JDK匯入到 opt目錄下面的 software檔案夾下面

（3）在 Linux系統下的 opt目錄中查看軟體包是否匯入成功

[Tom@hadoop102 ~]$ ls /opt/software/
jdk-8u212-linux-x64.tar.gz

（4）解壓 JDK到 /opt/module目錄下

[Tom@hadoop102 software]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

（5）配置 JDK環境變數

[Tom@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh

在這里插入圖片描述
source一下 /etc/profile檔案，讓新的環境變數 PATH生效

[Tom@hadoop102 software]$ source /etc/profile

測驗JDK是否安裝成功

[Tom@hadoop102 software]$ java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)
[Tom@hadoop102 software]$

2.4 在 hadoop102 安裝 Hadoop

（1）用 XShell檔案傳輸工具將 hadoop-3.1.3.tar.gz匯入到 opt目錄下面的 software檔案夾下面

（2）解壓安裝檔案到 /opt/module下面

[Tom@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

（3）查看是否解壓成功

[Tom@hadoop102 software]$ ls /opt/module/
hadoop-3.1.3  jdk1.8.0_212

（4）將 Hadoop添加到環境變數

[Tom@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh

在這里插入圖片描述
讓修改后的檔案生效

[Tom@hadoop102 software]$ source /etc/profile

（5）測驗是否安裝成功

[Tom@hadoop102 software]$ hadoop version
Hadoop 3.1.3
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
Compiled by ztang on 2019-09-12T02:47Z
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar
[Tom@hadoop102 software]$

（6）重啟如果 Hadoop命令不能用再重啟虛擬機

[Tom@hadoop102 hadoop-3.1.3]$ sudo reboot

2.5 Hadoop 目錄結構

查看 Hadoop目錄結構

[Tom@hadoop102 hadoop-3.1.3]$ ll
總用量 184
-rw-rw-r--. 1 Tom Tom     25 5月  28 16:49 a.txt
drwxr-xr-x. 2 Tom Tom    183 9月  12 2019 bin
drwxrwxr-x. 4 Tom Tom     37 5月  29 10:54 data
drwxr-xr-x. 3 Tom Tom     20 9月  12 2019 etc
drwxrwxr-x. 3 Tom Tom     18 5月  29 10:53 hdfsdata
drwxr-xr-x. 2 Tom Tom    106 9月  12 2019 include
drwxr-xr-x. 3 Tom Tom     20 9月  12 2019 lib
drwxr-xr-x. 4 Tom Tom    288 9月  12 2019 libexec
-rw-rw-r--. 1 Tom Tom 147145 9月   4 2019 LICENSE.txt
drwxrwxr-x. 3 Tom Tom   4096 5月  29 15:36 logs
-rw-rw-r--. 1 Tom Tom  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 Tom Tom   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 Tom Tom   4096 9月  12 2019 sbin
drwxr-xr-x. 4 Tom Tom     31 9月  12 2019 share
drwxrwxr-x. 2 Tom Tom     22 5月   6 22:23 wcinput
[Tom@hadoop102 hadoop-3.1.3]$

重要目錄

（1） bin目錄：存放對 Hadoop相關服務（ hdfs yarn mapred）進行操作的腳本
（2）etc目錄： Hadoop的組態檔目錄，存放 Hadoop的組態檔
（3） lib目錄：存放 Hadoop的本地庫（對資料進行壓縮解壓縮功能）
（4） sbin目錄：存放啟動或停止 Hadoop相關服務的腳本
（5） share目錄：存放 Hadoop的依賴 jar包、檔案和官方案例

3 Hadoop 運行模式

Hadoop官方網站： http://hadoop.apache.org/

Hadoop運行模式包括：本地模式 、偽分布式模式以及完全分布式模式

本地模式：單機運行，只是用來演示一下官方案例，生產環境不用，
偽分布式模式：也是單機運行，但是具備 Hadoop集群的所有功能，一臺服務器模擬一個分布式的環境，個別缺錢的公司用來測驗，生產環境不用，
完全分布式模式：多臺服務器組成分布式環境，生產環境使用，

完全分布式模式搭建步驟：
（1）準備 3臺客戶機（關閉防火墻、靜態 IP、主機名稱）
（2）安裝 JDK
（3）配置環境變數
（4）安裝 Hadoop
（5）配置環境變數
（6）配置集群
（7）單點啟動
（8）配置ssh
（9）群起并測驗集群

3.1 撰寫集群分發腳本 xsync

（1）scp (secure copy)：安全拷貝

scp可以實作服務器與服務器之間的資料拷貝，(from server1 to server2)
基本語法:
在這里插入圖片描述
（2）rsync遠程同步工具

rsync主要用于備份和鏡像，具有速度快、避免復制相同內容和支持符號鏈接的優點，
rsync和 scp區別：用 rsync做檔案的復制要比 scp的速度快， rsync只對差異檔案做更新， scp是把所有檔案都復制過去，
基本語法:
在這里插入圖片描述
（3）xsync集群分發腳本

需求：回圈復制檔案到所有節點的相同目錄下

需求分析：
rsync命令原始拷貝：

rsync -av /opt/module/ Tom@hadoop103:/opt/

期望腳本：xsync要同步的檔案名稱
期望腳本在任何路徑都能使用（腳本放在宣告了全域環境變數的路徑）

[Tom@hadoop102 bin]$ echo $PATH

腳本實作：在 /home/Tom/bin目錄下創建 xsync檔案

#!/bin/bash

#1. 判斷引數個數
if [ $# -lt 1 ]
then
        echo Not Enough Arguement!
        exit;
fi

#2. 遍歷集群所有機器
for host in hadoop102 hadoop103 hadoop104
do
        echo ==================== $host ====================
        #3. 遍歷所有目錄，挨個發送

        for file in $@
        do
                #4. 判斷檔案是否存在
                if [ -e $file ]
                        then
                                #5. 獲取父目錄
                                pdir=$(cd -P $(dirname $file); pwd)

                                #6. 獲取當前檔案的名稱
                                fname=$(basename $file)
                                ssh $host "mkdir -p $pdir"
                                rsync -av $pdir/$fname $host:$pdir
                        else
                                echo $file does not exists!
                fi
        done
done

修改腳本 xsync 具有執行權限：

[Tom@hadoop102 bin]$ chmod +x xsync

測驗腳本：

[Tom@hadoop102 bin]$ xsync /home/Tom/bin/

將腳本復制到 /bin中，以便全域呼叫：

[Tom@hadoop102 bin]$ sudo cp xsync /bin/

同步環境變數配置( root所有者）
注意：如果用了 sudo，那么 xsync一定要給它的路徑補全，

[Tom@hadoop102 ~]$ sudo ./bin/xsync

讓環境變數生效：

[Tom@hadoop103 ~]$ source /etc/profile
[Tom@hadoop104 ~]$ source /etc/profile

3.2 SSH 無密登錄配置

配置 ssh
基本語法：ssh 另一臺電腦的 IP地址

無密鑰配置

免密登錄原理：
在這里插入圖片描述
生成公鑰和私鑰

[Tom@hadoop102 .ssh]$ pwd
/home/Tom/.ssh

[Tom@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三個回車），就會生成兩個檔案id_rsa（私鑰）、id_rsa.pub（公鑰）

將公鑰拷貝到要免密登錄的目標機器上

[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop102
[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop103
[Tom@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意：還需要在hadoop103 上采用 Tom賬號配置一下無密登錄到hadoop102、hadoop103、hadoop104 服務器上，
在hadoop104 上采用 Tom賬號配置一下無密登錄到hadoop102、hadoop103、hadoop104 服務器上，
在hadoop102 上采用root 賬號，配置一下無密登錄到hadoop102、hadoop103、hadoop104，

.ssh 檔案夾下（~/.ssh）的檔案功能解釋
在這里插入圖片描述

3.3 集群配置

集群部署規劃

（1）NameNode和 SecondaryNameNode不要安裝在同一臺服務器，
（2）ResourceManager也很消耗記憶體，不要和 NameNode、SecondaryNameNode配置在同一臺機器上，
在這里插入圖片描述
組態檔說明

Hadoop組態檔分兩類：默認組態檔和自定義組態檔，只有用戶想修改某一默認配置值時，才需要修改自定義組態檔，更改相應屬性值，

（1）默認組態檔
在這里插入圖片描述
（2）自定義組態檔

core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml四個組態檔存放在$HADOOP_HOME/etc/hadoop這個路徑上，用戶可以根據專案需求重新進行修改配置，

配置集群

（1）核心組態檔配置core-site.xml

[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

<configuration>
<!--指定NameNode的地址-->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
</property>

<!--指定hadoop資料的存盤目錄-->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
</property>

<!--配置HDFS網頁登錄使用的靜態用戶為Tom -->
<property>
        <name>hadoop.http.staticuser.user</name>
<value>Tom</value>
</property>
</configuration>

（2）HDFS組態檔配置 hdfs-site.xml

[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml

<configuration>
        <!--nn web端訪問地址-->
        <property>
                <name>dfs.namenode.http-address</name>
                <value>hadoop102:9870</value>
        </property>
        <!--2nn web端訪問地址-->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop104:9868</value>
        </property>
</configuration>

（3）YARN組態檔配置 yarn-site.xml

[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

<configuration>
        <!--指定MR走shuffle -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <!--指定ResourceManager的地址-->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop103</value>
        </property>
        <!--環境變數的繼承-->
        <property>
                <name>yarn.nodemanager.env-whitelist</name>
                <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
        </property>
</configuration>

（4）MapReduce組態檔配置 mapred-site.xml

[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

<configuration>
    <!--指定MapReduce程式運行在Yarn上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

在集群上分發配置好的 Hadoop組態檔

[Tom@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

去 103和 104上查看檔案分發情況

[Tom@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml 
[Tom@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

3.4 群起集群

配置 workers

[Tom@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在該檔案中增加如下內容：

hadoop102
hadoop103
hadoop104

同步所有節點組態檔

[Tom@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/

啟動集群

（1）如果集群是第一次啟動，需要在 hadoop102節點格式化 NameNode（注意格式化 NameNode會產生新的集群 id導致 NameNode和 DataNode的集群 id不一致，集群找不到已往資料，如果集群在運行程序中報錯，需要重新格式化 NameNode的話，一定要先停止 namenode和 datanode行程，并且要洗掉所有機器的 data和 logs目錄，然后再進行格式化，）

[Tom@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

（2）啟動 HDFS

[Tom@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

（3）在配置了 ResourceManager的節點 hadoop103 啟動 YARN

[Tom@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

（4）Web端查看 HDFS的 NameNode
（a）瀏覽器中輸入 http://hadoop102:9870
（b）查看 HDFS上存盤的資料資訊
在這里插入圖片描述
（5）Web端查看 YARN的 ResourceManager
（a）瀏覽器中輸入 http://hadoop103:8088
（b）查看 YARN上運行的 Job資訊

集群基本測驗

（1）上傳檔案到集群

[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -put wcinput/ /input
[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /

（2）上傳檔案后查看檔案存放在什么位置
查看檔案存盤路徑

[Tom@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-572133316-192.168.10.102-1623663396433/current/finalized/subdir0/subdir0
[Tom@hadoop102 subdir0]$

查看 HDFS在磁盤存盤檔案內容

[Tom@hadoop102 subdir0]$ cat blk_1073741825
yes
ok
thanks
ok
you
yes
yes
[Tom@hadoop102 subdir0]$

（3）拼接

[Tom@hadoop102 subdir0]$ cat blk_1073741826>>tmp.tar.gz
[Tom@hadoop102 subdir0]$ cat blk_1073741827>>tmp.tar.gz
[Tom@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

（4）下載

[Tom@hadoop102 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

3.5 配置歷史服務器

為了查看程式的歷史運行情況，需要配置一下歷史服務器，具體配置步驟如下：

配置 mapred-site.xml

[Tom@hadoop102 hadoop-3.1.3]$ vim etc/hadoop/mapred-site.xml

 <!--歷史服務器端地址-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop102:10020</value>
    </property>
    <!--歷史服務器web端地址-->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop102:19888</value>
    </property>

分發配置

[Tom@hadoop102 hadoop-3.1.3]$ xsync etc/hadoop/mapred-site.xml

在 hadoop102啟動歷史服務器

[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver

查看歷史服務器是否啟動

[Tom@hadoop102 hadoop-3.1.3]$ jps

查看 JobHistory

http://hadoop102:19888/jobhistory

3.6 配置日志的聚集

日志聚集概念：應用運行完成以后，將程式運行日志資訊上傳到 HDFS系統上，
在這里插入圖片描述
日志聚集功能好處：可以方便的查看到程式運行詳情，方便開發除錯，
開啟日志聚集功能需要重新啟動 NodeManager 、ResourceManager和HistoryServer，

開啟日志聚集功能具體步驟如下:
（1）配置 yarn-site.xml

[Tom@hadoop102 hadoop-3.1.3]$ vim etc/hadoop/yarn-site.xml

<!--開啟日志聚集功能-->
        <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
        </property>
        <!--設定日志聚集服務器地址-->
        <property>
                <name>yarn.log.server.url</name>
                <value>http://hadoop102:19888/jobhistory/logs</value>
        </property>
        <!--設定日志保留時間為7天-->
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>604800</value>
        </property>

（2）分發配置

[Tom@hadoop103 hadoop-3.1.3]$ xsync etc/hadoop/yarn-site.xml

（3）關閉 NodeManager 、 ResourceManager和 HistoryServer

[Tom@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver

（4）啟動 NodeManager 、 ResourceManage和 HistoryServer

[Tom@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
[Tom@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver

（5）洗掉 HDFS上已經存在的輸出檔案

[Tom@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /output

（6）執行 WordCount程式

[Tom@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

（7）查看日志

歷史服務器地址：http://hadoop102:19888/jobhistory
歷史任務串列：
在這里插入圖片描述
查看任務運行日志：

運行日志詳情：

3.7 集群啟動/停止方式總結

各個模塊分開啟動 /停止(配置 ssh是前提)常用
（1）整體啟動 /停止 HDFS

start dfs.sh/stop dfs.sh

（2）整體啟動 /停止 YARN

start yarn.sh/stop yarn.sh

各個服務組件逐一啟動 /停止
（1）分別啟動 /停止 HDFS組件

hdfs daemon start/stop namenode/datanode/secondarynamenode

（2）啟動 /停止 YARN

yarn daemon start/stop resourcemanager/nodemanager

3.8 撰寫 Hadoop集群常用腳本

Hadoop集群啟停腳本(包含 HDFS, Yarn, Historyserver) : myhadoop.sh

[Tom@hadoop102 hadoop-3.1.3]$ cd /home/Tom/bin/
[Tom@hadoop102 bin]$ vim myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
        echo "No Args Input..."
        exit ;
fi

case $1 in
"start")
        echo " =================== 啟動hadoop集群==================="
        echo " ---------------啟動hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " ---------------啟動yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " ---------------啟動historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 關閉hadoop集群==================="
        echo " ---------------關閉historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " ---------------關閉yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " ---------------關閉hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
        echo "Input Args Error..."
;;
esac

保存后退出，然后賦予腳本執行權限

[Tom@hadoop102 bin]$ chmod +x myhadoop.sh

查看三臺服務器 Java行程腳本： jpsall.sh

[Tom@hadoop102 hadoop-3.1.3]$ cd /home/Tom/bin/
[Tom@hadoop102 bin]$ vim jpsall.sh

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps
done