Hadoop集群部署

前言
一、虛擬環境安裝配置
二、虛擬機中的網路配置
- 步驟一：本地網路配置查看
- 步驟二：設定虛擬機網路環境
三、Hadoop偽分布環境安裝與配置
- 任務1：Java JDK-8u181版本下載與安裝
- 任務2：Java JDK-8u181版本環境變數配置
- 任務3：Hadoop-2.10.0版本下載與安裝
- 任務4：Hadoop-2.10.0版本環境變數配置
- 任務5：Hadoop-2.10.0版本核心組態檔配置
- 任務6：格式化DFS分布式檔案系統
- 任務7：啟動hadoop-2.10.0服務
- 任務8：Hadoop HDFS檔案系統操作
四、使用Ambria安裝部署Hadoop集群
總結

前言

實驗背景：校園社區網站資料分析平臺，
本專案，我們將由淺入深，從虛擬環境下Linux作業系統安裝配置開始，逐步學習大資料分析平臺的集群部署，

一、虛擬環境安裝配置

（1）安裝Xshell和Xftp， Xshell的版本：Xshell-6.0.0189p，Xftp的版本：Xftp-6.0.0185p，

此軟體的安裝程序請看博客：安裝Xshell和Xftp
（2）安裝虛擬機及centos作業系統 VM的版本：VMware 15.5.0，光碟映像檔案版本：CentOS-7-x86_64-DVD-1611
此軟體的安裝程序請看博客：安裝虛擬機及centos作業系統
（3）jdk-8u181-linux-x64.tar以及hadoop-2.10.0.tar兩個壓縮檔案

二、虛擬機中的網路配置

步驟一：本地網路配置查看

記錄下本地的： (1)MAC地址 (2)IP地址 (3)子網掩碼 (4)默認網關
Win+R 打開運行視窗輸入cmd
第一步
輸入ipconfig /all 即可查看所有網路，找到所連接的網路即可
在這里插入圖片描述

步驟二：設定虛擬機網路環境

這邊是我的配置：
在這里插入圖片描述
（1）關閉防火墻

[root@localhost lixu]# systemctl stop firewalld        //停止firewalld防火墻
[root@localhost lixu]# systemctl disable firewalld   //disable防火墻
[root@localhost lixu]# systemctl status firewalld    //查看firewalld是否已經關閉

在這里插入圖片描述
（2）進入到selinux檔案中將enable的修改成disabled

vi /etc/sysconfig/selinux

在這里插入圖片描述
（3）配置并查看網卡檔案

BOOTPROTO="static"        //將DHCP改為static
IPADDR=192.168.43.79      //根據自己的當前局域網進行設定
NETMASK=255.255.255.0    //根據自己的當前局域網進行設定
DNS=192.168.43.1           //根據自己的當前局域網進行設定
GATEWAY=192.168.43.1      //根據自己的當前局域網進行設定

在這里插入圖片描述
（4）設定主機名

hostnamectl set-hostname bp01
hostname

在這里插入圖片描述
（5）設定主機名與IP地址映射

vi /etc/hosts

在這里插入圖片描述
（6）重啟網路服務

service network restart

（7）Xshell連接到虛擬機：
a：xshell登錄79主機
b：創建/opt/tools目錄

     cd /opt
     mkdir tools

c：創建/opt/hadoop目錄

     cd /opt
     mkdir hadoop

在這里插入圖片描述

三、Hadoop偽分布環境安裝與配置

任務1：Java JDK-8u181版本下載與安裝

1、Java JDK-8u171版本下載地址
Java JDK-8u181下載，自行選擇需要安裝的版本，選擇其它的也可以，將Java JDK-8u181安裝包放到/opt/tools目錄下
在這里插入圖片描述

任務2：Java JDK-8u181版本環境變數配置

在這里插入圖片描述
1、創建/opt/hadoop/java目錄

      su   root
      cd  /opt/hadoop
      mkdir  java

在這里插入圖片描述
2、復制安裝介質

         cp /opt/tools/jdk-8u181-linux-x64.tar.gz /opt/hadoop/java/

在這里插入圖片描述
3、檔案解壓縮

      tar -xvf   /opt/hadoop/java/jdk-8u181-linux-x64.tar.gz

在這里插入圖片描述
4.配置Java環境變數

su  root
vi /etc/profile

profile檔案中加入以下兩條

JAVA_HOME=/opt/hadoop/java/jdk1.8.0_181   //根據自己的環境設定
export PATH=$PATH:$JAVA_HOME/bin         //統一必須怎么寫

在這里插入圖片描述
5. 驗證JAVA環境

   su  root
   java -version

在這里插入圖片描述

任務3：Hadoop-2.10.0版本下載與安裝

Hadoop-2.10.0下載地址

在這里插入圖片描述
1、Hadoop-210.0版本解壓縮

	  su  root
      cd  /opt/tools/
      cp  hadoop-2.10.0.tar.gz  /opt/hadoop/
      cd /opt/hadoop/
      tar -xvf hadoop-2.10.0.tar.gz

在這里插入圖片描述

任務4：Hadoop-2.10.0版本環境變數配置

1.配置Hadoop環境變數

 vi /etc/profile
 source /etc/profile

profile檔案中輸入以下兩句既可

HADOOP_HOME=/opt/hadoop/hadoop-2.10.0//根據自己實際的情況進行配置
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

在這里插入圖片描述

接下來開始配置Hdoop的核心組態檔
hadoop.env.sh
core-site.xml
hdfs-site.xml
mapped-site.xml
yarn-site.xml

任務5：Hadoop-2.10.0版本核心組態檔配置

（1）hadoop.env.sh
說明：該檔案為Hadoop的運行環境組態檔，Hadoop的運行需要依賴JDK，我們將其中的export JAVA_HOME的值修改為我們安裝的JDK路徑

cd /opt/hadoop/hadoop-2.10.0/etc/hadoop
vi  hadoop-env.sh

hadoop-env.sh檔案中輸入以下即可：

export JAVA_HOME=/opt/hadoop/java/jdk1.8.0_181

在這里插入圖片描述
（2）core-site.xml【Hadoop的核心組態檔】

cd /opt/hadoop/hadoop-2.10.0/etc/hadoop
vi core-site.xml

core-site.xml檔案中輸入以下即可：

<configuration>
    <property>
          <name>fs.defaultFS</name>        
          <value>hdfs://bp01:9000</value>        
    </property>    
    <property>    
          <name>hadoop.tmp.dir</name>        
          <value>/opt/hadoop/hadoop-2.10.0/tmp</value>        
    </property>    
</configuration>

在這里插入圖片描述
（3）hdfs-site.xml【HDFS核心組態檔】

cd /opt/hadoop/hadoop-2.10.0/etc/hadoop
vi hdfs-site.xml

hdfs-site.xml檔案中輸入以下即可：

<configuration> 
        <property> 
                <name>dfs.replication</name> 
                <value>1</value> 
        </property> 
</configuration>

在這里插入圖片描述
（4）mapred-site.xml

cd /opt/hadoop/hadoop-2.10.0/etc/hadoop
vi mapred-site.xml

mapred-site.xml檔案中輸入以下即可：

<configuration> 
     <property> 
                <name>mapreduce.framework.name</name> 
                <value>yarn</value> 
        </property> 
</configuration>

在這里插入圖片描述

（5）yarn-site.xml【Yarn框架組態檔】

cd /opt/hadoop/hadoop-2.10.0/etc/hadoop
vi yarn-site.xml

yarn-site.xml檔案中輸入以下即可：

<configuration>  
        <property> 
                <name>yarn.resourcemanager.hostname</name> 
                <value>bp01</value> 
        </property> 
        <property> 
                <name>yarn.nodemanager.aux-services</name> 
                <value>mapreduce_shuffle</value> 
        </property> 
</configuration>

在這里插入圖片描述
（6）配置SSH免密碼登錄
1）進入hadoop目錄下的.ssh目錄
2）運行ssh-keygen，根據本機密鑰，產生訪問本機的公鑰
3）運行cp id_rsa.pub authorized_keys，
將本機公鑰添加到本機的可信串列中，沒有ssh目錄就新建一個

在這里插入圖片描述

任務6：格式化DFS分布式檔案系統

hdfs namenode -format

如果在格式化的日志中看到succefully format字樣，就證明格式化成功，反之，失敗
在這里插入圖片描述

任務7：啟動hadoop-2.10.0服務

啟動DFS及resourcemanager

cd  /opt/hadoop/hadoop-2.10.0/sbin
vim start-dfs.sh
vim start-yarn.sh

start-dfs.sh頭部添加：
在這里插入圖片描述
start-yarn.sh頭部添加：

注意：這里重啟兩個組態檔出現了錯誤，在瀏覽器中輸入ip訪問不到網頁于是在core-site.xml【Hadoop的核心組態檔】中將bp01改為192.168.43.128，因為在配置實驗的程序中網路發生了改變所以這邊是192.168.43.128，操作：先輸入如下命令將兩個行程關閉，修改完成之后重啟
在這里插入圖片描述

完成之后：MapReduce管理界面
http://192.168.43.128:8088
Hadoop管理界面
http://192.168.43.128:50070

任務8：Hadoop HDFS檔案系統操作

參考檔案地址：
Hadoop HDFS檔案系統Shell命令：檔案系統（FS）shell包括各種shell命令，這些命令直接與Hadoop分布式檔案系統（HDFS）以及Hadoop支持的其他檔案系統進行互動，例如本地FS、WebHDFS、S3fs等，

查看檔案系統幫助檔案

hadoop fs -help

在這里插入圖片描述
1.查看檔案系統剩余空間
語法：hadoop fs -df [-h] URI [URI …]
-H選項將以“人類可讀”的方式格式化檔案大小（例如，64.0M而不是67108864），

查看整個檔案系統剩余空間

hadoop fs -df -h /

在這里插入圖片描述
2.創建檔案目錄
語法：hadoop fs -mkdir [-p] --p選項行為類似于UNIX MKDIR -P，沿著路徑創建父目錄，

注意：是這個路徑
在這里插入圖片描述

3.上傳航空FOC資料檔案
語法： hadoop fs -put [-f] [-p] [-l] [-d] [ - | … ].
-p：保存訪問和修改時間、所有權和權限，（假設權限可以跨檔案系統傳播）
-F：如果目標已經存在，則覆寫它，
-L：允許資料節點延遲保存到磁盤，強制復制因子為1，這個標志將導致耐久性降低，小心使用，
-D：用后綴跳過臨時檔案的創建，

創建/1824113/FOC子目錄

在這里插入圖片描述
上傳T2020.csv檔案到/1824113/FOC目錄中

vi T2020.csv
hadoop fs -put  T2020.csv  /1824113/FOC

在這里插入圖片描述

4.查找航空FOC資料檔案
語法： hadoop fs -find … …

hadoop fs -find   /  -name T2020.csv -print

在這里插入圖片描述
5.下載航空FOC資料檔案
語法：hadoop fs -get [-ignorecrc] [-crc] [-p] [-f]

hadoop fs -get /T00/FOC/T2020.csv  T2020.dat

將T2020.csv下載到本地命名為T2020.dat
在這里插入圖片描述

6.查看航空FOC資料檔案訪問權限
語法：hadoop fs -getfacl [-R]

hadoop fs -getfacl -R /

查看檔案系統根目錄下所有檔案及目錄的權限
在這里插入圖片描述
7.查看航空FOC資料檔案大小
語法：hadoop fs -du [-s] [-h] [-v] [-x] URI [URI …]

-S選項將導致顯示檔案長度的匯總，而不是單個檔案，在沒有-S選項的情況下，計算是通過從給定路徑深入1級來完成的，
-H選項將以“人類可讀”的方式格式化檔案大小（例如，64.0M而不是67108864），
-V選項會將列的名稱顯示為標題行，
-x選項將排除結果計算中的快照，沒有-x選項（默認），結果總是從所有的iNoD中計算出來，包括給定路徑下的所有快照，

在這里插入圖片描述
這邊是27位元組

8.航空FOC資料檔案拷貝
語法：hadoop fs -cp [-f] [-p | -p[topax]] URI [URI …]

-f選項將覆寫目的地，如果它已經存在，
-p選項將保存檔案屬性[Topx]（時間戳、所有權、權限、ACL、XAttr），如果-p被指定為沒有ARG，則保留時間戳、所有權、權限，如果指定了-PA，則保留ACCEL也是因為ACL是一個超級權限集，是否保留原始命名空間擴展屬性的確定與-P標志無關，

在這里插入圖片描述
9.驗證FOC資料檔案是否變更過
語法： hadoop fs -checksum URI
回傳檔案的checksum資訊

在這里插入圖片描述
10.FOC資料檔案添加
語法： hadoop fs -appendToFile …

將本地的資料檔案添加【資料添加到檔案末尾】到HDFS檔案系統資料檔案中，可以同時將本地多個檔案添加到HDFS檔案中，

hadoop fs -appendToFile T2001.dat  /T00/FOC/T2001.dat 
hadoop fs -du -s -h /T00/FOC/T2001.dat

在這里插入圖片描述
11.FOC資料檔案合并下載
語法： hadoop fs -getmerge [-nl]

將源目錄和目標檔案作為輸入，并將SRC中的檔案連接到目的地本地檔案，可選地，可以設定NL，以便在每個檔案的末尾添加新行字符（LF），跳過空檔案可用于避免在空檔案的情況下不需要的換行符，
在這里插入圖片描述
12.FOC資料檔案移動
語法： hadoop fs -mv URI [URI …]

將檔案從源移動到目的地，這個命令允許多個源，在這種情況下，目的地需要是一個目錄，不允許跨檔案系統移動檔案，

hadoop fs -mv /T00/FOC/T2001.csv    /T00/FOC/T2001-20180716.dat

在這里插入圖片描述
MapReduce測驗

cd /opt/hadoop/hadoop-2.10.0/share/hadoop/mapreduce

上傳至HDFS中，輸入如下指令:

Hadoop jar hadoop-mapreduce-examples-2.10.0.jar wordcount /1824113/FOC/T2020.dat  /out/1.csv

在這里插入圖片描述

查看結果：

在這里插入圖片描述

四、使用Ambria安裝部署Hadoop集群

1、安裝Ambria服務
2、使用Ambria安裝配置Hadoop集群

這一點小編還在抓緊趕制中…

總結

1、虛擬環境安裝配置
2、虛擬機中的網路配置
3、Hadoop偽分布環境安裝與配置
4、使用Ambria安裝部署Hadoop集群

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/192886.html

標籤：其他

上一篇：大資料虛擬機

下一篇：[python] 小白求助：有人幫我分析一下梨視頻的視頻真正網址在哪嗎？

5分鐘學會Hadoop的集群部署

Hadoop集群部署

前言

一、虛擬環境安裝配置

二、虛擬機中的網路配置

步驟一：本地網路配置查看

步驟二：設定虛擬機網路環境

三、Hadoop偽分布環境安裝與配置

任務1：Java JDK-8u181版本下載與安裝

任務2：Java JDK-8u181版本環境變數配置

任務3：Hadoop-2.10.0版本下載與安裝

任務4：Hadoop-2.10.0版本環境變數配置

任務5：Hadoop-2.10.0版本核心組態檔配置

任務6：格式化DFS分布式檔案系統

任務7：啟動hadoop-2.10.0服務

任務8：Hadoop HDFS檔案系統操作

四、使用Ambria安裝部署Hadoop集群

總結