基于Ubuntu在Hadoop的環境下呼叫MapReduce對檔案中各個單詞出現次數進行統計

一、安裝Ubuntu

一般來說，如果要做服務器可選擇CentOS或者Ubuntu Server；如果做桌面系統可選擇Ubuntu Desktop，在學習Hadoop方面，雖然兩個系統沒有多大區別，但在此次實驗中使用 Ubuntu 14.04 64位作為系統環境，（可參考使用VirtualBox安裝Ubuntu）.
??64位Ubuntu推薦下載地址: 點擊下載.

二、環境配置

裝好了 Ubuntu 系統之后，在安裝 Hadoop 前還需要做一些必備作業，

1、創建hadoop用戶

如果你安裝 Ubuntu 的時候不是用的 “hadoop” 用戶，那么需要增加一個名為 hadoop 的用戶，
首先按 ctrl+alt+t 打開終端視窗，輸入如下命令創建新用戶 :

sudo useradd -m hadoop -s /bin/bash

這條命令創建了可以登陸的 hadoop 用戶，并使用 /bin/bash 作為 shell，

設定密碼：接著使用如下命令設定密碼，可簡單設定為 hadoop，按提示輸入兩次密碼：

sudo passwd hadoop

增加管理員權限：為 hadoop 用戶增加管理員權限，方便部署，

sudo adduser hadoop sudo

最后注銷當前用戶（點擊螢屏右上角的齒輪，選擇注銷），回傳登陸界面，在登陸界面中選擇剛創建的 hadoop 用戶進行登陸，

2、更新apt

用 hadoop 用戶登錄后，需先更新一下 apt，后續我們使用 apt 安裝軟體，如果沒更新可能有一些軟體安裝不了，進入終端視窗，執行如下命令：

sudo apt-get update

若出現更新不了的情況，請前往”系統設定——軟體和更新——下載自”選擇https://mirrors.aliyun.com/ubuntu，將更新源更改完成后重新嘗試輸入上述命令
系統設定修改更新源
后續需要更改一些組態檔，在此安裝一下 vim（vi增強版，基本用法相同），命令如下；安裝時若需要確認，在提示處輸入 y 即可，

sudo apt-get install vim

3、安裝SSH、配置SSH無密碼登陸

集群、單節點模式都需要用到 SSH 登陸（類似于遠程登陸，你可以登錄某臺 Linux 主機，并且在上面運行命令），Ubuntu 默認已安裝了 SSH client，此外還需要安裝 SSH server：

sudo apt-get install openssh-server

安裝后，可以使用如下命令登陸本機：

ssh localhost

此時會有如下提示(SSH首次登陸提示)，輸入 yes ，然后按提示輸入密碼 hadoop，這樣就登陸到本機了，

但這樣登陸是需要每次輸入密碼的，我們需要配置成SSH無密碼登陸比較方便，
首先退出剛才的 ssh，就回到了我們原先的終端視窗，然后利用 ssh-keygen 生成密鑰，并將密鑰加入到授權中：

exit                           # 退出剛才的 ssh localhost
cd ~/.ssh/                     # 若沒有該目錄，請先執行一次ssh localhost
ssh-keygen -t rsa              # 會有提示，都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授權

此時再用 ssh localhost 命令，無需輸入密碼就可以直接登陸了，如下圖所示，
在這里插入圖片描述

三、安裝JAVA環境

1、安裝JDK

Hadoop3.1.3需要JDK版本在1.8及以上，下面演示手動安裝JDK1.8，
JDK1.8的安裝包jdk-8u162-linux-x64.tar.gz已放在百度云盤，鏈接: 可以點擊這里到百度云盤下載JDK1.8安裝包.（提取碼：99bg），請把壓縮格式的檔案jdk-8u162-linux-x64.tar.gz下載，假設保存在“/home/linziyu/Downloads/”目錄下，

接下里在Linux命令列界面中執行如下命令（注意：當前登錄用戶名是hadoop）：

cd /usr/lib
sudo mkdir jvm #創建/usr/lib/jvm目錄用來存放JDK檔案
cd ~ #進入hadoop用戶的主目錄
cd Downloads  #注意區分大小寫字母，剛才已經通過FTP軟體把JDK安裝包jdk-8u162-linux-x64.tar.gz上傳到該目錄下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK檔案解壓到/usr/lib/jvm目錄下

JDK檔案解壓縮以后，執行如下命令到/usr/lib/jvm目錄查看一下，看到在/usr/lib/jvm目錄下有個jdk1.8.0_162目錄即安裝成功，

cd /usr/lib/jvm
ls

2、設定JAVA環境變數

cd ~
vim ~/.bashrc

通過vim編輯器，打開環境變數配置.bashrc檔案，在檔案開頭添加如下幾行內容：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc檔案并退出vim編輯器，然后繼續執行命令讓.bashrc檔案的配置立即生效：

source ~/.bashrc

繼續驗證安裝情況：

java -version

若回傳如下資訊，則代表JAVA環境配置成功
在這里插入圖片描述

四、安裝Hadoop

Hadoop的安裝方式有三種，分別是單機模式，偽分布式模式，分布式模式，在此選擇偽分布模式：Hadoop在單節點上以偽分布式的方式運行，Hadoop 行程以分離的 Java 行程來運行，節點既作為 NameNode 也作為 DataNode，同時讀取的也是 HDFS 中的檔案，可到Hadoop官網下載hadoop-2.10.0.tar.gz 或從網盤中下載：點擊下載.（提取碼：99bg）

1、安裝Hadoop
我們選擇將 Hadoop 安裝至 /usr/local/ 中：

sudo tar -zxf ~/下載/hadoop-2.6.0.tar.gz -C /usr/local    # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 將檔案夾名改為hadoop
sudo chown -R hadoop ./hadoop       # 修改檔案權限

Hadoop 解壓后即可使用，輸入如下命令來檢查 Hadoop 是否可用，成功則會顯示 Hadoop 版本資訊：

cd /usr/local/hadoop
./bin/hadoop version

在這里插入圖片描述

2、對Hadoop進行偽分布式的配置（Hadoop默認安裝好單機配置）
Hadoop 的組態檔位于 /usr/local/hadoop/etc/hadoop/ 中，偽分布式需要修改2個組態檔 core-site.xml 和 hdfs-site.xml ，Hadoop的組態檔是 xml 格式，每個配置以宣告 property 的 name 和 value 的方式來實作，

cd /usr/local/hadoop/etc/hadoop/

在進行修改組態檔前，需要創建相應的檔案夾進行存放，以防后續操作無法啟動Hadoop

sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data

下面開始配置core-site.xml 和 hdfs-site.xml

vim core-site.xml

在組態檔中找到下面這個標簽對

<configuration>
</configuration>

修改為下面配置：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

同樣的，修改組態檔 hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

3、格式化NameNode
配置完成后，執行 NameNode 的格式化:成功的話，會看到 “successfully formatted” 和 “Exitting with status 0” 的提示，

cd /usr/local/hadoop
./bin/hdfs namenode -format

在這里插入圖片描述
4、開啟NameNode和DataNode守護行程

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是個完整的可執行檔案，中間沒有空格

若出現如下SSH提示，輸入yes即可，
啟動Hadoop時的SSH提示
啟動時可能會出現如下 WARN 提示：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable WARN 提示可以忽略，并不會影響正常使用

5、驗證安裝是否成功
啟動完成后，可以通過命令 jps 來判斷是否成功啟動，若成功啟動則會列出如下行程: “NameNode”、”DataNode” 和 “SecondaryNameNode”
在這里插入圖片描述
成功啟動后，可以訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 資訊，還可以在線查看 HDFS 中的檔案，

五、呼叫MapReduce執行WordCount對單詞進行計數

1、上傳檔案
準備一個待分析的英語文本檔案，在此我選擇30000多字的《哈姆雷特》原文劇本，需要可：點擊下載.
將hamlet.txt檔案放置于/usr/local/hadoop目錄下中，以便后續操作
在這里插入圖片描述
接下來將實驗檔案上傳到HDFS中（Hadoop已為開啟狀態）

./bin/hdfs dfs -put /usr/local/hadoop/demo.txt  input

接著使用 ls 命令查看檔案上傳情況，上傳成功后可以在檔案中看到檔案

./bin/hdfs dfs –ls input

在這里插入圖片描述
2、在Ubuntu中安裝Eclipse
Hadoop不同的檔案系統之間通過呼叫Java API進行互動，利用Java API進行互動，需要利用軟體Eclipse撰寫Java程式，
利用Ubuntu左側邊欄自帶的軟體中心安裝軟體，在Ubuntu左側邊欄打開軟體中心搜索下載，
在這里插入圖片描述
3、配置 Hadoop-Eclipse-Plugin
Hadoop-Eclipse-Plugin可從這里點擊下載，下載后，將 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar 復制到 Eclipse 安裝目錄的 plugins 檔案夾中，運行 eclipse -clean 重啟 Eclipse 即可（添加插件后只需要運行一次該命令，以后按照正常方式啟動就行了），命令如下：

unzip -qo ~/下載/hadoop2x-eclipse-plugin-master.zip -d ~/下載 # 解壓到~/下載中
sudo cp ~/下載/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/  # 復制到eclipse安裝目錄的plugins目錄下
/usr/lib/eclipse/eclipse -clean  # 添加插件后需要用這種方式使插件生效

執行完以上命令后，系統會自動打開Eclipse，打開后看到左邊的Project Explorer里出現了DFS Locations
在這里插入圖片描述
接下來插件需要進一步的配置，在上方找到Window——Preference

在表單的左側找到 Hadoop Map/Reduce 選項，填入Hadoop 的安裝地址/usr/local/hadoop

然后切換 Map/Reduce 開發視圖，選擇 Window 選單下選擇 Open Perspective -> Other，選擇 Map/Reduce 選項即可進行切換，
在這里插入圖片描述

隨后可建立與 Hadoop 集群的連接，點擊 Eclipse右下角的 Map/Reduce Locations 面板，在面板中單擊右鍵，選擇 New Hadoop Location，

在彈出來面板中，General 中的配置引數要與 Hadoop 的配置一致，由于使用的Hadoop偽分布式配置，設定 fs.defaultFS 為 hdfs://localhost:9000，所以此處DFS Master 的 Port 要改為 9000，其余默認即可，
在這里插入圖片描述
配置好后，點擊展開左側的Project Explorer中能夠找到我們上傳的檔案，

4、創建MapReduce專案
eclipse右上角點擊File選單，選擇New——Project

選擇Map/Reduce Project，點擊Next進入下一步

輸入專案名稱，點擊Finish完成創建
在這里插入圖片描述
點擊展開剛創建的Word Reduce專案，選中右鍵src 選擇NEW – Class 創建java類，

在彈出的視窗中只需填入Package和Name， Package 處需填寫 org.apache.hadoop.examples；Name可自定義；其他默認即可，
在這里插入圖片描述
5、呼叫MapReduce對檔案中各個單詞出現次數進行統計
完成Class創建能看到WordCount.java 這個人間，將下面代碼復制進剛創建好的WordCount.java檔案中

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class WordCount {
    public WordCount() {
    }
 
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        //String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        String[] otherArgs=new String[]{"input","output"};
        if(otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
 
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
 
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
 
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
 
        public IntSumReducer() {
        }
 
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int sum = 0;
 
            IntWritable val;
            for(Iterator<IntWritable> i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
                val = i$.next();
            }
 
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
 
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
 
        public TokenizerMapper() {
        }
 
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
 
            while(itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
 
        }
    }
}

在運行 MapReduce 程式前，需要將 /usr/local/hadoop/etc/hadoop 中將有修改過的組態檔（如偽分布式需要 core-site.xml 和 hdfs-site.xml），以及 log4j.properties 復制到 WordCount 專案下的 src 檔案夾（~/workspace/WordCount/src）中，在終端中輸入下列幾行內容:

cp /usr/local/hadoop/etc/hadoop/core-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/log4j.properties ~/workspace/WordCount/src

在這里插入圖片描述
復制完成后，務必右鍵點擊 WordCount 選擇 refresh 進行重繪，可看到src中多出了幾個檔案：

完成以上的準備后，點擊上面運行按鈕，點擊Run As——Run on Hadoop啟動MapReduce程式

此時可能會提示 “Usage: wordcount “，由于沒有指定引數，需要通過Eclipse配置運行引數，
在此點擊運行 WordCount.java，此次選擇 Run As -> Run Configurations，在此處可以設定運行時的相關引數，選擇 “Arguments” 欄，在 Program arguments 處填寫 “input output” ；在點擊 Run 執行，
在這里插入圖片描述
當程式執行完畢后，選中圖片中的Hadoop檔案，右鍵點擊Refresh才能看到輸出檔案，

Refresh重繪完后，能看到Hadoop目錄下生成output檔案夾，其中part-r-00000中為各個單詞出現次數進行統計的結果，

除了在eclipse中查看結果外，也可以通過命令列查看

cd /usr/local/haddop
./bin/hdfs dfs -cat output/part-r-00000

也可輸入下面命令，把HDFS中檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下

./bin/hdfs dfs -get output/part-r-00000  /home/hadoop/下載

END

六.參考文獻

[1] http://dblab.xmu.edu.cn/blog/290-2/.
[2] http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/.
[3] http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html.
[4] http://www.blogjava.net/LittleRain/archive/2006/12/31/91165.html.

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/236000.html

標籤：其他

上一篇：1+X云計算平臺運維與開發認證（中級）樣卷B-實操程序

下一篇：小白也能學會的 Linux 基礎命令(上)