在Ubuntu Kylin系統中使用 Eclipse 開發 MapReduce 程式對單詞計數

一、首先利用Windows中使用VirtualBox安裝Ubuntu
二、前期準備作業
- 1. 創建帳戶Hadoop
- 2. 設定hadoop密碼
- 3. 給hadoop用戶增加管理員權限
- 4. 更新 apt
- 5. 安裝vim
- 6. 配置SSH
三、安裝Java環境
- 1.安裝JDK
- 2.此時驗證一下jdk安裝情況
- 3.這時需要設定java壞境變數
- 4.驗證java的安裝情況
四、安裝Hadoop
五、 Hadoop偽分布式配置
六、呼叫MapReduce執行WordCount對單詞進行計數
七、個人總結
八、參考資料

一、首先利用Windows中使用VirtualBox安裝Ubuntu

本實驗采用Ubuntu Kylin版本，Ubuntu Kylin系統檔案可以從參考資料[1]中獲取，

二、前期準備作業

1. 創建帳戶Hadoop

sudo useradd -m hadoop -s /bin/bash

2. 設定hadoop密碼

 sudo passwd hadoop

3. 給hadoop用戶增加管理員權限

 sudo adduser hadoop sudo

在完成注銷當前用戶，回傳登陸界面，在登陸界面中選擇hadoop 用戶進行登錄，

4. 更新 apt

登錄成功后，先更新一下apt，后面將會使用apt安裝軟體，如果沒有更新可能無法完成后續安裝(如所示下圖)，在終端執行以下命令：

sudo apt-get update

在這里插入圖片描述

5. 安裝vim

在后續的組態檔時，將會使用vim進行編輯，所以可以安裝vim，命令如下：

 sudo apt-get install vim

也可以使用gedit進行編輯，gedit相對與vim更加直觀，

如果在安裝程序中出現(如所示下圖)的錯誤，可在提示處輸入y，

在這里插入圖片描述

6. 配置SSH

（1）集群、單節點模式都需要用到 SSH 登陸，在ubuntu 默認已安裝了 SSH client，此外還需要安裝 SSH server：

sudo apt-get install openssh-server

（2）安裝后，可以使用如下命令登陸本機：

ssh localhost

在此時會有提示(SSH首次登陸提示)，輸入 yes ，然后按提示輸入密碼 hadoop，這樣就登陸到本機了，但這樣登陸是需要每次輸入密碼的，因此需要配置成SSH無密碼登陸較為方便，

（3）首先退出剛才的 ssh，就回到了我們原先的終端視窗，然后利用 ssh-keygen 生成密鑰，并將密鑰加入到授權中：

exit                                   # 退出剛才的 ssh localhost
cd ~/.ssh/                             # 若沒有該目錄，請先執行一次ssh localhost
ssh-keygen -t rsa                      # 會有提示，都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授權

此時再使用 ssh localhost 命令，無需輸入密碼就可以直接登陸了，如下圖所示，

在這里插入圖片描述

三、安裝Java環境

1.安裝JDK

Hadoop3.1.3需要使用JDK版本在1.8及以上，我已經把JDK1.8的安裝包jdk-8u162-linux-x64.tar.gz匯入ubuntu中，有需要的可以[點擊這里到百度云盤下載](https://pan.baidu.com/share/init?surl=gbmPBXrJDCxwqPGkfvX5Xg)（提取碼：lnwl），接下來在Linux命令列界面中，執行如下的命令（注意：當前登錄用戶名是hadoop）：

cd /usr/lib
sudo mkdir jvm                             #創建/usr/lib/jvm目錄用存放jdk檔案
cd ~                                       #進入hadoop用戶的主目錄下
cd Downloads  
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm    #把JDK檔案解壓到/usr/lib/jvm目錄下

2.此時驗證一下jdk安裝情況

cd /usr/lib/jvm
ls

3.這時需要設定java壞境變數

cd ~
vim ~/.bashrc

通過vim編輯器，打開環境變數配置.bashrc檔案，在檔案開頭添加如下幾行內容： (關于vim使用方法，可參考以下的網址：https://blog.csdn.net/lsg_down/article/details/87073295)

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc檔案并退出vim編輯器，然后，繼續執行如下命令讓.bashrc檔案的配置立即生效：

source ~/.bashrc

4.驗證java的安裝情況

java -version

若回傳如下資訊，則說明JAVA環境配置成功

四、安裝Hadoop

1.首先下載hadoop，這里選擇使用Hadoop2.10.0版本，

Hadoop官網下載hadoop-3.1.3.tar.gz

2.將 Hadoop 安裝至 /usr/local/ 中：

sudo tar -zxf ~/下載/hadoop-3.1.3.tar.gz -C /usr/local    # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop                         # 將檔案夾名改為hadoop
sudo chown -R hadoop ./hadoop                            # 修改檔案權限

3.驗證Hadoop是否可用，成功則會顯示 Hadoop 版本資訊，如下圖所示，

cd /usr/local/hadoop
./bin/hadoop version

在這里插入圖片描述

五、 Hadoop偽分布式配置

1. Hadoop 的組態檔位于 /usr/local/hadoop/etc/hadoop/ 中，偽分布式需要修改2個組態檔 core-site.xml 和 hdfs-site.xml ，Hadoop的組態檔是 xml 的格式，每個配置以宣告 property的 name 和 value 的方式來實作，在修改組態檔前，需要自行創建相應的檔案夾進行存放，以防后續操作無法啟動Hadoop，

sudo mkdir /usr/local/hadoop/tmp 
sudo mkdir /usr/local/hadoop/tmp/dfs/name 
sudo mkdir /usr/local/hadoop/tmp/dfs/data

2. 對2個組態檔 core-site.xml 和 hdfs-site.xml進行修改，

（1）打開組態檔 core-site.xml，在這里使用gedit，也可以使用vim編輯，

 gedit  core-site.xml

在配置core-site.xml 的檔案中找到下面的標簽對：

 <configuration> 
 </configuration>

（2）修改為下面配置：

 <configuration> 
    <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/usr/local/hadoop/tmp</value>
    <description>Abase for other temporary directories.      
    </description>
     </property>
      <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
     </property>
 </configuration>

（3）打開組態檔hdfs-site.xml ，

 gedit hdfs-site.xml

在配置 hdfs-site.xml的檔案中找到下面的標簽對：

  <configuration> 
  </configuration>

（4）修改為下面配置：

   <configuration>
    <property>
    <name>dfs.replication</name>
    <value>1</value>
     </property> 
     <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/usr/local/hadoop/tmp/dfs/name</value> 
    </property>
     <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property>
     </configuration>

3. 格式化 NameNode

當我們配置完core-site.xml 和 hdfs-site.xml，需要對NameNode進行格式化： cd /usr/local/hadoop ./bin/hdfs namenode -format 成功的話，會看到 “successfully formatted” 的提示，具體回傳資訊，如下圖所示，

在這里插入圖片描述

4. 開啟NameNode和DataNode守護行程

 cd /usr/local/hadoop 
 ./sbin/start-dfs.sh              #start-dfs.sh是個完整的可執行檔案，中間沒有空格

若出現如下SSH提示，輸入yes即可，

5. 啟動Hadoop，并確定是否安裝成功，

當程式啟動完成后，可以通過命令 jps 來判斷是否成功啟動，若成功啟動則會列出如下行程: “NameNode”、”DataNode” 和 “SecondaryNameNode”，成功啟動后，不僅可以訪問 Web 界面 http://localhost:50070查看 NameNode 和 Datanode 資訊，還可以查看 HDFS 中的檔案，

六、呼叫MapReduce執行WordCount對單詞進行計數

1. 準備一個單詞檔案（在這里使用的是不少于10000萬單詞的文本檔案），我將這個檔案置于/usr/local/hadoop的路徑檔案夾中，以便實驗，如下圖所示，

在這里插入圖片描述

2. 將lzyword.txt上傳到HDFS中（在此步操作時注意請確保Hadoop為開啟狀態）

 ./bin/hdfs dfs -put /usr/local/hadoop/lzyword.txt  input

3. 驗證是否上傳成功，成功可看到實驗檔案，如下圖所示，

  ./bin/hdfs dfs -ls input

在這里插入圖片描述

4. 在軟體中心中，在搜索框輸入Eclipse找到對應檔案下載即可，（此步已完成安裝）

5. 安裝Hadoop-Eclipse-Plugin用于在 Eclipse 上編譯和運行 MapReduce 程式，可下載 Github 上的[hadoop2x-eclipse-plugin](https://github.com/winghc/hadoop2x-eclipse-plugin) （下載后，將release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar 復制到 Eclipse 安裝目錄的 plugins 檔案夾中，運行 eclipse -clean 重啟 Eclipse 即可，添加插件后只需要運行一次該命令，以后可以正常方式啟動），

unzip -qo ~/下載/hadoop2x-eclipse-plugin-master.zip -d ~/下載    # 解壓到 ~/下載 中
sudo cp ~/下載/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/    # 復制到 eclipse 安裝目錄的 plugins 目錄下
/usr/lib/eclipse/eclipse -clean    # 添加插件后需要用這種方式使插件生效

6. 這時配置 Hadoop-Eclipse-Plugin，當執行完/usr/lib/eclipse/eclipse -clean 后，系統會自動打開Eclipse，打開后我們看到左邊的Project Explorer里出現了DFS Locations，如下圖所示，

在這里插入圖片描述

7. 進一步配置插件

（1）Eclipse的上方找到Window->Preference，如下圖所示，

在這里插入圖片描述

（2）這時找到Hadoop Map/Reduce，在那里填入hadoop的安裝地址/usr/local/hadoop，如下圖所示，

在這里插入圖片描述

（3）我們切換 Map/Reduce 開發視圖，選擇 Window 選單下選擇 Open Perspective->Other，在里面找到Map/Reduce，如下圖所示，

在這里插入圖片描述

（4）這時需要連接 Hadoop 集群，點擊 Eclipse右下角的 Map/Reduce Locations 面板，在面板中單擊右鍵，選擇 New Hadoop Location，如下圖所示，

在這里插入圖片描述

（5）會彈出來的 General 選項面板中，General 的設定要與 Hadoop 的配置一致，Host中填localhost，DFS Master 的 Port 需要改為 9000，Location name填MapReduceLocation，如下圖所示，

在這里插入圖片描述

（6）在上述步驟配置好后，需要點擊左側 Project Explorer 中的 MapReduce Location （點擊三角形展開）就能直接查看 HDFS 中的檔案串列，如下圖所示，

在這里插入圖片描述

（7）在 Eclipse 中創建 MapReduce 專案，點擊 File 選單，選擇 New->Project，如下圖所示，

在這里插入圖片描述

（8）選擇 Map/Reduce Project，點擊 Next，如下圖所示，

在這里插入圖片描述

（9）寫 Project name 為 WordCount（這里命名為lzy0048WordCount）即可，點擊 Finish 就創建好了專案，如下圖所示，

在這里插入圖片描述

（10）下一步右鍵點擊剛創建的 lzy0048WordCount 專案，選擇 New->Class，如下圖所示，

在這里插入圖片描述

（11）在 Package 處填寫 org.apache.hadoop.examples；在 Name 處填寫 lzy0048WordCount，如下圖所示，

在這里插入圖片描述

（12）需要將 /usr/local/hadoop/etc/hadoop 中將有修改過的組態檔（如偽分布式需要 core-site.xml 和 hdfs-site.xml），以及 log4j.properties 復制到 lzy0048WordCount專案下的 src 檔案夾（~/worklzy/HDFS/lzy0048WordCount/src）中，在終端中輸入下列幾行內容：

cp /usr/local/hadoop/etc/hadoop/core-site.xml ~/worklzy/HDFS/lzy0048WordCount/src
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml ~/worklzy/HDFS/lzy0048WordCount/src 
cp /usr/local/hadoop/etc/hadoop/log4j.properties ~/worklzy/HDFS/lzy0048WordCount/src

當復制完成后，右鍵點擊 lzy0048WordCount選擇 refresh 進行重繪一下，可看到src中多出了幾個檔案，就如下圖所示，

在這里插入圖片描述

（13）將如下 lzy0048WordCount的代碼復制到該lzy0048WordCount.java檔案中，

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class lzy0048WordCount{
    public WordCount() {
    }
 
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        //String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        String[] otherArgs=new String[]{"input","output"};
        if(otherArgs.length < 2) {
            System.err.println("Usage: lzy0048WordCount<in> [<in>...] <out>");
            System.exit(2);
        }
 
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
 
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
 
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
 
        public IntSumReducer() {
        }
 
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int sum = 0;
 
            IntWritable val;
            for(Iterator<IntWritable> i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
                val = i$.next();
            }
 
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
 
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
 
        public TokenizerMapper() {
        }
 
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
 
            while(itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
 
        }
    }
}

（13）在lzy0048WordCount.java的代碼檔案中，右鍵選擇Run As——Run Configurations...,就可以運行 MapReduce 程式了（運行檔案前，務必把Hadoop啟動），如下圖所示，

在這里插入圖片描述

（14）在此處可以設定運行時的相關引數（如果 Java Application 下面沒有 lzy0048WordCount，那么需要先雙擊 Java Application），切換到 “Arguments” 欄，在 Program arguments 處填寫 “input output” 就可以了，如下圖所示，

在這里插入圖片描述

（15）程式執行完畢后，我們就可以在output--part-r-00000這個檔案中就可以看到輸出結果了，

除了以上的方法，也可以使用輸入下面命令進行查看，如下圖所示，

cd /usr/local/hadoop
./bin/hdfs dfs -cat output/part-r-00000

在這里插入圖片描述

輸入下面命令，可以把HDFS中檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下，如下圖所示，

./bin/hdfs dfs -get output/part-r-00000  /home/hadoop/下載

在這里插入圖片描述

七、個人總結

此次實驗，我在Ubuntu Kylin系統中使用 Eclipse 開發 MapReduce 程式對單詞計數的實驗操作，從Ubuntu的安裝到WordCount的案例操作，讓我對每個部分進行理解和實踐，包括如何配置jdk，java，Hadoop、MapReduce,Eclipse，插件等，同時在CSDN上分享了自己的步驟，有利于課程結束后回顧溫習，以上就是我要分享的內容，如有錯誤，請多指教，

八、參考資料

[1] http://dblab.xmu.edu.cn/blog/285/

[2]http://dblab.xmu.edu.cn/blog/290-2/

[3]http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/233991.html

標籤：其他

上一篇：雙機容災&負載均衡&動態代理:(keepalived結合openresty+redis實作)

下一篇：kubernetes集群搭建-CentOS7

在Ubuntu Kylin系統中使用 Eclipse 開發 MapReduce 程式對單詞計數

目錄

一、 首先利用Windows中使用VirtualBox安裝Ubuntu

二、 前期準備作業

1. 創建帳戶Hadoop

2. 設定hadoop密碼

3. 給hadoop用戶增加管理員權限

4. 更新 apt

5. 安裝vim

6. 配置SSH

三、 安裝Java環境

1.安裝JDK

2.此時驗證一下jdk安裝情況

3.這時需要設定java壞境變數

4.驗證java的安裝情況

四、 安裝Hadoop

五、 Hadoop偽分布式配置

六、 呼叫MapReduce執行WordCount對單詞進行計數

七、 個人總結

八、 參考資料

一、首先利用Windows中使用VirtualBox安裝Ubuntu

二、前期準備作業

三、安裝Java環境

四、安裝Hadoop

六、呼叫MapReduce執行WordCount對單詞進行計數

七、個人總結

八、參考資料