基于Ubuntu在Hadoop的環境下呼叫MapReduce對檔案中各個單詞出現次數進行統計
目錄
- 一、安裝Ubuntu
- 二、環境配置
- 三、安裝JAVA環境
- 四、安裝Hadoop
- 五、呼叫MapReduce執行WordCount對單詞進行計數
- 六.參考文獻
一、安裝Ubuntu
一般來說,如果要做服務器可選擇CentOS或者Ubuntu Server;如果做桌面系統可選擇Ubuntu Desktop,在學習Hadoop方面,雖然兩個系統沒有多大區別,但在此次實驗中使用 Ubuntu 14.04 64位 作為系統環境,(可參考使用VirtualBox安裝Ubuntu).
??64位Ubuntu推薦下載地址: 點擊下載.
二、環境配置
裝好了 Ubuntu 系統之后,在安裝 Hadoop 前還需要做一些必備作業,
1、創建hadoop用戶
如果你安裝 Ubuntu 的時候不是用的 “hadoop” 用戶,那么需要增加一個名為 hadoop 的用戶,
首先按 ctrl+alt+t 打開終端視窗,輸入如下命令創建新用戶 :
sudo useradd -m hadoop -s /bin/bash
這條命令創建了可以登陸的 hadoop 用戶,并使用 /bin/bash 作為 shell,
- 設定密碼:接著使用如下命令設定密碼,可簡單設定為 hadoop,按提示輸入兩次密碼:
sudo passwd hadoop
- 增加管理員權限:為 hadoop 用戶增加管理員權限,方便部署,
sudo adduser hadoop sudo
最后注銷當前用戶(點擊螢屏右上角的齒輪,選擇注銷),回傳登陸界面,在登陸界面中選擇剛創建的 hadoop 用戶進行登陸,
2、更新apt
用 hadoop 用戶登錄后,需先更新一下 apt,后續我們使用 apt 安裝軟體,如果沒更新可能有一些軟體安裝不了,進入終端視窗,執行如下命令:
sudo apt-get update
若出現更新不了的情況,請前往”系統設定——軟體和更新——下載自”選擇https://mirrors.aliyun.com/ubuntu,將更新源更改完成后重新嘗試輸入上述命令

后續需要更改一些組態檔,在此安裝一下 vim(vi增強版,基本用法相同),命令如下;安裝時若需要確認,在提示處輸入 y 即可,
sudo apt-get install vim
3、安裝SSH、配置SSH無密碼登陸
集群、單節點模式都需要用到 SSH 登陸(類似于遠程登陸,你可以登錄某臺 Linux 主機,并且在上面運行命令),Ubuntu 默認已安裝了 SSH client,此外還需要安裝 SSH server:
sudo apt-get install openssh-server
安裝后,可以使用如下命令登陸本機:
ssh localhost
此時會有如下提示(SSH首次登陸提示),輸入 yes ,然后按提示輸入密碼 hadoop,這樣就登陸到本機了,

但這樣登陸是需要每次輸入密碼的,我們需要配置成SSH無密碼登陸比較方便,
首先退出剛才的 ssh,就回到了我們原先的終端視窗,然后利用 ssh-keygen 生成密鑰,并將密鑰加入到授權中:
exit # 退出剛才的 ssh localhost
cd ~/.ssh/ # 若沒有該目錄,請先執行一次ssh localhost
ssh-keygen -t rsa # 會有提示,都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授權
此時再用 ssh localhost 命令,無需輸入密碼就可以直接登陸了,如下圖所示,

三、安裝JAVA環境
1、安裝JDK
Hadoop3.1.3需要JDK版本在1.8及以上,下面演示手動安裝JDK1.8,
JDK1.8的安裝包jdk-8u162-linux-x64.tar.gz已放在百度云盤,鏈接: 可以點擊這里到百度云盤下載JDK1.8安裝包.(提取碼:99bg),請把壓縮格式的檔案jdk-8u162-linux-x64.tar.gz下載,假設保存在“/home/linziyu/Downloads/”目錄下,
接下里在Linux命令列界面中執行如下命令(注意:當前登錄用戶名是hadoop):
cd /usr/lib
sudo mkdir jvm #創建/usr/lib/jvm目錄用來存放JDK檔案
cd ~ #進入hadoop用戶的主目錄
cd Downloads #注意區分大小寫字母,剛才已經通過FTP軟體把JDK安裝包jdk-8u162-linux-x64.tar.gz上傳到該目錄下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK檔案解壓到/usr/lib/jvm目錄下
JDK檔案解壓縮以后,執行如下命令到/usr/lib/jvm目錄查看一下,看到在/usr/lib/jvm目錄下有個jdk1.8.0_162目錄即安裝成功,
cd /usr/lib/jvm
ls

2、設定JAVA環境變數
cd ~
vim ~/.bashrc
通過vim編輯器,打開環境變數配置.bashrc檔案,在檔案開頭添加如下幾行內容:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
保存.bashrc檔案并退出vim編輯器,然后繼續執行命令讓.bashrc檔案的配置立即生效:
source ~/.bashrc
繼續驗證安裝情況:
java -version
若回傳如下資訊,則代表JAVA環境配置成功

四、安裝Hadoop
Hadoop的安裝方式有三種,分別是單機模式,偽分布式模式,分布式模式,在此選擇偽分布模式:Hadoop在單節點上以偽分布式的方式運行,Hadoop 行程以分離的 Java 行程來運行,節點既作為 NameNode 也作為 DataNode,同時讀取的也是 HDFS 中的檔案,可到Hadoop官網下載hadoop-2.10.0.tar.gz 或從網盤中下載: 點擊下載.(提取碼:99bg)
1、安裝Hadoop
我們選擇將 Hadoop 安裝至 /usr/local/ 中:
sudo tar -zxf ~/下載/hadoop-2.6.0.tar.gz -C /usr/local # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 將檔案夾名改為hadoop
sudo chown -R hadoop ./hadoop # 修改檔案權限
Hadoop 解壓后即可使用,輸入如下命令來檢查 Hadoop 是否可用,成功則會顯示 Hadoop 版本資訊:
cd /usr/local/hadoop
./bin/hadoop version

2、對Hadoop進行偽分布式的配置(Hadoop默認安裝好單機配置)
Hadoop 的組態檔位于 /usr/local/hadoop/etc/hadoop/ 中,偽分布式需要修改2個組態檔 core-site.xml 和 hdfs-site.xml ,Hadoop的組態檔是 xml 格式,每個配置以宣告 property 的 name 和 value 的方式來實作,
cd /usr/local/hadoop/etc/hadoop/
在進行修改組態檔前,需要創建相應的檔案夾進行存放,以防后續操作無法啟動Hadoop
sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data
下面開始配置core-site.xml 和 hdfs-site.xml
vim core-site.xml
在組態檔中找到下面這個標簽對
<configuration>
</configuration>
修改為下面配置:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
同樣的,修改組態檔 hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
3、格式化NameNode
配置完成后,執行 NameNode 的格式化:成功的話,會看到 “successfully formatted” 和 “Exitting with status 0” 的提示,
cd /usr/local/hadoop
./bin/hdfs namenode -format

4、開啟NameNode和DataNode守護行程
cd /usr/local/hadoop
./sbin/start-dfs.sh #start-dfs.sh是個完整的可執行檔案,中間沒有空格
若出現如下SSH提示,輸入yes即可,

啟動時可能會出現如下 WARN 提示:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable WARN 提示可以忽略,并不會影響正常使用
5、驗證安裝是否成功
啟動完成后,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下行程: “NameNode”、”DataNode” 和 “SecondaryNameNode”

成功啟動后,可以訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 資訊,還可以在線查看 HDFS 中的檔案,

五、呼叫MapReduce執行WordCount對單詞進行計數
1、上傳檔案
準備一個待分析的英語文本檔案,在此我選擇30000多字的《哈姆雷特》原文劇本,需要可:點擊下載.
將hamlet.txt檔案放置于/usr/local/hadoop目錄下中,以便后續操作

接下來將實驗檔案上傳到HDFS中(Hadoop已為開啟狀態)
./bin/hdfs dfs -put /usr/local/hadoop/demo.txt input
接著使用 ls 命令查看檔案上傳情況,上傳成功后可以在檔案中看到檔案
./bin/hdfs dfs –ls input

2、在Ubuntu中安裝Eclipse
Hadoop不同的檔案系統之間通過呼叫Java API進行互動,利用Java API進行互動,需要利用軟體Eclipse撰寫Java程式,
利用Ubuntu左側邊欄自帶的軟體中心安裝軟體,在Ubuntu左側邊欄打開軟體中心搜索下載,

3、配置 Hadoop-Eclipse-Plugin
Hadoop-Eclipse-Plugin可從這里 點擊下載,下載后,將 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar 復制到 Eclipse 安裝目錄的 plugins 檔案夾中,運行 eclipse -clean 重啟 Eclipse 即可(添加插件后只需要運行一次該命令,以后按照正常方式啟動就行了),命令如下:
unzip -qo ~/下載/hadoop2x-eclipse-plugin-master.zip -d ~/下載 # 解壓到~/下載中
sudo cp ~/下載/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/ # 復制到eclipse安裝目錄的plugins目錄下
/usr/lib/eclipse/eclipse -clean # 添加插件后需要用這種方式使插件生效
執行完以上命令后,系統會自動打開Eclipse,打開后看到左邊的Project Explorer里出現了DFS Locations

接下來插件需要進一步的配置,在上方找到Window——Preference

在表單的左側找到 Hadoop Map/Reduce 選項,填入Hadoop 的安裝地址/usr/local/hadoop

然后切換 Map/Reduce 開發視圖,選擇 Window 選單下選擇 Open Perspective -> Other,選擇 Map/Reduce 選項即可進行切換,


隨后可建立與 Hadoop 集群的連接,點擊 Eclipse右下角的 Map/Reduce Locations 面板,在面板中單擊右鍵,選擇 New Hadoop Location,

在彈出來面板中,General 中的配置引數要與 Hadoop 的配置一致,由于使用的Hadoop偽分布式配置,設定 fs.defaultFS 為 hdfs://localhost:9000,所以此處DFS Master 的 Port 要改為 9000,其余默認即可,

配置好后,點擊展開左側的Project Explorer中能夠找到我們上傳的檔案,

4、創建MapReduce專案
eclipse右上角點擊File選單,選擇New——Project

選擇Map/Reduce Project,點擊Next進入下一步

輸入專案名稱,點擊Finish完成創建

點擊展開剛創建的Word Reduce專案,選中右鍵src 選擇NEW – Class 創建java類,

在彈出的視窗中只需填入Package和Name, Package 處需填寫 org.apache.hadoop.examples;Name可自定義;其他默認即可,

5、呼叫MapReduce對檔案中各個單詞出現次數進行統計
完成Class創建能看到WordCount.java 這個人間,將下面代碼復制進剛創建好的WordCount.java檔案中
package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {
public WordCount() {
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
//String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
String[] otherArgs=new String[]{"input","output"};
if(otherArgs.length < 2) {
System.err.println("Usage: wordcount <in> [<in>...] <out>");
System.exit(2);
}
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(WordCount.TokenizerMapper.class);
job.setCombinerClass(WordCount.IntSumReducer.class);
job.setReducerClass(WordCount.IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
for(int i = 0; i < otherArgs.length - 1; ++i) {
FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
}
FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
System.exit(job.waitForCompletion(true)?0:1);
}
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();
public IntSumReducer() {
}
public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
int sum = 0;
IntWritable val;
for(Iterator<IntWritable> i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
val = i$.next();
}
this.result.set(sum);
context.write(key, this.result);
}
}
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
private static final IntWritable one = new IntWritable(1);
private Text word = new Text();
public TokenizerMapper() {
}
public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while(itr.hasMoreTokens()) {
this.word.set(itr.nextToken());
context.write(this.word, one);
}
}
}
}
在運行 MapReduce 程式前,需要將 /usr/local/hadoop/etc/hadoop 中將有修改過的組態檔(如偽分布式需要 core-site.xml 和 hdfs-site.xml),以及 log4j.properties 復制到 WordCount 專案下的 src 檔案夾(~/workspace/WordCount/src)中,在終端中輸入下列幾行內容:
cp /usr/local/hadoop/etc/hadoop/core-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/log4j.properties ~/workspace/WordCount/src

復制完成后,務必右鍵點擊 WordCount 選擇 refresh 進行重繪,可看到src中多出了幾個檔案:

完成以上的準備后,點擊上面運行按鈕,點擊Run As——Run on Hadoop啟動MapReduce程式

此時可能會提示 “Usage: wordcount “,由于沒有指定引數,需要通過Eclipse配置運行引數,
在此點擊運行 WordCount.java,此次選擇 Run As -> Run Configurations,在此處可以設定運行時的相關引數,選擇 “Arguments” 欄,在 Program arguments 處填寫 “input output” ;在點擊 Run 執行,

當程式執行完畢后,選中圖片中的Hadoop檔案,右鍵點擊Refresh才能看到輸出檔案,

Refresh重繪完后,能看到Hadoop目錄下生成output檔案夾,其中part-r-00000中為各個單詞出現次數進行統計的結果,

除了在eclipse中查看結果外,也可以通過命令列查看
cd /usr/local/haddop
./bin/hdfs dfs -cat output/part-r-00000
也可輸入下面命令,把HDFS中檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下
./bin/hdfs dfs -get output/part-r-00000 /home/hadoop/下載
END
六.參考文獻
[1] http://dblab.xmu.edu.cn/blog/290-2/.
[2] http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/.
[3] http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html.
[4] http://www.blogjava.net/LittleRain/archive/2006/12/31/91165.html.
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/236000.html
標籤:其他
