hadoop的檔案配置可以概括為4+3+1!
4即是core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml,3是hadoop-env.sh,yarn-env.sh,mapred-env.sh,1則是slaves檔案,共8個檔案,
1core-site.xml檔案:因為hadoop默認設定資料是放在/tmp上面的,但是linux /tmp目錄的檔案見名知意的會被洗掉,所以hadoop.tmp.dir必須要改;fs.defaultFS指定代碼訪問集群的節點和埠,因為設計自己的ip問題,所以也必須改
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/bigdata/hadoop/data</value> </property> <!--配置Hadoop NameNode節點--> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration>
2hdfs-site.xml檔案:dfs.replication設定集群檔案的副本數,副本數應該小于等于節點數,3個節點可以滿足一般安全性;dfs.namenode.secondary.http-address指定secondarynamenode節點,可以輔助namenode,值得分配節點,
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>slave2:50090</value> </property> </configuration>
3yarn-site.xml檔案:yarn.nodemanager.aux-services指定mapreduce_shuffle方式;yarn.resourcemanager.hostname指定yarn的主機,肯定要分配的,注:yarn的web埠默認為8088,在這里url為http://slave1:8088
<configuration> <!-- Site specific YARN configuration properties --> <!--reducer獲取資料的方式--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定yarn的ResourceManager的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>slave1</value> </property> </configuration>
4mapred-site.xml檔案:mapreduce.framework.name指定mapreduce運行在yarn上面,yarn作為大資料集群調度框架可以協調hadoop、spark等,還是很重要的,注:這個檔案需要從mapred-site.xml.template檔案復制成mapred-site.xml檔案,
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5hadoop-env.sh、6yarn-env.sh、7mapred-env.sh檔案都是修改JAVA_HOME路徑,理論來說在linux上面環境變數JAVA_HOME設定后,hadoop是能獲取的java路徑的,但是實際hadoop可能獲取不到,所以為了集群的獨立性建議直接指定這些檔案的JAVA_HOME路徑,可以使用vim編輯器使用/JAVA_HOME搜索,將路徑直接寫在檔案里面,
8slaves檔案,這個檔案主要是控制集群啟動集群時命令通過訪問這個檔案啟動對應虛擬機的hadoop行程,為了方便集群啟動命令,也是要寫上的,
將hadoop壓縮包解壓后,配置完4+3+1檔案,就可以執行sbin/hadoop namenode -format命令格式化namenode資訊,然后執行sbin/start-dfs.sh啟動hdfs集群(namenode和datanode,SecondaryNamenode),在yarn所在的機器上執行sbin/start-yarn.sh命令啟動yarn集群(resourcemanager和nodemanager),
備注:namenode web埠時50070,yarn web埠時8088.
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/1099.html
標籤:大數據
