Hadoop是什么？

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構，
主要解決，海量資料的存盤和海量資料的分析計算問題，
廣義上來說，Hadoop通常是指一個更廣泛的概念——Hadoop生態圈，

Hadoop 發展歷史（了解）

Hadoop創始人Doug Cutting，為了實作與Google類似的全文搜索功能，他在Lucene框架基礎上進行優化升級，查詢引擎和索引引擎，
2001年年底Lucene成為Apache基金會的一個子專案，
對于海量資料的場景，Lucene框架面對與Google同樣的困難，存盤海量資料困難，檢索海量速度慢，
學習和模仿Google解決這些問題的辦法：微型版Nutch，
可以說Google是Hadoop的思想之源（Google在大資料方面的三篇論文）
1. GFS —>HDFS
2. Map-Reduce —>MR
3. BigTable —>HBase
2003-2004年，Google公開了部分GFS和MapReduce思想的細節，以此為基礎Doug Cutting等人用了2年業余時間實作了DFS和MapReduce機制，使Nutch性能飆升，
2005 年Hadoop 作為Lucene的子專案Nutch的一部分正式引入Apache基金會，
2006 年3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分別被納入到Hadoop 專案中，Hadoop就此正式誕生，標志著大資料時代來臨，
名字來源于Doug Cutting兒子的玩具大象

總結：

創始人：Doug Cutting
名字由來：Doug Cutting兒子的玩具大象
基礎：Lucene框架
背景：Lucene框架和Google面對的困難：存盤海量資料困難，檢索海量速度慢
思想之源：谷歌三篇論文
1. GFS —>HDFS
2. Map-Reduce —>MR
3. BigTable —>HBase

Hadoop 三大發行版本（了解）

Hadoop 三大發行版本：Apache、Cloudera、Hortonworks，

Apache 版本最原始（最基礎）的版本，對于入門學習最好，2006
Cloudera 內部集成了很多大資料框架，對應產品 CDH，2008
Hortonworks 檔案較好，對應產品 HDP，2011
Hortonworks 現在已經被 Cloudera 公司收購，推出新的品牌 CDP， 2018
2021宣布所有版本收費

Hadoop 優勢（4 高）

高可靠性：Hadoop底層維護多個資料副本，所以即使Hadoop某個計算元
素或存盤出現故障，也不會導致資料的丟失，

高可靠性

高擴展性：在集群間分配任務資料，可方便的擴展數以千計的節點，可實作不停機擴展節點，

高擴展性

高效性：在MapReduce的思想下，Hadoop是并行作業的，以加快任務處
理速度，

高效性

高容錯性：能夠自動將失敗的任務重新分配，

高容錯性

Hadoop 組成（重點）

Hadoop1.x、2.x、3.x區別

HDFS

什么是HDFS？

Hadoop Distributed File System，簡稱 HDFS，是一個分布式檔案系統，用于存盤檔案，通過目錄樹來定位檔案；其次，它是分布式的，由很多服務器聯合起來實作其功能，集群中的服務器有各自的角色，

分布式檔案系統產生的背景

隨著資料量越來越大，在一個作業系統存不下所有的資料，那么就分配到更多的作業系統管理的磁盤中，但是不方便管理和維護，迫切需要一種系統來管理多臺機器上的檔案，這就是分布式檔案管理系統，

HDFS的使用場景

適合一次寫入，多次讀出的場景，一個檔案經過創建、寫入和關閉之后就不需要改變，

HDFS的優缺點

優點

高容錯性
- 資料自動保存多個副本，它通過增加副本的形式，提高容錯性，
- 某一個副本丟失以后，它可以自動恢復，
適合處理大資料
- 資料規模：能夠處理資料規模達到GB、TB、甚至PB級別的資料；
- 檔案規模：能夠處理百萬規模以上的檔案數量，數量相當之大，
可構建在廉價機器上，通過多副本機制，提高可靠性，

缺點

不適合低延時資料訪問，比如毫秒級的存盤資料，是做不到的，
無法高效的對大量小檔案進行存盤
- 存盤大量小檔案的話，它會占用NameNode大量的記憶體來存盤檔案目錄和塊資訊，這樣是不可取的，因為NameNode的記憶體總是有限的；
- 小檔案存盤的尋址時間會超過讀取時間，它違反了HDFS的設計目標，
不支持并發寫入、檔案隨機修改
- 一個檔案只能有一個寫，不允許多個執行緒同時寫
- 僅支持資料append（追加），不支持檔案的隨機修改

Yarn

什么是Yarn？

Yarn是一個資源調度平臺，負責為運算程式提供服務器運算資源，相當于一個分布式的作業系統平臺，而 MapReduce 等運算程式則相當于運行于作業系統之上的應用程式，

Yarn主要解決的問題

如何管理集群資源？
如何給任務合理分配資源？

Yet Another Resource Negotiator 簡稱 YARN ，另一種資源協調者，是 Hadoop 的資源管理器，

1）ResourceManager（RM）：管理整個集群資源（記憶體、CPU等）

3）ApplicationMaster（AM）：管理單個任務運行

2）NodeManager（NM）：管理單個節點服務器資源

4）Container：容器，相當一臺獨立的服務器，里面封裝了任務運行所需要的資源，如記憶體、CPU、磁盤、網路等，

YARN架構

說明1：客戶端可以有多個

說明2：集群上可以運行多個ApplicationMaster

說明3：每個NodeManager上可以有多個Container

MapReduce

什么是MapReduce？

MapReduce 是一個分布式運算程式的編程框架，是用戶開發“基于 Hadoop 的資料分析應用”的核心框架，

MapReduce 核心功能是 將用戶撰寫的業務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程式，并發運行在一個 Hadoop 集群上 ，

MapReduce 將計算程序分為兩個階段：Map 和 Reduce
1）Map 階段并行處理輸入資料
2）Reduce 階段對 Map 結果進行匯總

MapReduce架構

MapReduce 的使用場景

核心思想：如何把大問題分解成獨立的小問題，再并行解決，

典型場景：

計算URL的訪問頻率：搜索引擎的使用中，會遇到大量的URL的訪問，所以，可以使用 MapReduce 來進行統計，得出（URL,次數）結果，在后續的分析中可以使用，

Top K 問題：在各種的檔案分析，或者是不同的場景中，經常會遇到關于 Top K 的問題，例如輸出這篇文章的出現前5個最多的詞匯，這個時候也可以使用 MapReduce來進行統計，

MapReduce優缺點

優點

1、易于編程：用戶只關心業務邏輯，實作框架的介面，
2、良好擴展性：可以動態增加服務器，解決計算資源不夠問題，
3、高容錯性：任何一臺機器掛掉，可以將任務轉移到其他節點，
4、適合海量資料計算：（TB/PB）幾千臺服務器共同計算，

缺點

1、不擅長實時計算， Mysql（在毫秒或者秒級內回傳結果）
2、**不擅長流式計算， Spark Streaming | flink ，**流式計算的輸入資料是動態的，而 MapReduce 的輸入資料集是靜態的，不能動態變化，
3、不擅長DAG有向無環圖計算，spark ， 多個應用程式存在依賴關系，后一個應用程式的輸入為前一個的輸出，在這種情況下，MapReduce 并不是不能做，而是使用后，每個 MapReduce 作業的輸出結果都會寫入到磁盤，會造成大量的磁盤 IO，導致性能非常的低下，

HDFS、YARN、MapReduce 三者關系

Hadoop的環境配置

win10 安裝 Hadoop3.x

win10下安裝Hadoop3.x參看：

Win10安裝使用Hadoop3.0.0
win10下安裝Hadoop快速搞定——親測有效

啟動：

管理員命令下運行

hdfs namenode -format
sbin/start-all.cmd

測驗：

hadoop的web界面：http://localhost:9870/
yarn的web界面：http://localhost:8088/cluster

問題：

1、win10安裝hadoop啟動所有行程后，發現resourcemanager報錯：

FATAL resourcemanager.Resourcelanager : Error starting ResourceManager
java.lang.NoClassDefF oundBrror: org/apache/hadoop/yarn/server/timelineservice/col1ector/TimelineCol1ectoranager

解決：

將hadoop安裝目錄下\share\hadoop\yarn\timelineservice\hadoop-yarn-server-timelineservice-3.1.1.jar

移動到hadoop安裝目錄下\share\hadoop\yarn\hadoop-yarn-server-timelineservice-3.1.1.jar

2、win10安裝hadoop啟動所有行程后，發現nodemanager報錯：

2022021-10-06 16:39:15,916 ERROR nodemanager.NodelManager: Error starting Nodellanager
b36org.apache. hadoop,yarn. exceptions. YarnfuntimeException: Failed to setup local dir /tmp/hadoup-rsw/m-1ocal-dir，which wa202s marked as good.

解決：以管理員身份運行sbin/start-all.cmd即可，

在hadoop根目錄測驗：

hadoop jar /D:\javaweb\bigdata\hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar /D:\javaweb\bigdata\hadoop-3.1.3\intput\word.txt /D:\javaweb\bigdata\hadoop-3.1.3\output


hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input/word.txt  output 
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input output

配置歷史服務器

win10環境下

配置 mapred-site.xml

<!-- 歷史服務器端地址 --> 
<property> 
    <name>mapreduce.jobhistory.address</name> 
    <value>localhost:10020</value> 
</property> 
 
<!-- 歷史服務器 web端地址 --> 
<property> 
    <name>mapreduce.jobhistory.webapp.address</name> 
    <value>localhost:19888</value> 
</property>

在bin目錄下，cmd運行命令：

mapred historyserver

查看 JobHistory
http://hadoop102:19888/jobhistory

配置日志的聚集

配置yarn-site.xml

<!-- 開啟日志聚集功能 --> 
<property> 
    <name>yarn.log-aggregation-enable</name> 
    <value>true</value> 
</property> 
<!-- 設定日志聚集服務器地址 --> 
<property>   
    <name>yarn.log.server.url</name>   
    <value>http://hadoop102:19888/jobhistory/logs</value> 
</property> 
<!-- 設定日志保留時間為 7天 --> 
<property> 
    <name>yarn.log-aggregation.retain-seconds</name> 
    <value>604800</value> 
</property>

重啟程式，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/342080.html

標籤：區塊鏈

上一篇：TRX成為世界第一個通縮加密貨幣

下一篇：數字貨幣交易所系統開發APP

大資料基礎之Hadoop（一）—— Hadoop概述

Hadoop是什么？

Hadoop 發展歷史（了解）

Hadoop 三大發行版本（了解）

Hadoop 優勢（4 高）

Hadoop 組成（重點）

HDFS

什么是HDFS？

HDFS的使用場景

HDFS的優缺點

優點

缺點

Yarn

什么是Yarn？

Yarn主要解決的問題

MapReduce

MapReduce

什么是MapReduce？

MapReduce 的使用場景

MapReduce優缺點

優點

缺點

HDFS、YARN、MapReduce 三者關系

Hadoop的環境配置

win10 安裝 Hadoop3.x

配置歷史服務器

win10環境下

配置日志的聚集