想要面試大資料作業的50道必看題-有解無憂

摘要：是否對面試官在 Hadoop 面試中可能會問的所有問題感到不知所措？現在是時候通過一系列涵蓋 Hadoop 框架不同方面的 Hadoop 面試問題了，

本文分享自華為云社區《2021 年你必須準備的 50 大 Hadoop 面試問題》，作者：Donglian Lin ，

在本文中，我們將涵蓋所有常見問題，這些問題將幫助您通過最佳解決方案在面試中勝出，但在此之前，讓我告訴您對大資料和 Hadoop 專家的需求是如何持續增長的，

美國大資料 Hadoop 開發人員的平均工資為 144,000 美元- Indeed.com
印度大資料 Hadoop 開發人員的平均工資為 1600,000 盧比-Indeed.com
英國的平均年薪為￡66,250 – ￡66,750- itjobswatch.co.uk

我想提請您注意大資料革命，早些時候，組織只關心運營資料，不到整體資料的 20%，后來，他們意識到分析整個資料會給他們更好的業務洞察力和決策能力，那是雅虎、Facebook、谷歌等巨頭開始采用 Hadoop 和大資料相關技術的時候，事實上，現在五分之一的公司正在轉向大資料分析，因此，對大資料 Hadoop 作業的需求正在上升，因此，如果您想提升自己的職業生涯，Hadoop 和 Spark 正是您需要的技術，無論是新人還是有經驗的人，這總是會給您一個良好的開端，

準備好這些頂級 Hadoop 面試問題，以便在新興的大資料市場中占據優勢，全球和本地企業，無論大小，都在尋找優質的大資料和 Hadoop 專家，這份 Hadoop 頂級面試問題的權威串列將帶您了解有關Hadoop 集群、 HDFS、 MapReduce、Pig、Hive、HBase的問題和答案，這個博客是通往下一個 Hadoop 作業的門戶，

以下是我們將要討論的問題的大綱：
基本的 Hadoop 面試問題
Hadoop HDFS 面試問題
Hadoop MapReduce 面試題
Apache Pig 面試問題
Apache Hive 面試問題
Apache HBase 面試題
Apache Spark 面試問題
Oozie & Zookeeper 面試問題

如果您在 Hadoop 面試中遇到一些困難的問題，并且仍然對最佳答案感到困惑，請將這些問題放在下面的評論部分，我們很樂意回答他們，

1、關系型資料庫和HDFS的基本區別是什么？

以下是 HDFS 和關系資料庫之間的主要區別：

2. 解釋“大資料”，大資料的五個 V 是什么？

“大資料”是大量復雜資料集的術語，這使得使用關系資料庫管理工具或傳統資料處理應用程式難以處理，捕獲、管理、存盤、搜索、共享、傳輸、分析和可視化大資料很困難，大資料已成為企業的機遇，現在，他們可以成功地從資料中獲取價值，并且憑借增強的業務決策能力，將比競爭對手具有明顯的優勢，

? 提示：在此類問題中談論 5V 將是一個好主意，無論是否專門詢問！

卷：卷表示以指數速率增長的資料量，即以 PB 和 Exabytes 為單位，
速度：速度是指資料增長的速度，非常快，今天，昨天的資料被認為是舊資料，如今，社交媒體是資料增長速度的主要貢獻者，
多樣性：多樣性是指資料型別的異質性，換句話說，收集到的資料有多種格式，如視頻、音頻、csv 等，因此，這些不同的格式代表了資料的多樣性，
真實性：真實性是指由于資料的不一致和不完整而對可用資料存疑或不確定的資料，可用資料有時會變得混亂并且可能難以信任，大資料形式多樣，質量和準確性難以控制，數量往往是資料缺乏質量和準確性的原因，
價值：獲得大資料固然很好，但除非我們能將其轉化為價值，否則它毫無用處，通過將其轉化為價值，我的意思是，它是否增加了組織的利益？致力于大資料的組織是否實作了高 ROI（投資回報率）？除非它通過處理大資料來增加他們的利潤，否則它是沒有用的，

3.什么是Hadoop及其組件，

當“大資料”成為一個問題時，Apache Hadoop 演變為它的解決方案，Apache Hadoop 是一個框架，它為我們提供各種服務或工具來存盤和處理大資料，它有助于分析大資料并從中做出業務決策，這是使用傳統系統無法高效和有效地完成的，

? 提示：現在，在講解Hadoop的同時，還要講解一下Hadoop的主要組成部分，即：

存盤單元——HDFS（NameNode、DataNode）
處理框架——YARN（ResourceManager、NodeManager）

4. 什么是 HDFS 和 YARN？

HDFS（Hadoop分布式檔案系統）是Hadoop的存盤單元，它負責在分布式環境中將不同型別的資料存盤為塊，它遵循主從拓撲，

? 提示：建議對HDFS組件也進行說明即

NameNode： NameNode 是分布式環境中的主節點，它維護存盤在 HDFS 中的資料塊的元資料資訊，如塊位置、復制因子等，
DataNode： DataNode 是從節點，負責在 HDFS 中存盤資料，NameNode 管理所有的 DataNode，

YARN（Yet Another Resource Negotiator）是 Hadoop 中的處理框架，它管理資源并為行程提供執行環境，

? 提示：同理，就像我們在 HDFS 中所做的那樣，我們也應該解釋一下 YARN 的兩個組件：

ResourceManager：它接收處理請求，然后相應地將請求的部分傳遞給相應的 NodeManager，在那里進行實際處理，它根據需要為應用程式分配資源，
NodeManager： NodeManager 安裝在每個DataNode 上，負責在每個DataNode 上執行任務，

5. 告訴我各種 Hadoop 守護行程及其在 Hadoop 集群中的作用，

通常通過首先解釋 HDFS 守護程式，即 NameNode、DataNode 和輔助 NameNode，然后轉到 YARN 守護程式，即 ResorceManager 和 NodeManager，最后解釋 JobHistoryServer 來解決這個問題，

NameNode：它是主節點，負責存盤所有檔案和目錄的元資料，它有關于塊的資訊，它創建一個檔案，以及這些塊在集群中的位置，
Datanode：它是包含實際資料的從節點，
輔助 NameNode：它會定期將更改（編輯日志）與 NameNode 中存在的 FsImage（檔案系統映像）合并，它將修改后的 FsImage 存盤到持久化存盤中，可以在 NameNode 失敗的情況下使用，
ResourceManager：它是管理資源和調度運行在 YARN 之上的應用程式的中央機構，
NodeManager：它運行在從機上，負責啟動應用程式的容器（應用程式在其中執行它們的部分），監控它們的資源使用情況（CPU、記憶體、磁盤、網路）并將這些報告給 ResourceManager，
JobHistoryServer：它在Application Master 終止后維護有關MapReduce 作業的資訊，

Hadoop HDFS 面試問題

6. 將 HDFS 與網路附加存盤 (NAS) 進行比較，

本題先解釋一下NAS和HDFS，然后比較它們的特點如下：

網路附加存盤 (NAS) 是連接到計算機網路的檔案級計算機資料存盤服務器，提供對異構客戶端組的資料訪問，NAS 可以是提供存盤和訪問檔案服務的硬體或軟體，而 Hadoop 分布式檔案系統 (HDFS) 是使用商品硬體存盤資料的分布式檔案系統，
在 HDFS 中，資料塊分布在集群中的所有機器上，而在 NAS 中，資料存盤在專用硬體上，
HDFS 旨在與 MapReduce 范式一起使用，其中將計算移至資料，NAS 不適合 MapReduce，因為資料與計算分開存盤，
HDFS 使用的是具有成本效益的商品硬體，而 NAS 是包含高成本的高端存盤設備，

7. 列出 Hadoop 1 和 Hadoop 2 的區別，

這是一個重要的問題，在回答這個問題時，我們必須主要關注兩點，即被動 NameNode 和 YARN 架構，

在 Hadoop 1.x 中，“NameNode”是單點故障，在 Hadoop 2.x 中，我們有主動和被動的“NameNodes”，如果主動“NameNode”出現故障，則被動“NameNode”負責，因此，可以在 Hadoop 2.x 中實作高可用性，
此外，在 Hadoop 2.x 中，YARN 提供了一個中央資源管理器，使用 YARN，您現在可以在 Hadoop 中運行多個應用程式，所有應用程式都共享一個公共資源，MRV2 是一種特殊型別的分布式應用程式，它在 YARN 之上運行 MapReduce 框架，其他工具也可以通過 YARN 執行資料處理，這在 Hadoop 1.x 中是一個問題，

8. 什么是主動和被動“NameNodes”？

在 HA（高可用性）架構中，我們有兩個 NameNode——主動“NameNode”和被動“NameNode”，

活動的“NameNode”是在集群中作業和運行的“NameNode”，
被動的“NameNode”是備用的“NameNode”，與主動的“NameNode”具有相似的資料，

當主動“NameNode”出現故障時，被動“NameNode”會替換集群中的主動“NameNode”，因此，集群永遠不會沒有“NameNode”，因此它永遠不會失敗，

9. 為什么在Hadoop集群中頻繁洗掉或添加節點？

Hadoop 框架最吸引人的特性之一是它對商品硬體的利用，然而，這會導致 Hadoop 集群中頻繁出現“DataNode”崩潰，Hadoop 框架的另一個顯著特點是隨著資料量的快速增長而易于擴展，由于這兩個原因，Hadoop 管理員最常見的任務之一就是在 Hadoop 集群中啟用（添加）和停用（移除）“資料節點”，

10. 當兩個客戶端試圖訪問 HDFS 中的同一個檔案時會發生什么？

HDFS 僅支持獨占寫入，

當第一個客戶端聯系“NameNode”打開檔案進行寫入時，“NameNode”授予客戶端創建該檔案的租約，當第二個客戶端嘗試打開同一個檔案進行寫入時，“NameNode”會注意到該檔案的租用已經授予另一個客戶端，并拒絕第二個客戶端的打開請求，

11. NameNode 如何處理 DataNode 故障？

NameNode 定期從集群中的每個 DataNode 接收心跳（信號），這意味著 DataNode 運行正常，

塊報告包含 DataNode 上所有塊的串列，如果一個 DataNode 發送心跳訊息失敗，則在特定時間段后將其標記為死亡，

NameNode 使用之前創建的副本將死節點的塊復制到另一個 DataNode，

12. NameNode宕機了怎么辦？

NameNode 恢復程序包括以下步驟來啟動和運行 Hadoop 集群：

使用檔案系統元資料副本（FsImage）啟動一個新的 NameNode，
然后，配置 DataNode 和客戶端，以便它們可以確認這個新的 NameNode，即啟動，
現在，新的 NameNode 將在完成加載最后一個檢查點 FsImage（用于元資料資訊）并從 DataNode 接收到足夠的塊報告后開始為客戶端提供服務，

而在大型 Hadoop 集群上，NameNode 恢復程序可能會消耗大量時間，這在日常維護的情況下成為更大的挑戰，

13. 什么是檢查點？

簡而言之，“Checkpointing”是一個獲取 FsImage 的程序，編輯日志并將它們壓縮到一個新的 FsImage 中，因此，NameNode 可以直接從 FsImage 加載最終的記憶體狀態，而不是重放編輯日志，這是一種更有效的操作，并減少了 NameNode 的啟動時間，檢查點由輔助 NameNode 執行，

14、HDFS如何容錯？

當資料存盤在 HDFS 上時，NameNode 將資料復制到多個 DataNode，默認復制因子為 3，您可以根據需要更改配置因子，如果 DataNode 出現故障，NameNode 會自動將資料從副本復制到另一個節點并使資料可用，這在 HDFS 中提供了容錯能力，

15. NameNode 和 DataNode 可以是商品硬體嗎？

這個問題的明智答案是，DataNodes 是像個人計算機和筆記本電腦一樣的商品硬體，因為它存盤資料并且需要大量使用，但是根據您的經驗，您可以看出，NameNode 是主節點，它存盤有關存盤在 HDFS 中的所有塊的元資料，它需要高記憶體（RAM）空間，因此NameNode需要是具有良好記憶體空間的高端機器，

16. 為什么我們在有大量資料集的應用程式中使用 HDFS 而不是在有很多小檔案時？

與分布在多個檔案中的少量資料相比，HDFS 更適合單個檔案中的大量資料集，如您所知，NameNode 將有關檔案系統的元資料資訊存盤在 RAM 中，因此，記憶體量會限制我的 HDFS 檔案系統中的檔案數量，換句話說，過多的檔案會導致生成過多的元資料，而且，將這些元資料存盤在 RAM 中將成為一項挑戰，根據經驗，檔案、塊或目錄的元資料需要 150 個位元組，

17.在HDFS中如何定義“塊”？Hadoop 1 和 Hadoop 2 中的默認塊大小是多少？可以改變嗎？

塊只是硬碟驅動器上存盤資料的最小連續位置，HDFS 將每個存盤為塊，并將其分布在整個 Hadoop 集群中，HDFS 中的檔案被分解為塊大小的塊，這些塊作為獨立的單元存盤，

Hadoop 1 默認塊大小：64 MB
Hadoop 2 默認塊大小：128 MB

是的，可以配置塊，可以在 hdfs-site.xml 檔案中使用 dfs.block.size 引數來設定 Hadoop 環境中塊的大小，

18. 'jps' 命令有什么作用？

'jps' 命令幫助我們檢查 Hadoop 守護行程是否正在運行，它顯示了機器上運行的所有 Hadoop 守護行程，即 namenode、datanode、resourcemanager、nodemanager 等，

19. 你如何定義 Hadoop 中的“機架感知”？

機架感知是“NameNode”根據機架定義決定如何放置塊及其副本的演算法，以最大限度地減少同一機架內“DataNode”之間的網路流量，假設我們考慮復制因子 3（默認），策略是“對于每個資料塊，一個機架中將存在兩個副本，另一個機架中將存在第三個副本”，此規則稱為“副本放置策略”，

20. Hadoop 中的“推測執行”是什么？

如果某個節點似乎執行任務的速度較慢，則主節點可以在另一個節點上冗余地執行同一任務的另一個實體，然后，首先完成的任務將被接受，另一個被殺死，這個程序稱為“推測執行”，

21. 如何重啟“NameNode”或Hadoop中的所有守護行程？

這個問題可以有兩個答案，我們將討論這兩個答案，我們可以通過以下方法重啟NameNode：

您可以使用單獨停止 NameNode ，/sbin /hadoop-daemon.sh 停止 namenode命令，然后使用. /sbin/hadoop-daemon.sh 啟動 namenode 命令，
要停止和啟動所有守護行程，請使用. /sbin/全部停止，sh 然后使用 . /sbin/start-all.sh 命令將首先停止所有守護行程，然后啟動所有守護行程，

這些腳本檔案位于 Hadoop 目錄內的 sbin 目錄中，

22. “HDFS Block”和“Input Split”有什么區別？

“HDFS Block”是資料的物理劃分，而“Input Split”是資料的邏輯劃分，HDFS 將資料劃分為塊以將塊存盤在一起，而對于處理，MapReduce 將資料劃分為輸入拆分并將其分配給映射器函式，

23. 說出 Hadoop 可以運行的三種模式，

Hadoop可以運行的三種模式如下：

獨立（本地）模式：如果我們不配置任何東西，這是默認模式，在這種模式下，Hadoop 的所有組件，如 NameNode、DataNode、ResourceManager 和 NodeManager，都作為一個 Java 行程運行，這使用本地檔案系統，
偽分布式模式：單節點 Hadoop 部署被視為以偽分布式模式運行 Hadoop 系統，在這種模式下，所有 Hadoop 服務，包括主服務和從服務，都在單個計算節點上執行，
完全分布式模式：Hadoop 主從服務運行在不同節點上的 Hadoop 部署被稱為完全分布式模式，

Hadoop MapReduce 面試題

24.什么是“MapReduce”？運行“MapReduce”程式的語法是什么？

它是一種框架/編程模型，用于使用并行編程在計算機集群上處理大型資料集，運行 MapReduce 程式的語法是hadoop_jar_file.jar /input_path /output_path，

如果你對 MapReduce 有任何疑問或想修改你的概念，你可以參考這個MapReduce 教程，

25. “MapReduce”程式的主要配置引數是什么？

“MapReduce”框架中用戶需要指定的主要配置引數有：

分布式檔案系統中作業的輸入位置
作業在分布式檔案系統中的輸出位置
資料輸入格式
資料輸出格式
包含地圖功能的類
包含 reduce 函式的類
包含映射器、減速器和驅動程式類的 JAR 檔案

26. 說明我們不能在mapper中進行“聚合”（加法）的原因？為什么我們需要“減速器”呢？

這個答案包括很多點，所以我們將依次進行，

我們不能在 mapper 中執行“聚合”（加法），因為在“mapper”函式中不會發生排序，排序只發生在reducer 端，沒有排序聚合是無法完成的，
在“聚合”期間，我們需要所有映射器函式的輸出，這些輸出在映射階段可能無法收集，因為映射器可能運行在存盤資料塊的不同機器上，
最后，如果我們嘗試在 mapper 上聚合資料，它需要在可能運行在不同機器上的所有 mapper 函式之間進行通信，因此，它會消耗高網路帶寬并可能導致網路瓶頸，

27、Hadoop中“RecordReader”的作用是什么？

“InputSplit”定義了一個作業片段，但沒有描述如何訪問它，“RecordReader”類從其源加載資料并將其轉換為適合“Mapper”任務讀取的（鍵、值）對，“RecordReader”實體由“輸入格式”定義，

28. 解釋“MapReduce 框架”中的“分布式快取”，

分布式快取可以解釋為，MapReduce 框架提供的一種工具，用于快取應用程式所需的檔案，一旦你為你的作業快取了一個檔案，Hadoop 框架就會讓它在你運行 map/reduce 任務的每個資料節點上可用，然后，您可以在 Mapper 或 Reducer 作業中將快取檔案作為本地檔案訪問，

29、“reducers”之間是如何通信的？

這是一個棘手的問題，“MapReduce”編程模型不允許“reducer”相互通信，“減速器”是孤立運行的，

30. “MapReduce Partitioner”有什么作用？

“MapReduce Partitioner”確保單個鍵的所有值都進入同一個“reducer”，從而允許在“reducer”上均勻分布地圖輸出，它通過確定哪個“reducer”負責特定鍵，將“mapper”輸出重定向到“reducer”，

31. 你將如何撰寫自定義磁區器？

可以按照以下步驟輕松撰寫 Hadoop 作業的自定義磁區器：

創建一個擴展 Partitioner 類的新類
覆寫方法 – getPartition，在 MapReduce 中運行的包裝器中，
使用 set Partitioner 方法將自定義磁區程式添加到作業，或將自定義磁區程式作為組態檔添加到作業，

32、什么是“合路器”？

“Combiner”是一個執行本地“reduce”任務的迷你“reducer”，它從特定“節點”上的“映射器”接收輸入，并將輸出發送到“減速器”，“組合器”通過減少需要發送到“減速器”的資料量來幫助提高“MapReduce”的效率，

33. 你對“SequenceFileInputFormat”了解多少？

“SequenceFileInputFormat”是用于在序列檔案中讀取的輸入格式，它是一種特定的壓縮二進制檔案格式，經過優化，可將一個“MapReduce”作業的輸出之間的資料傳遞到其他“MapReduce”作業的輸入，

序列檔案可以作為其他 MapReduce 任務的輸出生成，并且是從一個 MapReduce 作業傳遞到另一個 MapReduce 作業的資料的有效中間表示，

Apache Pig 面試問題

34. Apache Pig 相對于 MapReduce 有哪些優勢？

Apache Pig 是一個平臺，用于分析將它們表示為雅虎開發的資料流的大型資料集，它旨在提供對 MapReduce 的抽象，降低撰寫 MapReduce 程式的復雜性，

Pig Latin 是一種高級資料流語言，而 MapReduce 是一種低級資料處理范式，
無需在 MapReduce 中撰寫復雜的 Java 實作，程式員可以使用 Pig Latin 非常輕松地實作相同的實作，
Apache Pig 將代碼長度減少了大約 20 倍（根據 Yahoo），因此，這將開發周期縮短了近 16 倍，
Pig 提供了許多內置運算子來支持資料操作，如連接、過濾、排序、排序等，而在 MapReduce 中執行相同的功能是一項艱巨的任務，
在 Apache Pig 中執行 Join 操作很簡單，而在 MapReduce 中很難在資料集之間執行 Join 操作，因為它需要依次執行多個 MapReduce 任務才能完成作業，
此外，pig 還提供了 MapReduce 中缺少的嵌套資料型別，例如元組、包和映射，

35. Pig Latin 中有哪些不同的資料型別？

Pig Latin 可以處理原子資料型別（如 int、float、long、double 等）和復雜資料型別（如 tuple、bag 和 map），

原子資料型別：原子或標量資料型別是所有語言中使用的基本資料型別，如字串、整數、浮點、長、雙、char[]、byte[]，

復雜資料型別：復雜資料型別有元組、映射和包，

36. 你合作過的“Pig Latin”中有哪些不同的關系運算？

不同的關系運算子是：

for each
order by
filters
group
distinct
join
limit

37.什么是UDF？

如果某些函式在內置運算子中不可用，我們可以通過編程方式創建用戶定義函式 (UDF)，以使用其他語言（如 Java、Python、Ruby 等）引入這些功能，并將其嵌入到 Script 檔案中，

Apache Hive 面試問題

38.“蜂巢”中的“SerDe”是什么？

Apache Hive 是一個建立在 Hadoop 之上的資料倉庫系統，用于分析 Facebook 開發的結構化和半結構化資料，Hive 抽象了 Hadoop MapReduce 的復雜性，

“SerDe”介面允許您指示“Hive”如何處理記錄，“SerDe”是“Serializer”和“Deserializer”的組合，“Hive”使用“SerDe”（和“FileFormat”）來讀取和寫入表的行，

39、默認的“Hive Metastore”可以被多個用戶（行程）同時使用嗎？

“Derby 資料庫”是默認的“Hive Metastore”，多個用戶（行程）不能同時訪問它，它主要用于執行單元測驗，

40. “Hive”存盤表資料的默認位置是什么？

Hive 存盤表資料的默認位置在 /user/hive/warehouse 中的 HDFS 內，

Apache HBase 面試題

41.什么是Apache HBase？

HBase 是一個開源、多維、分布式、可擴展和用 Java 撰寫的 NoSQL 資料庫，HBase 運行在 HDFS（Hadoop 分布式檔案系統）之上，并為 Hadoop 提供類似 BigTable (Google) 的功能，它旨在提供一種容錯方式來存盤大量稀疏資料集，HBase 通過在龐大的資料集上提供更快的讀/寫訪問來實作高吞吐量和低延遲，

42. Apache HBase 有哪些組件？

HBase 包含三個主要組件，即 HMaster Server、HBase RegionServer 和 Zookeeper，

Region Server：一個表可以分成幾個區域，區域服務器為客戶端提供一組區域，
HMaster：它協調和管理Region Server（類似于NameNode 管理HDFS 中的DataNode），
ZooKeeper：Zookeeper 就像 HBase 分布式環境中的協調器，它有助于通過會話進行通信來維護集群內的服務器狀態，

43、Region Server有哪些組成部分？

區域服務器的組件是：

WAL : Write Ahead Log (WAL) 是附加到分布式環境中每個 Region Server 的檔案，WAL 存盤尚未持久化或提交到永久存盤的新資料，
塊快取：塊快取駐留在區域服務器的頂部，它將經常讀取的資料存盤在記憶體中，
MemStore：它是寫快取，在將所有傳入資料提交到磁盤或永久記憶體之前，它會存盤所有傳入資料，一個區域中的每個列族都有一個 MemStore，
HFile：HFile 存盤在 HDFS 中，它將實際單元存盤在磁盤上，

44.解釋HBase中的“WAL”？

Write Ahead Log (WAL) 是附加到分布式環境中每個 Region Server 的檔案，WAL 存盤尚未持久化或提交到永久存盤的新資料，它用于恢復資料集失敗的情況，

45. 提到“HBase”和“關系資料庫”之間的區別？

HBase 是一個開源、多維、分布式、可擴展和用 Java 撰寫的 NoSQL 資料庫，HBase 運行在 HDFS 之上，并為 Hadoop 提供類似 BigTable 的功能，讓我們看看 HBase 和關系資料庫之間的區別，

Apache Spark 面試問題

46.什么是Apache Spark？

這個問題的答案是，Apache Spark 是一個在分布式計算環境中進行實時資料分析的框架，它執行記憶體計算以提高資料處理速度，

通過利用記憶體計算和其他優化進行大規模資料處理，它比 MapReduce 快 100 倍，

47. 你能用任何特定的 Hadoop 版本構建“Spark”嗎？

是的，可以為特定的 Hadoop 版本構建“Spark”，

48. 定義 RDD，

RDD 是彈性分布資料集的首字母縮寫詞 - 并行運行的操作元素的容錯集合，RDD 中的磁區資料是不可變的和分布式的，這是 Apache Spark 的一個關鍵組件，

Oozie 和 ZooKeeper 面試問題

49. Apache ZooKeeper 和 Apache Oozie 是什么？

Apache ZooKeeper 協調分布式環境中的各種服務，它通過執行同步、配置維護、分組和命名節省了大量時間，

Apache Oozie 是一個調度程式，它調度 Hadoop 作業并將它們作為一個邏輯作業系結在一起，有兩種 Oozie 作業：

Oozie 作業流：這些是要執行的順序操作集，您可以將其視為接力賽，每個運動員都在等待最后一名運動員完成他的部分，
Oozie Coordinator：這些是在資料可用時觸發的 Oozie 作業，將此視為我們體內的反應刺激系統，以同樣的方式，當我們對外部刺激做出反應時，Oozie 協調器會對資料的可用性做出反應，否則就會休息，

50. 如何在 Hadoop 中配置“Oozie”作業？

“Oozie”與 Hadoop 堆疊的其余部分集成，支持多種型別的 Hadoop 作業，例如“Java MapReduce”、“Streaming MapReduce”、“Pig”、“Hive”和“Sqoop”，

點擊關注，第一時間了解華為云新鮮技術~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/325522.html

標籤：其他

上一篇：資料集成工具的使用（四）---Flume 從理論學習到熟練使用

下一篇：如何從Oracle資料庫中的表中獲取列名（欄位名）串列？