大資料面試（二）：Kafka面試題-有解無憂

在這里插入圖片描述

面試題 01 什么是訊息佇列？

訊息佇列就是用于當兩個系統之間或者兩個模塊之間實作訊息傳遞時，基于佇列機制實作資料快取的中間件

面試題 02 訊息佇列有什么好處？

?實作解耦，將高耦合轉換為低耦合
?通過異步并發，提高性能，并實作最終一致性

面試題03、Kafka是什么？

?Kafka是一個基于訂閱發布模式的高性能、高吞吐的實時訊息佇列系統

面試題04、Kafka在大資料中用于什么場景下？

?用于實時架構中，實作將實時資料采集的資料進行實時存盤，供于SparkStreaming或者Flink等工具實作實時資料消費處理

面試題05、請簡述Kafka的集群架構

?Kafka是一個分布式主從架構集群
–主節點：Kafka Controller：一種特殊的Broker，由ZK輔助實作從所有Broker中選舉，負責集群管理，管理Topic及磁區副本等
–從節點：Kafka Broker：負責實作Kafka集群的資料存盤
?Kafka依賴于Zookeeper實作集群輔助管理
–基于Zookeeper輔助選舉Controller
–基于Zookeeper存盤元資料

面試題 06 Kafka中消費者與消費者組的關系是什么？

?消費者組負責訂閱Topic，消費者負責消費Topic磁區的資料
?消費者組中可以包含多個消費者，多個消費者共同消費資料，增加消費并行度，提高消費性能
?消費者組的id由開發者指定，消費者的id由Kafka自動分配

面試題07、Kafka中Topic和Partition是什么，如何保證Partition資料安全？

?Topic：邏輯上實作資料存盤的分類，類似于資料庫中的表概念
?Partition：Topic中用于實作分布式存盤的物理單元，一個Topic可以有多個磁區
–每個磁區可以存盤在不同的節點，實作分布式存盤
?保證資料安全通過副本機制：Kafka中每個磁區可以構建多個副本【副本個數 <= 機器的個數】
–將一個磁區的多個副本分為兩種角色
–leader副本：負責對外提供讀寫請求
–follower副本：負責與leader同步資料，如果leader故障，follower要重新選舉一個成為leader
?選舉：由Kafka Crontroller來決定誰是leader

面試題 08 Kafka中的Segment是什么？

?Segment是對磁區內部的資料進行更細的劃分，磁區段，檔案段
?規則：按照檔案產生的時間或者大小
?目的：提高寫入和查詢性能
–檔案名稱可以用于檢索資料：用offset命名的
?組成：每個Segment由兩個檔案組成
–.log：存盤的資料
–.index：對應.log檔案的索引資訊

面試題09、Kafka中的Offset是什么？

?Offset是kafka中存盤資料時給每個資料做的標記或者編號
?磁區級別的編號，每個磁區從0開始編號
?功能：消費者根據offset來進行消費，保證順序消費以及消費資料的一次性語意

面試題10、請簡述如何使用Kafka Simple Java API 實作資料生產？描述具體的類及方法

?step1：構建生產者連接物件：KafkaProducer
–需要配置物件：管理配置，例如連接地址：Properties
?step2：KafkaProducer：send：生產資料到Kafka中
–需要構建一個生產的資料物件：ProducerRecord
–ProducerRecord（Topic，Value）
–ProducerRecord（Topic，Key，Value）
–ProducerRecord（Topic，Partition，Key，Value）

面試題 11、請簡述如何使用Kafka Simple Java API 實作資料消費？描述具體的類及方法

?step1：構建消費者連接物件：KafkaConsumer
–需要配置物件：管理配置，例如連接地址：Properties
?step2：消費者需要訂閱Topic
–KafkaConsumer：subscribe（List）
?step3：消費資料
–KafkaConsumer：poll：實作拉取消費資料
–ConsumerRecords：拉取到的所有資料集合
–ConsumerRecord：消費到的每一條資料
?topic：獲取資料中的Topic
?partition：獲取資料中的磁區編號
?offset：獲取資料的offset
?key：獲取資料中的Key
?value：獲取資料中的Value

面試題12、請簡述Kafka生產資料時如何保證生產資料不丟失？

?acks機制：當接收方收到資料以后，就會回傳一個確認的ack訊息
?生產者向Kafka生產資料，根據配置要求Kafka回傳ACK
–ack=0：生產者不管Kafka有沒有收到，直接發送下一條
?優點：快
?缺點：容易導致資料丟失，概率比較高
–ack=1：生產者將資料發送給Kafka，Kafka等待這個磁區leader副本寫入成功，回傳ack確認，生產者發送下一條
?優點：性能和安全上做了平衡
?缺點：依舊存在資料丟失的概率，但是概率比較小
–ack=all/-1：生產者將資料發送給Kafka，Kafka等待這個磁區所有副本全部寫入，回傳ack確認，生產者發送下一條
?優點：資料安全
?缺點：慢
?如果使用ack=all，可以搭配min.insync.replicas引數一起使用，可以提高效率
–min.insync.replicas：表示最少同步幾個副本以后，就回傳ack
?如果生產者沒有收到ack，就使用重試機制，重新發送上一條訊息，直到收到ack

面試題 13 請簡述Kafka生產資料時如何保證生產資料不重復？

?資料重復的場景：Kafka寫入資料，回傳ack，但是ack丟失，生產者沒有收到ack，重新寫入資料，導致Kafka資料重復
?Kafka中使用冪等性機制來保證生產資料不重復
–step1：發送資料時，給每條資料增加一個資料id的編號，每次下一條資料的編號自增1
–step2：Kafka將資料寫入，并記住寫入的資料id
–step3：如果下一條資料的id與上一次的資料id一致，就不寫入，直接回傳ack

面試題14、Kafka中生產者的資料磁區規則是什么，如何自定義磁區規則？

?如果指定了磁區：就寫入指定的磁區
?如果沒有指定磁區，就判斷是否指定了Key
–如果指定了Key：根據Key的Hash取余磁區
–如果沒有指定Key：根據黏性磁區來實作
?自定義磁區
–開發一個類實作Partitioner介面
–實作partition方法
–在生產者中指定磁區器的配置

面試題15、Kafka中消費者消費資料的規則是什么？

?消費者根據Offset對Topic中的磁區進行消費
?第一次消費：根據auto.offset.reset屬性進行消費
–latest：從最新的位置開始消費
–earliest：從頭開始消費
?第二次消費：根據上一次的offset+1繼續消費

面試題 16、為什么要設計Segment？

?加快查詢效率：將資料劃分到多個小檔案中，通過offset匹配可以定位某個檔案，從小資料量中找到需要的資料
?提高洗掉性能：以Segment為單位進行洗掉，避免以每一條資料進行洗掉，影響性能

面試題17、什么是AR、ISR、OSR？

?AR：all replicas
–所有副本 = ISR + OSR
?ISR：In-sync-replicas
–表示正在同步的副本 =》可用副本磁區
–如果Leader故障，會從ISR中選舉一個新的leader
?OSR：Out-sync-replicas
–表示不健康的副本 =》不可用副本
–判斷依據
#如果這個從副本在這個時間內沒有與leader副本同步資料，認為這個副本是不正常的
引數設定: replica.lag.time.max.ms = 10000

面試題 18、什么是HW、LEO？

?HW：表示當前leader副本中所有Follower都已經同步的位置 + 1，高水位線
?LEO：表示當前leader副本最新的資料位置 + 1
?消費者能消費到的位置是HW：為了保證消費者消費磁區資料的統一性

面試題19、什么是一次性語意？

?at-most-once：最多一次
?at-least-once：至少一次
?exactly-once：有且僅有一次

面試題20、Kafka如何保證消費者消費資料不重復不丟失？

?Kafka消費者通過Offset實作資料消費，只要保證各種場景下能正常實作Offset的記錄即可
?保證消費資料不重復需要每次消費處理完成以后，將Offset存盤在外部存盤中，例如MySQL、Zookeeper、Redis中
?保證以消費磁區、處理磁區、記錄磁區的offset的順序實作消費處理
?如果故障重啟，只要從外部系統中讀取上一次的Offset繼續消費即可

侵刪轉自 https://manor.blog.csdn.net/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/292658.html

標籤：其他

上一篇：另類架構師：在國企涂肥皂水、考研被調劑、在阿里跟十八羅漢當同事……

下一篇：Spark基礎篇