【大資料嗶嗶集20210122】面試官問我HDFS丟不丟資料？我啪就把這個文章甩到他臉上-有解無憂

file

資料一致性

HDFS作為分布式檔案系統在分布式環境下如何保證資料一致性，HDFS中，存盤的檔案將會被分成若干的大小一致的block分布式地存盤在不同的機器上，需要NameNode節點來對這些資料進行管理，存盤這些block的結點稱為DataNode，NameNode是用來管理這些元資料的，

NameNode保證元資料的一致性

客戶端上傳檔案時，NameNode首先往edits log檔案中記錄元資料的操作日志，與此同時，NameNode將會在磁盤做一份持久化處理（fsimage檔案）：它跟記憶體中的資料是對應的，如何保證和記憶體中的資料的一致性？在edits logs滿之前對記憶體和fsimage的資料做同步，合并edits logs和fsimage上的資料，然后edits logs上的資料即可清除，而當edits logs滿之后，檔案的上傳不能中斷，所以將會往一個新的檔案edits.new上寫資料，而老的edits logs的合并操作將由secondNameNode來完成，即所謂的checkpoint操作，

checkpoint的觸發一般由兩種限制，一個是edits logs的大小限制，即fs.checkpoint.size配置；一個是指定時間，即fs.checkpoint.period配置，根據規定，大小的限制是優先的，規定edits檔案一旦超過閾值，則不管是否達到最大時間間隔，都會強制checkpoint，

SecondaytNameNode 是 HA（High Available 高可用性）的一個解決方案，但不支持熱備，配置即可，SecondaryNameNode執行程序：從NameNode上下載元資料資訊（fsimage、edits），然后把二者合并，生成新的fsimage，在本地保存，并將其推送到NameNode，替換舊的fsimage，(注：SecondaryNameNode 只存在于Hadoop1.0中，Hadoop2.0以上版本中沒有，但在偽分布模式中是有SecondaryNameNode的，在集群模式中是沒有SecondaryNameNode的)

SecondaryNameNode 作業流程步驟：

SecondaryNameNode 通知NameNode切換edits檔案
SecondaryNameNode 從NameNode獲得fsimage和edits(通過http)
SecondaryNameNode 將fsimage載入記憶體，然后開始合并edits，同樣合并edits操作是需要滿足一定條件才進行的，有兩個條件：
1)fs.checkpoint.period指定兩次checkpoint的最大時間間隔，默認3600秒
2)fs.checkpoint.size規定edits檔案的最大值，一旦超過這個值（默認大小是64M）則強制checkpoint，不管是否到達最大時間間隔，）
SecondaryNameNode 將新的fsimage發回給NameNode
NameNode用新的fsimage替換舊的fsimage

校驗和

HDFS 會對寫入的所有資料計算校驗和(checksum)，并在讀取資料時驗證校驗和，針對指定位元組的數目計算校驗和，位元組數默認是512 位元組，可以通過io.bytes.per.checksum屬性設定，通過CRC-32編碼后為4位元組，

DataNode 在保存資料前負責驗證checksum，client 會把資料和校驗和一起發送到一個由多個DataNode 組成的佇列中，最后一個DataNode 負責驗證checksum，如果驗證失敗，會拋出一個ChecksumException，客戶端需要處理這種例外，客戶端從DataNode 讀取資料時，也會驗證checksum，每個DataNode 都保存了一個驗證checksum的日志，每次客戶端成功驗證一個資料塊后，都會告知DataNode ，DataNode 會更新日志，

每個DataNode 也會在一個后臺執行緒中運行一個DataBlockScanner，定期驗證這個 DataNode 上的所有資料塊，在用 hadoop fs get 命令讀取檔案時，可以用 -ignoreCrc 忽略驗證，如果是通過FileSystem API 讀取時，可以通過setVerifyChecksum(false)，忽略驗證，Hadoop中的LocalFileSystem會進行客戶端的檢驗和，寫檔案時，會在目錄下創建一個名為.filename.crc的隱藏檔案，如果想禁止校驗和功能，可以用RawLocalFileSystem代替LocalFileSystem ，

Configuration conf = ...
FileSystem fs = new RawLocalFileSystem();
fs.initialize(null, conf);

或者直接設定fs.file.impl屬性為org.apache.hadoop.fs.RawLocalFileSystem，這樣會全域禁用checksum，LocalFileSystem內部使用了ChecksumFileSystem完成checksum作業，通過ChecksumFileSystem可以添加校驗和功能，

HA高可用

冗余副本

HDFS處理節點失效的一個方法就是資料冗余，即對資料做多個備份，在HDFS中可以通過組態檔設定備份的數量，如果不進行設定，這個數量默認為3，注意引數dfs.replication.min和dfs.replication的區別：在一個塊被寫入期間，只要至少寫入了dfs.replication.min個副本數（默認是1），寫操作就會成功，直到達到其目標副本數dfs.replication（默認是3）
HDFS副本在機架上如何分布？

HDFS采用一種稱為機架感知的策略來改進資料的可靠性、可用性和網路帶寬的利用率，在大多數情況下，HDFS副本系數是默認為3(dfs.replication)，HDFS的存放策略是將一個副本存放在本地機架節點上，一個副本存放在同一個機架的另一個節點上，最后一個副本放在不同機架的節點上，這種策略減少了機架間的資料傳輸，提高了寫操作的效率，機架的錯誤遠遠比節點的錯誤少，所以這種策略不會影響到資料的可靠性和可用性，與此同時，因為資料塊只存放在兩個不同的機架上，所以此策略減少了讀取資料時需要的網路傳輸總帶寬，

機架感知

通常，大型Hadoop集群是以機架的形式來組織的，同一個機架上不同節點間的網路狀況比不同機架之間的更為理想，Namenode設法將資料塊副本保存在不同的機架上以提高容錯性
HDFS如何得知哪個Datanode在哪個機架上？

HDFS使用了一種稱為“機架感知”的策略，HDFS不能夠自動判斷集群中各個Datanode的網路拓撲情況，必須通過配置dfs.network.script引數來確定節點所處的機架，檔案提供了IP->rackid的翻譯，NameNode通過這個得到集群中各個Datanode節點的rackid，

心跳機制

檢測節點失效使用“心跳機制”，每個DataNode節點周期性地向NameNode發送心跳信號，網路磁區可能導致一部分DataNode跟NameNode失去聯系，NameNode通過心跳信號的缺失來檢測這一情況，并將這些近期不再發送心跳信號DataNode標記為宕機，不會再將新的IO請求發給它們，

任何存盤在宕機DataNode上的資料將不再有效，DataNode的宕機可能會引起一些資料塊的副本系數低于指定值，NameNode不斷地檢測這些需要復制的資料塊，一旦發現就啟動復制操作，

在下列情況下，可能需要重新復制：
a) 某個DataNode節點失效
b) 某個副本遭到損壞
c) DataNode上的硬碟錯誤
d) 檔案的冗余因子增大

DataNode與NameNode心跳報告內容

一個資料塊在DataNode以檔案存盤在磁盤上，包括兩個檔案，一個是資料本身，一個是元資料包括資料塊的長度、塊資料的校驗和以及時間戳，當DataNode讀取block的時候，它會計算checksum，如果計算后的checksum，與block創建時值不一樣，說明該block已經損壞，如果塊已損壞，Client會讀取其它DataNode上的block，NameNode標記該塊已經損壞，然后復制block達到預期設定的檔案備份數，

DataNode啟動后向NameNode注冊，心跳是每3秒一次，目的是告訴namenode自己的存活狀況以及可用空間，心跳回傳結果帶有NameNode給該DataNode的命令如復制塊資料到另一臺機器，或洗掉某個資料塊，
確認datanode宕機
（1）停止發送心跳報告
默認連續10次心跳接受不到即連續10*3=30s不間斷，這10次中間只要有1次接受到了重新記錄心跳，

（2）namenode發送檢查

在連續10次NameNode沒有接收到DataNode的心跳報告之后，NameNode斷定DataNode可能宕機了，NameNode主動向DataNode發送檢查 NameNode會開啟后臺的守護（阻塞）行程等待檢查結果的，NameNode檢查DataNode的時間：默認5min，

默認檢查2次每次檢查5min連續2次檢查（10min）都沒有反應確認DataNode宕機了(發送一次等待5分鐘)，NameNode確認一個DataNode宕機需要的總時間： 103s+300s2=630s，

當DataNode啟動的時候，它會遍歷本地檔案系統，產生一份HDFS資料塊和本地檔案對應關系的串列，這就是報告塊（BlockReport），報告塊包含了DataNode上所有塊的串列，每小時DataNode默認向NameNode發送block report，匯報DataNode的資料節點情況，

安全模式

NameNode啟動后會進入一個稱為安全模式的特殊狀態，處于安全模式的NameNode對于客戶端來說是只讀的，NameNode從所有的DataNode接收心跳信號和塊狀態報告（blockreport），
每個資料塊都有一個指定的最小副本數（dfs.replication.min），當NameNode檢測確認某個資料塊的副本數目達到這個最小值，那么該資料塊就會被認為是副本安全(safely replicated)的，
在一定百分比（這個引數配置于dfs.safemode.threshold.pct，默認值是99.9%）的資料塊被NameNode檢測確認是安全之后，再過若干時間后（這個引數配置于dfs.safemode.extension，默認值是30秒），NameNode將退出安全模式狀態，接下來NameNode會確定還有哪些資料塊的副本沒有達到指定數目，并將這些資料塊復制到其他DataNode上，

校驗和

HDFS會對寫入的所有資料計算校驗和（checksum），并在讀取資料時驗證，Datanode在收到客戶端的資料或者復制其他Datanode的資料時，在驗證資料后會存盤校驗和，正在寫資料的客戶端將資料及其校驗和發送到由一系列Datanode組成的管線，管線中的最后一個Datanode負責驗證校驗和，如果Datanode檢測到錯誤，客戶端便會收到一個ChecksumException
客戶端從Datanode讀取資料時，也會驗證校驗和，將它們與Datanode中存盤的校驗和進行比較，每個Datanode均持久保存一個用于驗證的校驗和日志，所以它知道每個資料塊的最后一次驗證時間，客戶端成功驗證一個資料塊后，會通知這個Datanode更新次日志
此外，每個Datanode也會在一個后臺運行一個稱為DataBlockScanner的行程定期驗證存盤在這個Datanode上的所有資料塊，檢測到錯誤后，Namenode將這個已損壞的資料塊標記為已損壞，之后從其他Datanode復制此資料的副本，最后使得資料的副本達到指定數目

回收站

當用戶或應用程式洗掉某個檔案時，這個檔案并沒有立刻從HDFS中洗掉，實際上，HDFS會將這個檔案重命名轉移到/trash目錄，只要檔案還在/trash目錄中，該檔案就可以被迅速地恢復，

檔案在/trash中保存的時間是可配置的（配置引數fs.trash.interval），當超過這個時間時，Namenode就會將該檔案從命名空間中洗掉，洗掉檔案會使得該檔案相關的資料塊被釋放，注意，從用戶洗掉檔案到HDFS空閑空間的增加之間會有一定時間的延遲，

元資料保護

FsImage和Editlog是HDFS的核心資料，如果這些檔案損壞了，整個HDFS都將失效，因而，Namenode可以配置成支持維護多個FsImage和Editlog的副本，任何對FsImage或者Editlog的修改，都將同步到它們的副本上，這種多副本的同步操作可能會降低Namenode每秒處理的名字空間事務數量，然而這個代價是可以接受的，因為即使HDFS的應用是資料密集的，它們也非元資料密集的，當Namenode重啟的時候，它會選取最近的完整的FsImage和Editlog來使用

快斬訓制

快照支持某一特定時刻的資料的復制備份，利用快照，可以讓HDFS在資料損壞時恢復到過去一個已知正確的時間點，HDFS目前還不支持快照功能，但計劃會在將來的版本支持，

容錯機制

故障的型別主要有以下三種，針對這三種故障型別，HDFS提供了不同的故障檢測機制：

針對DataNode失效問題，HDFS使用了心跳機制，DataNode定期向NameNode發送心跳資訊，NameNode根據心跳資訊判斷DataNode是否存活
針對網路故障而導致無法收發資料的問題，HDFS提供了ACK的機制，在發送端發送資料后，如果沒有收到ACK并且經過多次重試后仍然如此，則認為網路故障
針對資料損壞問題，所有DataNode會定期向NameNode發送自身存盤的塊清單，在傳輸資料的同時會發送總和校驗碼，NameNode依次來判斷資料是否丟失或損壞

讀容錯

讀失敗時：

DFSInputStream 會去嘗試連接串列里的下一個 DataNode ，同時記錄下這個例外節點
DFSInputStream 也會對獲取到的資料核查 checknums ，如果損壞的 block 被發現了，DFSInputStream 就試圖從另一個擁有備份的 DataNode 中去讀取備份塊中的資料
最后例外資料的同步作業也是由 NameNode 來安排完成

寫容錯

當寫流程中一臺 DataNode 宕機了：

首先 pipeline 被關閉，在確認佇列中的剩下的 package 會被添加進資料佇列的起始位置上不再發送，以防止在失敗的節點下游的節點再丟失資料
然后，存盤在正常的 DataNode 上的 block 會被指定一個新的標識，并將該標識傳遞給 NameNode，以便故障DataNode在恢復后可以洗掉自己存盤的那部分已經失效的資料塊
失敗節點會從 pipeline 中移除，然后剩下兩個好的 DataNode 會組成一個的新的 pipeline ，剩下的這些 block 的包會繼續寫進 pipeline 中正常的 DataNode 中
最后，NameNode 會發現節點宕機導致部分 block 的塊備份數小于規定的備份數，此時NameNode 會安排使節點的備份數滿足 dfs.replication 配置要求

DataNode失效

在NameNode中會持有資料塊表和DataNode兩張表，資料塊表存盤著某個資料塊（包括副本）所在的DataNode，DataNode表存盤著每個DataNode中保存的資料塊串列，由于DataNode會周期性地給NameNode發送自己所持有的資料塊資訊，因此NameNode會持續更新資料塊表和DataNode表，如果發現某個DataNode上的資料塊錯誤，NameNode會從資料塊表洗掉該資料塊；如果發現某個DataNode失效，NameNode會對兩張表進行更新，NameNode還會周期性地掃描資料塊表，如果發現資料塊表中某個資料庫的備份數量低于所設定的備份數，則會協調從其它DataNode復制資料到另一個DataNode上完成備份，

HDFS副本放置策略

如果寫請求出現在某個DataNode上，第一個副本就會存放在當前DataNode所在的機器上，如果該機器負載過重，可以將該備份放在同一個機架上的隨機機器上，接著第二個副本就會存放在不同于第一個副本所在機架的機架上，第三個副本會隨機存放在第二個副本所在機架的任一DataNode上，

在三個副本的情況下，第一個副本與原資料在相同機器上，另外兩個副本放在其它機架的隨機機器上，這樣的設定可以使得性能與容災兼備，優先從同機器上獲取備份資料，減少資料傳輸開銷；在該機器宕機的情況下，從另一個機架獲取備份資料，避免同一個機架的機器集體宕機的情況出現，

HDFS的HA架構

以上的所有容錯都是基于DataNode的故障問題進行考慮的，但是NameNode本身就存在單點故障，如果NameNode出現故障，則整個集群會直接宕機，因此HDFS提供了HA的架構，對于一個典型的HA集群而言，NameNode會被配置在兩臺獨立的機器上，在任何時間上，一個NameNode處于Active狀態，而另一個NameNode處于Standby狀態，Active狀態的NameNode會回應集群中所有的客戶端的請求，Standby狀態的NameNode只是作為一個副本，保證在必要的時候提供一個快速的轉移，使得上層對NameNode的切換無感知，Standby NameNode與Active NameNode應時刻保持同步，在Active NameNode和Standby NameNode之間要有個共享的存盤日志的地方，Active NameNode把EditLog寫到共享的存盤日志中，Standby NameNode讀取日志并執行，使得Active NameNode和Standby NameNode記憶體中的HDFS元資料保持同步，

file

歡迎關注，《大資料成神之路》系列文章

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/251376.html

標籤：Java

上一篇：一個程式員的自述

下一篇：【大資料嗶嗶集20210123】別問，問就是Kafka最可靠