元資料性能大比拼：HDFS vs OSS vs JuiceFS-有解無憂

背景

存盤是大資料的基石，存盤系統的元資料又是它的核心大腦，元資料的性能對整個大資料平臺的性能和擴展能力非常關鍵，本文選取了大資料平臺中 3 個典型的存盤方案來壓測元資料的性能，來個大比拼，

其中 HDFS 是被廣為使用的大資料存盤方案，已經經過十幾年的沉淀和積累，是最合適的參考標桿，

以 Amazon S3 和 Aliyun OSS 為代表的物件存盤也是云上大資料平臺的候選方案，但它只有 HDFS 的部分功能和語意，性能也差不少，實際使用并不廣泛，在這個測驗中物件存盤以 Aliyun OSS 為代表，其他物件存盤類似，

JuiceFS 是大資料圈的新秀，專為云上大資料打造，是符合云原生特征的大資料存盤方案，JuiceFS 使用云上物件存盤保存客戶資料內容，通過 JuiceFS 元資料服務和 Java SDK 來實作 HDFS 的完整兼容，不需要對資料分析組件做任何修改就可以得到跟 HDFS 一樣的體驗，

測驗方法

Hadoop 中有一個專門壓測檔案系統元資料性能的組件叫 NNBench，本文就是使用它來做壓測的，

原版的 NNBench 有一些局限性，我們做了調整：

原版 NNBench 的單個測驗任務是單執行緒的，資源利用率低，我們將它改成多執行緒，便于增加并發壓力，
原版 NNBench 使用 hostname 作為路徑名的一部分，沒有考慮同一個主機里多個并發任務的沖突問題，會導致多個測驗任務重復創建和洗掉檔案，不太符合大資料作業負載的實際情況，我們改成使用 Map 的順序號來生成路徑名，避免的一個主機上多個測驗任務的產生沖突，

我們使用了 3 臺阿里云 4核 16G 的虛擬機來做壓力測驗，CDH 5 是目前被廣泛使用的發行版，我們選用 CDH 5 作為測驗環境，其中的 HDFS 是 2.6 版本， HDFS 是使用 3 個 JournalNode 的高可用配置，JuiceFS 是 3 個節點的 Raft 組，HDFS 使用內網 IP，JuiceFS 使用的是彈性 IP，HDFS 的網路性能會好一些，OSS 是使用內網介面訪問，