作者簡介:
呂冬冬,云知聲超算平臺架構師, 負責大規模分布式機器學習平臺架構設計與功能研發,負責深度學習演算法應用的優化與 AI 模型加速,研究領域包括高性能計算、分布式檔案存盤、分布式快取等,
朱唯唯,Juicedata 全堆疊工程師,負責 JuiceFS CSI Driver 的開發和維護,負責 JuiceFS 在云原生領域的發展,
云知聲 Atlas 團隊在 2021 年初開始接觸并跟進 JuiceFS 存盤,并且在早期已經積累了豐富的 Fluid 使用經驗,近期,云知聲團隊與 Juicedata 團隊合作開發了 Fluid JuiceFS 加速引擎,使用戶能夠更好地在 Kubernetes 環境中使用 JuiceFS 快取管理能力,本篇文章講解如何在 Kubernetes 集群中玩轉 Fluid + JuiceFS,
背景介紹
Fluid 簡介
CNCF Fluid 是一個開源的 Kubernetes 原生的分布式資料集編排和加速引擎,主要服務于云原生場景下的資料密集型應用,例如大資料應用、AI 應用等,關于 Fluid 更多資訊可以參考地址,

Fluid 不是全存盤加速和管理,而是應用使用的資料集加速和管理,Fluid 提供了一種更加云原生的方式對資料集進行管理,通過快取加速引擎實作將底層存盤系統的資料 cache 在計算節點的記憶體或者硬碟上,解決了計算與存盤分離架構中由于資料傳輸帶寬限制以及底層存盤帶寬與 IOPS 能力限制等問題,導致的 IO 效率不高等問題,Fluid 提供快取資料調度能力,快取被納入 kubernetes 擴展資源,kubernetes 在進行任務的調度的時候,能夠參考快取進行調度策略的分配,
Fluid 有 2個重要的概念:Dataset 與 Runtime
- Dataset: 資料集是邏輯上相關的一組資料的集合,一致的檔案特性,會被同一運算引擎使用,
- Runtime: 實作資料集安全性,版本管理和資料加速等能力的執行引擎的介面,定義了一系列生命周期的方法,
Fluid 的 Runtime 定義了標準化的介面,Cache Runtime Engine 可以對接多種快取引擎,提供了用戶更靈活的選擇,用戶能夠針對不同的場景與需求,充分利用快取引擎加速相應的場景應用,
JuiceFS 簡介

JuiceFS 是一個面向云環境設計的高性能開源分布式檔案系統,完全兼容 POSIX、HDFS、S3 介面,適用于大資料、AI 模型訓練、Kubernetes 共享存盤、海量資料歸檔管理等場景,
使用 JuiceFS 存盤資料,資料本身會被持久化在物件存盤(例如,Amazon S3),而資料所對應的元資料可以根據場景需求被持久化在 Redis、MySQL、TiKV 等多種資料庫引擎中,JuiceFS 客戶端具有資料快取能力,當通過 JuiceFS 客戶端讀取資料時,這些資料將會智能地快取到應用配置的本地快取路徑(可以是記憶體,也可以是磁盤),同時元資料也會快取到客戶端節點本地記憶體中,
對于 AI 模型訓練場景來說,第一個 epoch 完成之后后續的計算都可以直接從快取中獲取訓練資料,極大地提升了訓練效率,JuiceFS 也具有預讀、并發讀取資料的能力,在 AI 訓練場景能夠保證每個 mini-batch 的生成效率,提前準備好資料,資料預熱能夠提前將公有云上的資料換到到本地節點,對于 AI 訓練場景能夠保證申請完 GPU 資源后,即有預熱的資料進行運算,為寶貴的 GPU 使用節省了時間,
為什么使用 JuiceFSRuntime
云知聲 Atlas 超算平臺作為底層基礎架構,支持著公司在 AI 各個領域的模型訓練與推理服務的開展,云知聲很早就開始布局建設業界領先的 GPU/CPU 異構 Atlas 計算平臺和分布式檔案存盤系統,該計算集群可為 AI 計算提供高性能計算和海量資料的存盤訪問能力,云知聲 Atlas 團隊在 2021 年初開始接觸并跟進 JuiceFS 存盤,進行了一系列 POC 測驗,在資料可靠性與業務場景的適配,都滿足我們目前的需求,
在訓練場景我們充分利用 JuiceFS 客戶端的快取能力,為 AI 模型訓練做資料加速,但是在使用程序中發現了一些問題:
- 訓練 Pod 通過 hostpath 掛載,需要在每個計算節點掛載 JuiceFS 客戶端,掛載需要管理員操作,掛載引數固定,不夠靈活,
- 用戶無法對計算節點客戶端的快取管理,快取無法手動清理與擴容,
- 快取資料集無法像 Kubernetes 自定義資源一樣能夠被 kubernetes 進行調度,
由于我們在生產環境已經積累了一定的 Fluid 使用經驗,所以我們與 Juicedata 團隊合作設計并開發了 JuiceFSRuntime,將 Fluid 對資料編排與管理能力和 JuiceFS 的快取能力結合起來,
什么是 Fluid + JuiceFS(JuiceFSRuntime)
JuiceFSRuntime 是 Fluid 自定義的一種 Runtime,其中可以指定 JuiceFS 的 worker、fuse 鏡像以及相應的快取引數,其構建方式與 Fluid 其他 Runtime 一致,即通過 CRD 的方式構建,JuiceFSRuntime Controller 監聽 JuiceFSRuntime 資源,實作快取 Pod 的管理,
JuiceFSRuntime 支持資料親和性調度(nodeAffinity),選擇合適的快取節點,支持 Fuse pod 懶啟動,支持用戶以 POSIX 介面訪問資料,目前只支持一個掛載點,

其架構圖如上圖所示,JuiceFSRuntime 由 Fuse Pod 與 Worker Pod 組成,Worker pod 主要實作快取的管理,如 Runtime 退出時的快取清理;Fuse pod 主要負責 JuiceFS 客戶端的引數設定及掛載,
如何使用 JuiceFSRunime
下面來看看如何使用 JuiceFSRuntime 進行快取加速,
前期準備
要使用 JuiceFSRuntime 首先需要準備元資料引擎和物件存盤,
構建元資料引擎
用戶可以很容易的在云計算平臺購買到各種配置的云 Redis 資料庫,如果是評估測驗使用可以使用 Docker 快速的在服務器上運行一個 Redis 資料庫實體:
$ sudo docker run -d --name redis \
-v redis-data:/data \
-p 6379:6379 \
--restart unless-stopped \
redis redis-server --appendonly yes
準備物件存盤
和 Redis 資料庫一樣,幾乎所有的公有云計算平臺都提供物件存盤服務,因為 JuiceFS 支持幾乎所有主流平臺的物件存盤服務,用戶可以結合自己的情況進行部署,
這里是評估測驗應該使用的是 Dokcer 運行的 minio 實體:
$ $ sudo docker run -d --name minio \
-p 9000:9000 \
-p 9900:9900 \
-v $PWD/minio-data:/data \
--restart unless-stopped \
minio/minio server /data --console-address ":9900"
物件存盤初始的 Access Key 和 Secret Key 均為 minioadmin,
下載并安裝 Fluid
按照檔案步驟安裝 Fluid,在 Fluid 的安裝 chart values.yaml 中將 runtime.juicefs.enable 設定為 true,并安裝 Fluid,確保 Fluid 集群正常運行:
kubectl get po -n fluid-system
NAME READY STATUS RESTARTS AGE
csi-nodeplugin-fluid-ctc4l 2/2 Running 0 113s
csi-nodeplugin-fluid-k7cqt 2/2 Running 0 113s
csi-nodeplugin-fluid-x9dfd 2/2 Running 0 113s
dataset-controller-57ddd56b54-9vd86 1/1 Running 0 113s
fluid-webhook-84467465f8-t65mr 1/1 Running 0 113s
juicefsruntime-controller-56df96b75f-qzq8x 1/1 Running 0 113s
確保 juicefsruntime-controller、dataset-controller、fluid-webhook 的 pod 以及若干 csi-nodeplugin pod 正常運行,
創建 Dataset
在使用 JuiceFS 之前,需要提供元資料服務(如 redis)及物件存盤服務(如 minio)的引數,并創建對應的 secret:
kubectl create secret generic jfs-secret \
--from-literal=metaurl=redis://$IP:6379/1 \ # redis 的地址 IP 為 redis 所在節點的 IP
--from-literal=access-key=minioadmin \ # 物件存盤的 ak
--from-literal=secret-key=minioadmin #物件存盤的 sk
創建 Dataset yaml 檔案
cat<<EOF >dataset.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
name: jfsdemo
spec:
mounts:
- name: minio
mountPoint: "juicefs:///demo"
options:
bucket: "<bucket>"
storage: "minio"
encryptOptions:
- name: metaurl
valueFrom:
secretKeyRef:
name: jfs-secret
key: metaurl
- name: access-key
valueFrom:
secretKeyRef:
name: jfs-secret
key: access-key
- name: secret-key
valueFrom:
secretKeyRef:
name: jfs-secret
key: secret-key
EOF
由于 JuiceFS 采用的是本地快取,對應的 Dataset 只支持一個 mount,且 JuiceFS 沒有 UFS,mountpoint 中可以指定需要掛載的子目錄 ("juicefs:///" 為根路徑),會作為根目錄掛載到容器內,
創建 Dataset 并查看 Dataset 狀態
$ kubectl create -f dataset.yaml
dataset.data.fluid.io/jfsdemo created
$ kubectl get dataset jfsdemo
NAME UFS TOTAL SIZE CACHED CACHE CAPACITY CACHED PERCENTAGE PHASE AGE
jfsdemo NotBound 44s
如上所示,status 中的 phase 屬性值為 NotBound,這意味著該 Dataset 資源物件目前還未與任何 JuiceFSRuntime 資源物件系結,接下來,我們將創建一個 JuiceFSRuntime 資源物件,
創建 JuiceFSRuntime
創建 JuiceFSRuntime 的 yaml 檔案
$ cat<<EOF >runtime.yaml
apiVersion: data.fluid.io/v1alpha1
kind: JuiceFSRuntime
metadata:
name: jfsdemo
spec:
replicas: 1
tieredstore:
levels:
- mediumtype: SSD
path: /cache
quota: 40960 # JuiceFS 中 quota 的最小單位是 MiB,所以這里是 40GiB
low: "0.1"
EOF
創建并查看 JuiceFSRuntime
$ $ kubectl create -f runtime.yaml
juicefsruntime.data.fluid.io/jfsdemo created
$ kubectl get juicefsruntime
NAME WORKER PHASE FUSE PHASE AGE
jfsdemo Ready Ready 72s
查看 JuiceFS 相關組件 Pod 的狀態
$$ kubectl get po |grep jfs
jfsdemo-worker-mjplw 1/1 Running 0 4m2s
JuiceFSRuntime 沒有 master 組件,而 Fuse 組件實作了懶啟動,會在 pod 使用時再創建,
創建快取加速作業
創建需要加速的應用,其中 Pod 使用上面創建的 Dataset 的方式為指定同名的 PVC
$ cat<<EOF >sample.yaml
apiVersion: v1
kind: Pod
metadata:
name: demo-app
spec:
containers:
- name: demo
image: nginx
volumeMounts:
- mountPath: /data
name: demo
volumes:
- name: demo
persistentVolumeClaim:
claimName: jfsdemo
EOF
創建 Pod
$ kubectl create -f sample.yaml
pod/demo-app created
查看 pod 狀態
$ kubectl get po |grep demo
demo-app 1/1 Running 0 31s
jfsdemo-fuse-fx7np 1/1 Running 0 31s
jfsdemo-worker-mjplw 1/1 Running 0 10m
可以看到 pod 已經創建成功,同時 JuiceFS 的 Fuse 組件也啟動成功,
進入 Pod 執行 df -hT 查看快取目錄是否掛載:
$ kubectl exec -it demo-app bash -- df -h
Filesystem Size Used Avail Use% Mounted on
overlay 20G 14G 5.9G 71% /
tmpfs 64M 0 64M 0% /dev
tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup
JuiceFS:minio 1.0P 7.9M 1.0P 1% /data
可以看到這時候快取目錄已經成功掛載了,
接下來,我們在 demo-app 這個 pod 中測驗一下寫功能:
$ kubectl exec -it demo-app bash
[root@demo-app /]# df
Filesystem 1K-blocks Used Available Use% Mounted on
overlay 20751360 14585944 6165416 71% /
tmpfs 65536 0 65536 0% /dev
tmpfs 3995028 0 3995028 0% /sys/fs/cgroup
JuiceFS:minio 1099511627776 8000 1099511619776 1% /data
/dev/sda2 20751360 14585944 6165416 71% /etc/hosts
shm 65536 0 65536 0% /dev/shm
tmpfs 3995028 12 3995016 1% /run/secrets/kubernetes.io/serviceaccount
tmpfs 3995028 0 3995028 0% /proc/acpi
tmpfs 3995028 0 3995028 0% /proc/scsi
tmpfs 3995028 0 3995028 0% /sys/firmware
[root@demo-app /]#
[root@demo-app /]# cd /data
[root@demo-app data]# echo "hello fluid" > hello.txt
[root@demo-app data]# cat hello.txt
hello fluid
最后再來看看快取功能,在 demo-app 這個 pod 中的掛載目錄 /data 中創建一個 1G 的檔案,然后再 cp 出來:
$ kubectl exec -it demo-app bash
root@demo-app:~# dd if=/dev/zero of=/data/test.txt count=1024 bs=1M
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB, 1.0 GiB) copied, 6.55431 s, 164 MB/s
root@demo-app:~# time cp /data/test.txt ./test.txt
real 0m5.014s
user 0m0.003s
sys 0m0.702s
root@demo-app:~# time cp /data/test.txt ./test.txt
real 0m0.602s
user 0m0.004s
sys 0m0.584s
從執行結果來看,第一次 cp 用了 5s,此時建立快取,第二次 cp 的時候由于快取已經存在,只用了 0.6s,JuiceFS 所提供的強大的快取能力,使得只要訪問某個檔案一次,該檔案就會被快取在本地快取路徑中中,所有接下來的重復訪問都是從 JuiceFS 中直接獲取資料,
后續規劃
目前 JuiceFSRuntime 支持的功能并不多,未來我們會繼續完善,比如 Fuse Pod 以 Nonroot 的方式運行,以及 Dataload 資料預熱功能等,
推薦閱讀:
知乎 x JuiceFS:利用 JuiceFS 給 Flink 容器啟動加速
如有幫助的話歡迎關注我們 Juicedata/JuiceFS 喲! (0?0?)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/373809.html
標籤:其他
下一篇:CentOS7部署ceph
