作者：京東零售王雷

背景

云原生下的流水線是通過啟動容器來運行具體的功能步驟，每次運行流水線可能會被調度到不同的計算節點上，這會導致一個問題：容器運行完是不會保存資料的，每當流水線重新運行時，又會重新拉取代碼、編譯代碼、下載依賴包等等，在云原生場景下，不存在本地宿主機編譯代碼、構建鏡像時快取的作用，大大延長了流水線運行時間，浪費很多不必要的時間、網路和計算成本，

在許多流水線場景中，同一條流水線的多次執行之間是有關聯的，如果能夠用到上一次的執行結果，則可以大幅縮短執行時間，為了提高用戶使用流水線的體驗，我們加入支持快取的功能，掛接遠程儲存管理構建快取，可以實作同一個專案的編譯依賴復用，在同一條流水線的多次運行中，共享同一份快取，

目標

通過實作云原生流水線的快取技術，實作代碼編譯的快取復用，平均加速流水線3~5倍；

實作方案

我們將需要進行快取的檔案，使用zstd的方式進行壓縮，通過遠程掛載cfs，將構建的快取持久化到cfs上的指定位置，當下一次構建開始的時候，判斷快取是否被命中，如果命中快取，我們從cfs上的指定位置pull對應的快取壓縮包，解壓到相應目錄下，

所用工具-cfs+zstd

非用戶自定義鏡像，將需要的工具打到引擎的基礎鏡像中，作為所有鏡像的基礎工具，

用戶自定義鏡像，不和用戶鏡像進行強系結，如果需要使用快取功能，可以使用Restore快取原子和Save快取原子，設定快取key和快取目錄，實作快取功能，

1 cfs遠程掛載

?將工具和啟動腳本，組態檔打到基礎鏡像

?在開啟快取的位置，啟動腳本，開始掛載cfs

_, err = c.ScriptAction.Sh([]string{
    "sh",
	"-c",
	"modprobe fuse;cd /export/servers/tools/cfs;sudo ./cfs-client-randomwrite -c fuse.json",
})

2 zstd壓縮

針對現有的幾種壓縮方式進行了性能對比，最后選用了zstd進行壓縮，

Zstd，全稱 Zstandard，是 Facebook 于 2016 年開源的新無損壓縮演算法，Zstd 還可以以壓縮速度為代價提供更強的壓縮比，速度與壓縮率的比重可通過增量進行配置，與 zlib、lz4、xz 等當前流行的壓縮演算法不同，Zstd 尋求一種壓縮性能與壓縮率通吃的方案，而實際上它也確實做到了，在由官方所列出的表格中，可以看到，Zstd 不僅具備優秀的壓縮性能，在壓縮率上也有非常亮眼的表現，在過去的兩年里，Linux內核、HTTP協議、以及一系列的大資料工具（包括Hadoop 3.0.0，HBase 2.0.0，Spark 2.3.0，Kafka 2.1.0）等都已經加入了對zstd的支持，

常見的壓縮演算法性能對比：

壓縮包大小對比：

依賴包的大小	465M	壓縮效率
tar壓縮	423M	14s左右
zstd壓縮	205M	1s左右

快取的實作

我們借鑒了github cache action，zadig，gitlab等快取的處理方式，同時結合服務自身的特點

將整體分成三步

?檢查是否命中快取：根據快取key，判斷快取是否命中

快取key	快取的唯一標識
不同語言編譯原子	根據下載代碼的代碼庫地址自動獲取設定的快取key：home_auth/home-auth-center
用戶自定義鏡像	自定義快取key

?pull快取

當快取命中后，根據快取路徑，找到掛載到cfs上的快取壓縮包，解壓到指定的快取目錄下

?push快取：將依賴包進行壓縮，放到cfs的掛載目錄下

依賴包的大小	465M
tar壓縮	423M
zstd壓縮	205M

快取的使用限制和回收策略

使用限制

目前存盤快取數沒有限制，存盤庫中所有快取的總大小限制是根據申請的cfs的大小限制：20G，

回收策略

我們會洗掉7天內未被訪問的任何快取，利用etcd的watch機制，實作快取的回收，

etcd可以Watch 指定的鍵、前綴目錄的更改，并對更改時間進行通知，BASE引擎中，快取的清除策略借助etcd來實作，

快取過期策略：在編譯加速的實作中，每個需要快取的專案都有對應的快取key，通過etcd監控key，并且設定過期時間，例如7天，如果在7天之內再次命中key，則通過lease進行續約；7天之內key都沒有被使用，key就會過期洗掉，通過監聽對應的前綴，在過期洗掉的時候，呼叫洗掉快取的方法，

storage.Watch("cache/",
		func(id string) {
			//do nothing
		},
		func(id string) {
			CleanCache(id)
		})

不同技術堆疊的最佳實踐

1 Java

以Maven構建工具為例，其默認組態檔位于conf/settings.xml檔案中，默認指定環境變數$M2_HOME來設定快取目錄，這樣同一條流水線多次執行可以復用 ${M2_HOME}/.m2 目錄 (快取目錄)，甚至同一個應用下的多個分支之間都可以使用同一個快取目錄，就像本地構建一樣，

	BASE執行
無快取	平均時間：5.26min
有快取	平均時間：41.462s
提升效率	提升87.3%
快取命中率	接近100%

2 NodeJs

在nodejs編譯中，我們的快取目錄是當前用戶空間，針對node_modules檔案進行壓縮打包，push到cfs；如果快取命中，從cfs上pull并且解壓到當前用戶空間下，恢復快取，

使用舉例

	BASE執行
無快取	平均時間：58s
有快取	平均時間：29s
提升效率	提升50%
快取命中率	接近100%

3 Golang編譯

Golang 快取路徑通過$GOCACHE環境變數控制，將$GOCACHE的內容壓縮成zstd的包，上傳到cfs的指定路徑下，pull快取的時候，拉取到對應的$GOCACHE，

	BASE執行
無快取	平均時間：117s
有快取	平均時間：18s
提升效率	提升84.6%
快取命中率	接近100%

4 GCC編譯

我們使用ccache進行快取實作，ccache（“compilercache”的縮寫）是一個編譯器快取，該工具會高速快取編譯生成的資訊，并在編譯的特定部分使用高速快取的資訊，ccache的快取目錄：CCACHE_DIR，我們將這個目錄下的檔案進行壓縮，push到cfs，當第二次運行并且命中快取，從cfs上pull并解壓到CCACHE_DIR指定的目錄下，

總結

在不同語言的編譯原子內部，默認開啟快取的設定，第一次運行流水線的時候，會進行依賴的下載，第二次運行流水線，會命中快取，無需進行依賴的下載，提高了流水線執行的效率，快取默認保存7天，

自定義鏡像進行快取的最佳實踐

為了滿足用戶使用自定義鏡像的方式觸發流水線，我們增加了兩個通用的快取原子，

Restore快取：恢復快取

Save快取：保存快取

在編譯之前，添加Restore快取原子

在編譯之后，添加Save快取原子

使用舉例

在maven編譯原子中，默認開啟了maven編譯的快取；同時還有nodejs的編譯構建，所以我們增加了restore原子和save原子

	BASE執行
無快取	平均時間：21min57s 其中maven: 17min83s nodejs: 4min19s
有快取	平均時間：4min20s 其中maven: 1min10s nodejs: 2min36s
快取效率提升	maven： 93.7% nodejs：39.8%（nodejs編譯中有包含單元測驗）
快取命中率	接近100%

未來規劃

?不同編譯原子，向用戶開放配置，如是否開啟快取，設定快取key

?實作不同語言編譯原子增量push快取功能

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/542858.html

標籤：其他

上一篇：剛上班三天就被裁。。還有誰！！

下一篇：Python TensorFlow深度學習回歸代碼：DNNRegressor

云原生場景下實作編譯加速

背景

目標

實作方案

所用工具-cfs+zstd

1 cfs遠程掛載

2 zstd壓縮

快取的實作

快取的使用限制和回收策略

使用限制

回收策略

不同技術堆疊的最佳實踐

1 Java

2 NodeJs

使用舉例

3 Golang編譯

4 GCC編譯

總結

自定義鏡像進行快取的最佳實踐

使用舉例

未來規劃