文章目錄

前言
一、什么是畢昇 JDK？
- 1.1、畢昇 JDK 發展歷程
- 1.2、畢昇 JDK 的支持架構
- 1.3、畢昇 JDK、OpenJDK 和 Oracle JDK 區別
二、為什么要做畢昇 JDK？
- 2.1、Oracle JDK 授權方式發生變化
- 2.2、高版本 JDK 有價值特性的渴望
- 2.3、應用的定制化優化訴求
三、畢昇 JDK 現狀
- 3.1、畢昇 JDK 研發現狀
- 3.2、畢昇 JDK 性能提升實體
四、畢昇 JDK 的 GC 演算法優化
- 4.1、并行復制演算法的概念
- 4.2、架構對并行復制演算法的影響
- 4.3、并行復制演算法的流程
- 4.4、演算法優化減少 membar 之 Q&A
- 4.5、G1、GC 的優化
- 4.6、ZGC 的優化
五、JIT 優化——SVE 演算法優化
- 5.1、SVE 演算法優化相關介紹
- 5.2、SVE 演算法優化成果
六、軟硬協同——鯤鵬 KAE 硬體加速
七、畢昇 JDK 還能帶來什么價值？
八、畢昇 JDK 的未來發展
- 8.1、即將面世的功能
- 8.2、未來方向
九、如何獲得畢昇 JDK 及幫助？
- 9.1、JDK 8 的代碼倉
- 9.2、JDK 11 的代碼倉
總結

前言

不知道大家是否聽說過亦或是使用過畢昇 JDK，是否從事 Java 作業？是否從事 JVM 底層開發？絕大多數 Java 開發者使用的都是 Oracle 的 JDK 或者是 OpenJDK，本文我們將介紹華為的畢昇 JDK 以及我們所做的相關技術優化，希望能在除上述兩者之外提供給大家新的選擇，

在這里插入圖片描述

一、什么是畢昇 JDK？

1.1、畢昇 JDK 發展歷程

畢昇 JDK 是華為基于 OpenJDK 定制的開源版本，是一款高性能、可用于生產環境的 OpenJDK 發行版，穩定運行在華為內部 500 多個產品上，在華為內部廣泛使用畢昇 JDK，團隊積累了豐富的開發經驗，解決了實際業務運行中遇到的多個疑難問題，如 crash 等相關問題，我們已經在內部解決，

1.2、畢昇 JDK 的支持架構

目前僅支持 Linux/AArch64 架構，歡迎廣大開發者小伙伴們下載使用，
目前畢昇 JDK 支持 8 和 11 兩個 LTS 版本，并且已經全部開源，

1.3、畢昇 JDK、OpenJDK 和 Oracle JDK 區別

我們通過對比和分析畢昇 JDK、OpenJDK 和 Oracle JDK，來幫助大家在挑選 JDK 時有更好的選擇，

如下圖所示，我們用藍色的區域代表 OpenJDK，淺黃色和紅色分別代表 Oracle JDK 和畢昇 JDK，

在這里插入圖片描述
以上圖為參考，我們可以發現：

畢昇 JDK 和 Oracle JDK 一樣，都是基于 OpenJDK 定制得到，但是又同時賦予了各自不同的商業特性，比如，我們都知道 OpenJDK 12 添加了一個的新垃圾收集（GC）演算法——Shenandoah，但是在 Oracle JDK 的發行中是沒有附帶的，
畢昇 JDK 在基于 OpenJDK 定制的基礎上，存在的些許區別，主要來源于對產品功能的一些增強、問題的修復以及和上游特性的合入，

二、為什么要做畢昇 JDK？

2.1、Oracle JDK 授權方式發生變化

除去大家“眾所周知”的原因之外，不知道大家是否知道，Oracle JDK 在 8u212 版本之后是收費的，于公司而言，結合 JDK 自身存在的安全漏洞問題，綜合商業因素考慮的結果就是研發符合自身發展的 JDK，

在這里插入圖片描述
注：以上資料來自 Oracle 官網，

2.2、高版本 JDK 有價值特性的渴望

JDK 每六個月發行一次新版本，JDK 版本眾多，不同功能/特性在不同 JDK 版本，程式員期望在最熟悉的 JDK 上盡可能多的使用高版本中有價值的特性，例如 G1 GC 在 JDK12 中引入了一個特性，把不使用的記憶體歸還給作業系統，該特性在云場景中非常有價值，目前主流使用的還是 JDK8，自研 JDK 中 Blckport 特性能快速滿足需求，

2.3、應用的定制化優化訴求

應用在運行的硬體、場景有特殊的訴求，但這些訴求短期難以進入到社區，例如大資料應用在數學方面有較高訴請求，在自研 JDK 中可以針對數學計算做回圈開展、指令優化等編譯優化技術，加速計算，

三、畢昇 JDK 現狀

3.1、畢昇 JDK 研發現狀

畢昇 JDK 和 Oracle JDK 一樣，都是基于開源 OpenJDK 定制得到，同時團隊為上游社區貢獻了不少有價值的
Patch，涉及到：垃圾回收、JIT、運行時內容等，
畢昇 JDK 遵循 GPLv2 著作權進行開源，并且可以從官方免費下載二進制，
畢昇 JDK采用社區化開發和運營，雙周會議，目前有 ARM、寶蘭德、麒麟等小伙伴一起參與，畢昇 JDK 社區不僅僅支持 ARM 平臺，任何關于 JDK 的問題都可以在畢昇 JDK 社區討論，都會在第一時間得到回復，
在上游社區中，團隊目前有 Reviewer 1 名，Committer 1名，Author 8 名共 10 余名同事往社區提交代碼，
畢昇 JDK 在 ARM 上性能、穩定性表現優異，

3.2、畢昇 JDK 性能提升實體

我們通過在測驗環境下運行畢昇 JDK 來分析其優勢何在，測驗環境如下：

Model：Taishan 2280V2
OS：openEuler20.09
HW：kenpeng 920-6426 2600MHz，128 cores
JDK：JDK8U262

我們通過比較在 SPECjbb 上的資料可以發現畢昇 JDK 在 critical 和 max 上均有較大的提升：critical 提升 55%，max 提升 16%，

在這里插入圖片描述
另一方面，在 SPECjvm 上的資料雖然說與上面相比并不是特別明顯，但是仍平均提升 4.6%，

在這里插入圖片描述

四、畢昇 JDK 的 GC 演算法優化

4.1、并行復制演算法的概念

我們都知道復制是 GC 演算法里面很重要的一部分，特別是對于新生代的復制：將 from 區中的活躍物件復制到 to 區中，串行復制演算法是僅有一個執行緒負責這個事情，而這無法滿足我們的需要，所以我們用到了并行復制演算法，那么什么是并行復制演算法呢？

在這里插入圖片描述

物件 A 和 B 在并行復制演算法中被不同的執行緒復制，可能由于：物件 A 和 B 有不同到達路徑，不同的執行緒復制，因為任務均衡的問題，執行緒可以竊取其他執行緒的復制任務，
例如有兩個執行緒 T1 和 T2 分別復制物件 A 和 B，T1：A→A′；T2：B→B′，
在復制時除了復制物件的內容外，還需要使用一個指標（Forwarding Pointer）記錄物件轉移后地址，防止物件被重復復制，

在這里插入圖片描述

4.2、架構對并行復制演算法的影響

多執行緒的并行作業需要考慮不同架構的記憶體模型，X86 是一種強記憶體序架構，ARM 則是一種弱記憶體序，它們的記憶體序如下表所示：

在這里插入圖片描述

對于并行復制演算法來說，在弱記憶體序架構下，由于記憶體序的設計，其他執行緒可能先觀測到轉移指標已經更新，但是物件尚未復制，為保證一致性，需要在復制和更新物件頭之間插入 membar，在 JVM 關于物件頭更新統一抽象為 CAS 函式，
CAS 在不同的體系結構實作不同，X86 中采用 cmpxchgl 指令；ARM 中采用 Ldaxr/Stlxr 指令，

4.3、并行復制演算法的流程

并行復制演算法的流程圖如下圖所示：

在這里插入圖片描述

拷貝物件 obj 到新的物件位置 new_obj；
插入 Memory Barrier，物件 obj 通過 CAS 設定轉移指標，若成功則執行（3），失敗執行（4）；
將 new_obj 的參考壓入堆疊中，回傳 new_obj；
撤銷之前分配的物件，將 cas 成功執行緒的 new_obj 回傳，

在熱點分析中，我們發現復制操作的 60% CPU 消耗在插入 Memory Barrier 上，

4.4、演算法優化減少 membar 之 Q&A

Q：如果不插入 Memory barrier，多個執行緒觀察到記憶體不一致的情況，在什么情況下會引入問題?
A：

T1：尚未完成物件復制，但是已經將物件入堆疊，
T2：從 T1 的執行緒堆疊竊取待復制的物件，并對尚未完成復制的物件進行成員變數的復制更新，導致資料不一致，

Q：對于不需要復制成員變數的物件（例如:物件的成員變數全部是非參考型別；物件的成員變數其參考型別全部為NULL，物件本身是原始型別的陣列），還有必要使用 Memory Barrier?
A： NO！

Q：如何識別這些物件?
A：

靜態分析物件：可以發現物件的成員變數全部是非參考型別、原始型別的陣列，已經開源，
動態分析物件：通過屏障技術識別，

通過對于并行復制演算法的優化，我們分別在 SPECjbb 和 SPECjvm 達到了較好的預期成果，如下圖所示：

在這里插入圖片描述

4.5、G1、GC 的優化

針對 G1 Full GC 優化，Full GC 分為 4 個階段，分別是：

Mark：標記整個堆空間的活躍物件，并記錄活躍物件，
Prepare：計算每個活躍物件在就地壓縮后的位置，
Adjust：根據物件新的地址，調整物件成員變數的參考位置，
Compact：復制物件的記憶體資料，

Compact 階段一般是最為耗時的，涉及到記憶體資料的移動，那么 能否在允許一定浪費空間的前提下，對于活躍物件多的部分磁區不移動或者少移動，從而提高演算法效率？ 我們對活躍物件作下圖：

在這里插入圖片描述
我們可以發現：

磁區活躍物件占比符合 U 型分布，
對 Benchmark 進行研究，有 41.27% 磁區活躍物件占比在 98%，
減少物件的移動在一定程度上也符合強分代理論的假設，
測驗發現，對于類似的應用性能有 3~5% 的提高，

我們已經將相關代碼貢獻到社區，歡迎大家前往查看，

4.6、ZGC 的優化

畢昇 JDK 11 是第一個在 ARM 架構中支持 ZGC 的 JDK，
ZGC 的目標是管理 TB 級記憶體，且垃圾回收的停頓時間控制在 10 毫秒，ZGC 的回收程序包括 3 步，分別是：并發標記(Mark)、并發轉移（Relocate)和并發重定位(Remap)，在轉移的程序，為了提高轉移的效率，只有當頁面的垃圾回收空間達到一定比例才會參與轉移，目前的實作中比例通過引數 ZFragmentLimit 控制，該引數的默認值為 25，
如何設定 ZFragmentLimit？過大，記憶體浪費；過小，回收效率低下，
在 GC 執行的程序中收集轉移的資訊（記憶體轉移的速率、轉移耗時），并預測下一次 GC 可以轉移的記憶體，使用預測值來控制哪些頁面可以參與轉移，如下圖所示：

在這里插入圖片描述

計算記憶體的轉移速率：

在這里插入圖片描述

預測本次 GC 的轉移速率：

在這里插入圖片描述

使用正態分布，并輔以 99% 的置信度，
預測本次 GC 的轉移耗時：

在這里插入圖片描述

預測本次 GC 的轉移位元組：

在這里插入圖片描述

對于 Benchmark 的測驗表明，效果 3~5% 的提升，代碼已經開源，正在往社區同步，

五、JIT 優化——SVE 演算法優化

5.1、SVE 演算法優化相關介紹

SVE(Scalable Vector Extension)是 ARM AArch64 架構的下一代 SIMD 指令集，

支持 SVE1 指令集，
自動判斷適應 SVE1/NEON
支持 Z0~Z31 暫存器，
支持從 128~2048 bits 全尺寸 SVE 暫存器，
支持 PO~P7 謂詞暫存器，
支持大部分自動向量化(SuperWord)Node，

5.2、SVE 演算法優化成果

VectorAPI 新增 Node 全部貢獻到上游社區，畢昇 JDK 目前暫未合入，到目前為止，SVE一共向上游社區提交了 11 個patch，相關代碼超過 3000 行，

public static float sumReductionImplement(float[] a, float[] b, float[] c, float[] d, float total) {
		for (int i = 0; i < a.length; i++) {
			d[i] = (a[i] * b[i]) + (a[i] * c[i]) + (b[i] * c[i]);
			total += d[i];
		}
		return total;
	}

優化之后的 NEON 機器代碼如下圖所示：

在這里插入圖片描述
優化之后的 SVE 機器代碼如下圖所示：

在這里插入圖片描述

六、軟硬協同——鯤鵬 KAE 硬體加速

KAE(Kunpeng Accelerator Engine)是華為鯤鵬服務器提供的硬體加速器，在鯤鵬芯片中有一個獨立的 I/O DIE 用于處理加解密功能，
畢昇 JDK 提供了 KAEProvider，充分發揮硬體能力，應用只需要簡單的適配，無須代碼開發，即可使用鯤鵬服務器的硬體能力，提供應用的運行效率，
在畢昇 JDK 最新的版本，發布了 4 款加解密演算法（AES、Digest、HMAC、RSA)，在針對 Benchmark 的測驗中，部分演算法可以加速 40%，在安全領域將大大節約運行時間，目前和寶蘭德正在進行聯合開發，第二批演算法的支持將于 Q2 發布，
加解密方案是基于 JCA(Java Cryptography Architecture，Java 加密架構），是 Java 平臺的重要組成部分，KAE 是基于 JCA 來提供加解密服務，在畢昇 JDK 中稱為 KAEProvider，流程如下圖所示：

在這里插入圖片描述

JCA 提供 2 種方式選擇不同的 provider，通過代碼指定或者組態檔，如下：
方式 1：使用 Security API 添加 KAE Provider，并設定其優先級，
方式 2：修改 jre/lib/security/java.security 檔案，添加 KAE Provider，并設定其優先級，

七、畢昇 JDK 還能帶來什么價值？

經過評估和測驗，畢昇 JDK 目前還以社區的特性為基礎 Backport 了一批有價值的特性，
G1 NUMA一Aware，該特性能充分發揮 NUMA 的優勢，在多核的硬體平臺中效果更佳，畢昇 JDK 中還在社區的基礎上修復了一些問題：例如因為作業系統的執行緒調度導致執行緒在多個節點遷移，遷移在 NUMA 特性上會導致一些記憶體磁區無法得到有效回收；增強了大物件的 NUMA一Aware 功能，效果提升如下圖所示：

在這里插入圖片描述

在 JDK 10 中 AppCDS 的特性,其思路是將 String 物件，類元資料物件存放到一個共享檔案中，讓多個 JVM 行程能夠通過共享資訊，減少類元資料物件的加載、決議，
畢昇 JDK 通過移植該特性，測驗發現取得良好的效果，對于大資料的一些場景可以優化接近 10%，
G1 Uncommit，在記憶體使用較低的情況下，會通過周期性的觸發 GC 進行垃圾回收，并將回收后的記憶體歸還給作業系統，該特性對于云場景中，能明顯的降低記憶體的私有量，畢昇 JDK 在社區版本基礎上，將串行的記憶體釋放修改為并發（在最新的 JDK 16 中也采用了相同的實作)，

在開啟 G1 Uncommit 后，我們可以在下圖中看到，在記憶體不使用的場景中會穩步下降：

在這里插入圖片描述
而在實際的業務場景中，效果更是顯而易見的，如下圖所示：

在這里插入圖片描述

并行任務竊取機制優化，在一些應用發現任務竊取占比很高，對于并行任務竊取 Google 對社區貢獻了一個有價值的設計，極大的優化了并行任務竊取，在畢昇 JDK 中，PS、ParNew、G1、Shenandoah 等都因此而受益，

在這里插入圖片描述

目前我們正在針對多核的服務器優化任務竊取，待成熟后會繼續開源，

八、畢昇 JDK 的未來發展

8.1、即將面世的功能

完善 KAE 硬體加速演算法，預計 Q2 發布，
G1 GC 中并行 NUMA-Aware、Full GC 將落地于畢昇 JDK8，Q2，
jmap 增強，針對 CMS 做并行 dump，

8.2、未來方向

積極參與社區中 SVE、Vector API 特性的開發、演進，目前提交代碼超 3000 行，
優化記憶體管理，正在進行：ZGC 分代、Thread Local GC、AOT 等專案，

九、如何獲得畢昇 JDK 及幫助？

下載 JDK 8 和 JDK 11：https://kunpeng.huawei.com/#/developer/devkit/complier?data=JDK
在這里插入圖片描述

9.1、JDK 8 的代碼倉

https://gitee.com/openeuler/bishengjdk-8

在這里插入圖片描述

9.2、JDK 11 的代碼倉

https://gitee.com/openeuler/bishengjdk-11

在這里插入圖片描述

總結

本文我們給大家介紹了何為畢昇 JDK，整體的發展史如何，是在什么樣的形勢下華為要做畢昇 JDK，在底層的優化方面又做到了哪些？同時又潛藏了哪些值得開發的價值？正為華為編譯器資深技術專家彭成寒老師所講，把數字世界帶入每個人、每個家庭、每個組織，構建萬物互聯的智能世界，這是我們的追求！

在這里插入圖片描述

我是白鹿，一個不懈奮斗的程式猿，望本文能對你有所裨益，歡迎大家的一鍵三連！若有其他問題、建議或者補充可以留言在文章下方，感謝大家的支持！

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/286262.html

標籤：其他

上一篇：手把手教你做出資料可視化專案（四）動態模擬航班飛行路線

下一篇：springcloud筆記四hystrix

畢昇 JDK：“傳奇再現”華為如何打造 ARM 上最好用的 JDK？

文章目錄

前言

一、什么是畢昇 JDK？

1.1、畢昇 JDK 發展歷程

1.2、畢昇 JDK 的支持架構

1.3、畢昇 JDK、OpenJDK 和 Oracle JDK 區別

二、為什么要做畢昇 JDK？

2.1、Oracle JDK 授權方式發生變化

2.2、高版本 JDK 有價值特性的渴望

2.3、應用的定制化優化訴求

三、畢昇 JDK 現狀

3.1、畢昇 JDK 研發現狀

3.2、畢昇 JDK 性能提升實體

四、畢昇 JDK 的 GC 演算法優化

4.1、并行復制演算法的概念

4.2、架構對并行復制演算法的影響

4.3、并行復制演算法的流程

4.4、演算法優化減少 membar 之 Q&A

4.5、G1、GC 的優化

4.6、ZGC 的優化

五、JIT 優化——SVE 演算法優化

5.1、SVE 演算法優化相關介紹

5.2、SVE 演算法優化成果

六、軟硬協同——鯤鵬 KAE 硬體加速

七、畢昇 JDK 還能帶來什么價值？

八、畢昇 JDK 的未來發展

8.1、即將面世的功能

8.2、未來方向

九、如何獲得畢昇 JDK 及幫助？

9.1、JDK 8 的代碼倉

9.2、JDK 11 的代碼倉

總結