作者：柯煜昌顧問軟體工程師

目前從事 RadonDB 容器化研發，華中科技大學研究生畢業，有多年的資料庫內核開發經驗，

你將 Pick 這些內容：

云原生的概念
云原生資料庫的概念
兩種主流技術路線分析
六種云原生資料庫方案和功能介紹
云原生資料庫的核心功能和價值

背景

隨著云計算的蓬勃發展，IT 應用轉向云端，云服務出現如下若干特點：

提供按需服務；
用戶只愿支付運營費用而不愿支付資產費用；
云服務提供商集群規模越來越大，甚至遍布全球，集群達到云級規模（Cloud-Scale），

根據以上特點，要求云產品需要提供一定 “彈性”（Elastic），而且達到云級規模；節點故障如同噪聲” 一樣不可避免，這又要求云服務有一定的 “自愈”（Resilience）能力，

起初，通過借助 IaaS，直接將傳統的資料庫 “搬遷” 到云上，于是出現了關系型資料庫服務（RDS），這樣雖然能部分實作 “彈性” 與 “自愈”，但是這種方案存在資源利用率低，維護成本高，可用性低等問題，于是，設計適應云特點的云原生資料庫就至關重要，

RDS 的挑戰

以 MySQL 為例，如果要實作高可用或者讀寫分離集群，則需要搭建 binlog 復制集群，

file
圖 1：MySQL 復制架構

如上圖所示，除了頁寫入與 double write，redo log 寫入操作外，還有 binlog 與 relay log 的寫入，

缺陷	說明
寫放大嚴重	如果以上架構中，FileSystem 部署在分布式檔案系統中，頁的寫操作，會因為副本復制的機制將 IO 放大，最后 IO 延遲也會放大，
資源浪費嚴重	1. binlog 復制是為了適配 MySQL 所有存盤引擎，屬于邏輯復制，本質是將 SQL 在從實體執行（除了沒有主實體的鎖爭用外，其他代價幾乎一樣），效率不高，也浪費了 CPU 與記憶體的資源， 2. 擴展集群的計算能力時，不得不同時擴展存盤空間，導致磁盤資源的浪費，
備份恢復慢	無論是物理備份/恢復，還是邏輯備份/恢復，備份操作均會上鎖，影響正常業務進行，并且，備份恢復的時間也隨著存盤容量的增大而線性增長，
擴展代價大	1. 新增從實體，首先要從備份中恢復資料，然后應用binlog以達到與主實體一致的狀態，這個程序耗時取決于恢復的時間以及binlog日志應用的時間，資料量大、資料狀態過時的情況下，耗時費力而且不保證正確，彈性能力有限， 2. 存盤容量受限于單機存盤容量，無法自由擴展，
可用性低	Aurora[1]指出，在高規模的集群環境中，軟體或者硬體故障如同“背景噪聲”那樣不可避免，并且縮短平均故障間隔時間（MTTF）是非常困難的，可行的方法是減少平均恢復的時間（MTTR）從而達到高可用性，如上所示，RDS 仍然是傳統的備份恢復的方法修復故障，如果資料量大的話，可能是數小時，超過平均故障時間間隔（Aurora 是 10s），出現更多節點故障，可能使得共識演算法無效（超過半數），可用性就大大打折扣，
運維成本高	備份/恢復與擴展，均需要專業 DBA 團隊運維，每個步驟出現錯誤需要人工檢查，

云原生資料庫簡介

為了解決以上問題，需要針對云上服務的特點，改造或者開發新一代云資料庫，這便是云原生資料庫，

特點	說明
計算存盤分離	對存盤與計算進行解耦合，實作存盤與計算分離，
無狀態	計算節點無狀態或較少狀態，
存盤集群靈巧化	采用小存盤塊方式組織副本，用以減少平均恢復時間，多副本共識演算法，實作存盤的高可用與故障“自愈”能力，

通過解耦合與少狀態，計算節點擴展就會很輕量，擴展速度近乎行程啟動的速度，避免擴展計算資源的時候，不得不浪費存盤資源的窘境，

解耦合也使得存盤節點也少了一定的約束，可以使用成熟的分布式存盤技術實作靈巧化，降低運維成本提高可用性，

接下來將介紹目前兩種主流的技術路線和幾種知名的方案，

1 Spanner 類

以 Google 的 Spanner[2] 為代表，基于云原生開發全新的資料庫，受其影響，產生了CockrochDB、TiDB、YugabyteDB 等產品，

1.1 架構

以 TiDB[3] 架構圖為例：

file
圖 2：TiDB 架構圖

總體來說，此類產品其特點都是在 key-value 存盤基礎上包裝一層分布式 SQL 執行引擎，使用 2PC 提交或者其變種方案實作事務處理能力，計算節點是 SQL 執行引擎，可以徹底實作無狀態，本質是一個分布式資料庫，

1.2 存盤高可用性

Spanner 將表拆分為 tablet，以 tablet 為單位使用多副本 + Paxos 演算法實作，

TiDB 為 Region 為單位使用多副本 + Multi-Raft 演算法，而 CockroachDB 則采用 Range 為單位進行多副本，共識演算法也是使用 Raft，

Spanner 中 key-value 持久化方案，邏輯上仍然是基于日志復制的狀態機模型（log-replicated state machines）上再加共識演算法實作，

file
圖 3：multi-Raft 存盤架構

1.3 優缺點

	說明
優點	1. 徹底的 Share-Nothing 2. 號稱全球部署 3. 使用 key-value 結構與 LSM 樹，以及日志復制自動機機制，天然無寫放大效應 4. 不需要人為分庫分表，有很好的橫向擴展能力
缺點	1. 全新開發作業量大，技術不算成熟 2. 性能不佳 3. 事務處理能力有限 ?3.1 在記憶體中處理事務沖突，有沖突的需要讀寫等待或者提交等待， ?3.2 如：Spanner 對有沖突的事務 TPS 能力最大只有 125 4. SQL 支持能力有限 ?4.1 如：YugabyteDB 不支持 Join 陳述句

2 Aurora 類

Aurora 是亞馬遜推出的云原生資料庫，與 Google 的技術路線不同，Aurora 是傳統的 MySQL（PostgreSQL）等資料庫進行計算與存盤分離改造，進而實作云原生的需求，但其本質仍然是單體資料庫的讀寫分離集群，

Aurora 論文對 Spanner 的事務處理能力并不滿意，認為它是為 Google 重讀（read-heavy）負載定制的資料庫系統[1] ，這種方案得到一些資料庫廠商的認同，出現了微軟 Socrates、阿里PolarDB、騰訊 CynosDB、極數云舟 ArkDB 以及華為 TarusDB 云原生資料庫等，

2.1 架構

Aurora 架構如下：

file
圖 4：Aurora 架構
下圖綠色部分為日志流向，
file
圖 5：Aurora 網路 IO

由于傳統資料庫持久化最小單位是一個物理頁，哪怕修改一行，持久化仍然是一個頁，加上需要寫 redo 日志與 undo 記錄，本身就存在一定的寫放大問題，如果機械的將檔案系統替換成使用分布式檔案系統，并且為了實作高可用采用多副本，則寫放大效應進一步放大，導致存盤網路成為瓶頸而性能無法接受，

Aurora 繼承了 Spanner 的日志持久化的思想，甚至激進提出“日志即資料庫”的口號，其核心思想是存盤網路盡量傳輸日志流，對于讀操作，存盤網路傳輸資料頁在所難免，但是計算節點可以通過 buffer pool 來優化，

它對傳統資料庫進行了如下改造：

資料庫主實體變成計算節點，資料庫主實體不再進行刷臟頁動作，僅僅向存盤寫日志，存盤應用日志實作持久化，即日志應用下沉到存盤，資料庫主實體沒有后臺寫動作，沒有 cache 強制刷臟替換，沒有檢查點；
資料庫復制實體獲取日志內容，通過日志應用更新自身的 buffer/cache 等記憶體物件；
主實體與復制實體共享存盤；
將崩潰恢復，備份、恢復、快照功能下放到存盤層，

并且，以原有 S3 存盤系統為基礎，對存盤進行如下改造：

將存盤分段（Segment），以 10G 作為分段單位大小, 每個分段共六個副本，部署于三個可用區（Available Zone），每個可用區兩個副本，Aurora 將這六個分段稱為一個保護組（Protection Group，PG），實作高可用，
存盤節點能接收日志記錄應用來實作資料庫物理頁的持久化，并且使用 Gossip 協議同步各個副本間的日志，

存盤能提供多版本物理頁，用以適配多個復制實體的延遲，并且后臺有歷史版本頁面回收執行緒，

持久化頁存盤流程圖如下：
file
圖 6：持久化存盤流程

2.2 高可用

Aurora 采用仲裁協議（Quorum）多數派投票方式來檢測故障節點，這種高可用的前提是，10G 分段恢復時間為 10 秒，而 10 秒內出現第二個節點故障的可能性幾乎為 0，

它采用 3 個可用區，可以形成 4/6 仲裁協議（6 個節點，寫需 4 個投票，讀需 3 個投票），最壞情況是某個可用區出現災害（地震，水災，恐怖襲擊等）時，同時隨機出現一個節點故障，此時仍然有 3 個副本，可以使用 2/3 仲裁協議（3 個節點，寫需 2 個投票，讀需 2 個投票）繼續保持高可用性（AZ+1 高可用），

	說明
優點	1. 在成熟的資料庫系統進行改造，技術相對成熟穩定、作業量小 2. 事務處理能力，性能能保持傳統資料庫的優勢
缺點	1. 本質仍然是改良的讀寫分離集群 2. 有修改一行寫一個頁的寫放大問題，需要小心處理 3. 需要 proxy 等組件才能支持分布式事務

3 CynosDB 方案

CynosDB[9] 幾乎復刻了 Aurora 的實作方式，但是有其自身的特點：

存盤多副本之間用 Raft 演算法保證高可用，Raft 演算法包含了 Quorum 仲裁演算法，而且更加靈活；
與 Aurora 一樣，主從計算節點通過網路傳輸 redo 日志，同步雙方的 buffer cache 以及其他記憶體物件，

4 PolarDB 方案

file
圖 7：PolarDB 架構

PolarDB[5] 也是存盤與計算分離架構，但與 Aurora 最大的不同，就是沒有將 redo 日志下放到存盤進行處理，計算節點仍然要向存盤寫物理頁，僅主實體與復制實體之間使用 redo 日志進行物理復制同步 buffer pool [4]、事務等其他記憶體物件，使用現有的分布式檔案系統，不對其進行改造，

PolarDB 目前集中于分布式檔案系統優化（PolarFS），以及查詢加速優化（FPGA 加速），

5 Socrates 方案

file
圖 8：Socrates 架構

Socrates[7] 是微軟新研發的 DaaS 架構，與 Aurora 類似，使用存盤與計算分離架構，強調日志的作用，但是 Socrates 采用的復用已有 SQL Server 組件：

SQL Server 為了支持 Snapshot 隔離級，提供了多版本資料頁（Page Version Store）的功能；
使用 SSD 存盤作為 buffer pool 的擴展（Reslilient Cache），可以加速故障崩潰恢復程序；
RBIO Protocol 是擴展的網路協議，用以進行遠程資料頁讀取；
Snapshot Backup/Restore 快速備份與恢復；
新增 XLogService 模塊，

其特點如下：

盡量復用了原有 SQL Server 的特性，使用 SQL Server 組件充當 Page Server，模擬 Aurora 的存盤節點；
Socrates 有一個很大的創新，日志與頁面存盤分離，它認為持久性（durability）不需要使用快速存盤設備中的副本，而可用性（availability）不需要有固定數量的復制節點，因此 XLog 和 XStore 負責 durability，計算節點和 page server 僅用于可用性（它們失效的時候不會丟資料，僅僅是不可用）；
redo 日志傳遞均借助 Xlog Service，而不是通過主從計算節點通過網路傳輸，主實體節點不需要額外進行日志快取來適應從實體節點，

6 TaurasDB 方案

file
圖 9：TaurasDB 架構

TaurasDB[8] 架構如上圖，它繼承了 Aurora 的日志下沉存盤的思想，也繼承了 Socrates 的日志與頁面存盤分離的思想，并且在計算節點添加了存盤抽象層（SAL），LogStore 與 PageStore 采用與 Aurora 類似的 Quorum 仲裁演算法實作高可用，

總結

云原生資料庫的核心功能

計算與存盤分離，計算節點保持少狀態，甚至無狀態；
基于日志的進行持久化；
存盤分片/分塊，易于擴容；
存盤多副本與共識演算法；
備份、恢復、快照功能下放到存盤層，

知名方案的非核心功能

file
圖 10：非核心性能支持情況

【全球部署】

多機房升級版，需要考慮全球可用性，全球分布式事務能力，以及 GDPR 合規要求的地理磁區（Geo-Partitioning）特性，

由于歐盟出臺通用資料保護條例（GDPR）[6]，使得資料不得隨意跨境轉移，違者最高罰款 2000 萬歐元，或者全球營收 4%，原有分布式庫處理技術，例如使用復制表進行 Jion 優化，就存在違規風險，此外，國內以及其他國家均有類似的資料保護法規，合規性將來也會是重要的需求，

云原生資料庫的核心價值

【更高的性能】
基于日志進行持久化與復制更輕量，避免寫放大效應，各大廠商均號稱比原版 MySQL 有 5～7 倍性能，

【更好的彈性】
計算節點無狀態或少狀態，計算節點與存盤擴展靈活，

【更好的可用性】
將資料庫持久檔案分片，以小粒度方式副本方式降低 MTTR，以及共識演算法來實作高可用，

【更高的資源利用率】
計算能力與存盤容量按需伸縮，減少資源浪費，

【更小的成本】
更少的資源、更少的浪費、更少的維護，最終達到更小的成本，

云原生資料庫本質是用現有技術組合，實作云原生需求，而且也是資料庫實作 serverless 的必由之路，

參考文獻

[1]: "Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases"
[2]: "Spanner: Google’s Globally-Distributed Database"
[3]: TiDB: A Raft-based HTAP Database
[4]: PolarDB redo replication https://www.percona.com/live/18/sites/default/files/slides/polardb_p18_slides.pdf
[5]: PolarDB Architecture https://www.intel.com/content/dam/www/public/us/en/documents/solution-briefs/alibaba-polardb-solution-brief.pdf5
[6]: GDPR https://gdpr-info.eu/
[7]: "Socrates: The New SQL Server in the Cloud"
[8]: Taurus Database: How to be Fast, Available, and Frugal in the Cloud
[9]: 騰訊云新一代自研資料庫CynosDB技術詳解——架構設計https://cloud.tencent.com/developer/article/1367387

文中圖片均來自以上參考鏈接

本文由博客一文多發平臺 OpenWrite 發布！

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/299904.html

標籤：其他

上一篇：mysql 5.7命令列安裝(windows)

下一篇：SQL-事務

盤點 | 主流云原生資料庫技術方案

背景