主頁 > 後端開發 > 理論+實戰,詳解Sharding Sphere-jdbc

理論+實戰,詳解Sharding Sphere-jdbc

2023-03-03 07:16:22 後端開發

摘要:Apache ShardingSphere 是一款分布式的資料庫生態系統,它包含兩大產品:ShardingSphere-Proxy和ShardingSphere-JDBC,

本文分享自華為云社區《看完這一篇,ShardingSphere-jdbc 實戰再也不怕了》,作者:勇哥java實戰分享 ,

1 ShardingSphere 生態

Apache ShardingSphere 是一款分布式的資料庫生態系統,它包含兩大產品:

  • ShardingSphere-Proxy
  • ShardingSphere-JDBC

▍一、ShardingSphere-Proxy

ShardingSphere-Proxy 被定位為透明化的資料庫代理端,提供封裝了資料庫二進制協議的服務端版本,用于完成對異構語言的支持,

代理層介于應用程式與資料庫間,每次請求都需要做一次轉發,請求會存在額外的時延,

這種方式對于應用非常友好,應用基本零改動,和語言無關,可以通過連接共享減少連接數消耗,

▍二、ShardingSphere-JDBC

ShardingSphere-JDBC 是 ShardingSphere 的第一個產品,也是 ShardingSphere 的前身, 我們經常簡稱之為:sharding-jdbc ,

它定位為輕量級 Java 框架,在 Java 的 JDBC 層提供的額外服務,它使用客戶端直連資料庫,以 jar 包形式提供服務,無需額外部署和依賴,可理解為增強版的 JDBC 驅動,完全兼容 JDBC 和各種 ORM 框架,

當我們在 Proxy 和 JDBC 兩種模式選擇時,可以參考下表對照:

越來越多的公司都在生產環境使用了 sharding-jdbc ,最核心的原因就是:簡單(原理簡單,易于實作,方便運維),

2 基本原理

在后端開發中,JDBC 編程是最基本的操作,不管 ORM 框架是 Mybatis 還是 Hibernate ,亦或是 spring-jpa ,他們的底層實作是 JDBC 的模型,

sharding-jdbc 的本質上就是實作 JDBC 的核心介面,

雖然我們理解了 sharding-jdbc 的本質,但是真正實作起來還有非常多的細節,下圖展示了 Prxoy 和 JDBC 兩種模式的核心流程,

1.SQL 決議

分為詞法決議和語法決議, 先通過詞法決議器將 SQL 拆分為一個個不可再分的單詞,再使用語法決議器對 SQL 進行理解,并最終提煉出決議背景關系,

決議背景關系包括表、選擇項、排序項、分組項、聚合函式、分頁資訊、查詢條件以及可能需要修改的占位符的標記,

2.執行器優化

合并和優化分片條件,如 OR 等,

3.SQL 路由

根據決議背景關系匹配用戶配置的分片策略,并生成路由路徑,目前支持分片路由和廣播路由,

4.SQL 改寫

將 SQL 改寫為在真實資料庫中可以正確執行的陳述句,SQL 改寫分為正確性改寫和優化改寫,

5.SQL 執行

通過多執行緒執行器異步執行,

6.結果歸并

將多個執行結果集歸并以便于通過統一的 JDBC 介面輸出,結果歸并包括流式歸并、記憶體歸并和使用裝飾者模式的追加歸并這幾種方式,

本文的重點在于實戰層面, sharding-jdbc 的實作原理細節我們會在后續的文章一一給大家呈現 ,

3 實戰案例

筆者曾經為武漢一家 O2O 公司訂單服務做過分庫分表架構設計 ,當企業用戶創建一條采購訂單 , 會生成如下記錄:

  • 訂單基礎表t_ent_order :單條記錄
  • 訂單詳情表t_ent_order_detail :單條記錄
  • 訂單明細表t_ent_order_item:N 條記錄

訂單資料采用了如下的分庫分表策略:

  • 訂單基礎表按照 ent_id (企業用戶編號) 分庫 ,訂單詳情表保持一致;
  • 訂單明細表按照 ent_id (企業用戶編號) 分庫,同時也要按照 ent_id (企業編號) 分表,

首先創建 4 個庫,分別是:ds_0、ds_1、ds_2、ds_3 ,

這四個分庫,每個分庫都包含 訂單基礎表 , 訂單詳情表 ,訂單明細表 ,但是因為明細表需要分表,所以包含多張表,

然后 springboot 專案中配置依賴 :

 <dependency>
 <groupId>org.apache.shardingsphere</groupId>
 <artifactId>sharding-jdbc-spring-boot-starter</artifactId>
 <version>4.1.1</version>
 </dependency>

組態檔中配置如下:

  • 配置資料源,上面配置資料源是: ds0、ds1、ds2、ds3 ;
  • 配置列印日志,也就是:sql.show ,在測驗環境建議打開 ,便于除錯;
  • 配置哪些表需要分庫分表 ,在 shardingsphere.datasource.sharding.tables 節點下面配置:

上圖中我們看到配置分片規則包含如下兩點:

1)真實節點

對于我們的應用來講,我們查詢的邏輯表是:t_ent_order_item ,

它們在資料庫中的真實形態是:t_ent_order_item_0 到 t_ent_order_item_7,

真實資料節點是指資料分片的最小單元,由資料源名稱和資料表組成,

訂單明細表的真實節點是:ds$->{0..3}.t_ent_order_item_$->{0..7} ,

2)分庫分表演算法

配置分庫策略和分表策略 , 每種策略都需要配置分片欄位( sharding-columns )和分片演算法

4 基因法 & 自定義復合分片演算法

分片演算法和阿里開源的資料庫中間件 cobar 路由演算法非常類似的,

假設現在需要將訂單表平均拆分到4個分庫 shard0 ,shard1 ,shard2 ,shard3 ,

首先將 [0-1023] 平均分為4個區段:[0-255],[256-511],[512-767],[768-1023],然后對字串(或子串,由用戶自定義)做 hash, hash 結果對 1024 取模,最終得出的結果 slot 落入哪個區段,便路由到哪個分庫,

看起來分片演算法很簡單,但我們需要按照訂單 ID 查詢訂單資訊時依然需要路由四個分片,效率不高,那么如何優化呢 ?

答案是:基因法 & 自定義復合分片演算法,

基因法是指在訂單 ID 中攜帶企業用戶編號資訊,我們可以在創建訂單 order_id 時使用雪花演算法,然后將 slot 的值保存在 10位作業機器 ID 里,

通過訂單 order_id 可以反查出 slot , 就可以定位該用戶的訂單資料存盤在哪個分片里,

 Integer getWorkerId(Long orderId) {
  Long workerId = (orderId >> 12) & 0x03ff;
 return workerId.intValue();
 }

下圖展示了訂單 ID 使用雪花演算法的生成程序,生成的編號會攜帶企業用戶 ID 資訊,

解決了分布式 ID 問題,接下來的一個問題:sharding-jdbc 可否支持按照訂單 ID ,企業用戶 ID 兩個欄位來決定分片路由嗎?

答案是:自定義復合分片演算法,我們只需要實作 ComplexKeysShardingAlgorithm 類即可,

復合分片的演算法流程非常簡單:

1.分片鍵中有主鍵值,則直接通過主鍵決議出路由分片;

2.分片鍵中不存在主鍵值 ,則按照其他分片欄位值決議出路由分片,

5 擴容方案

既然做了分庫分表,如何實作平滑擴容也是一個非常有趣的話題,

在資料同步之前,需要梳理遷移范圍,

1)業務唯一主鍵;

在進行資料同步前,需要先梳理所有表的唯一業務 ID,只有確定了唯一業務 ID 才能實作資料的同步操作,

需要注意的是:業務中是否有使用資料庫自增 ID 做為業務 ID 使用的,如果有需要業務先進行改造 ,另外確保每個表是否都有唯一索引,一旦表中沒有唯一索引,就會在資料同步程序中造成資料重復的風險,所以我們先將沒有唯一索引的表根據業務場景增加唯一索引(有可能是聯合唯一索引),

2)遷移哪些表,遷移后的分庫分表規則;

分表規則不同決定著 rehash 和資料校驗的不同,需逐個表梳理是用戶ID緯度分表還是非用戶ID緯度分表、是否只分庫不分表、是否不分庫不分表等等,

接下來,進入資料同步環節,

整體方案見下圖,資料同步基于 binlog ,獨立的中間服務做同步,對業務代碼無侵入,

首先需要做歷史資料全量同步:也就是將舊庫遷移到新庫,

單獨一個服務,使用游標的方式從舊庫分片 select 陳述句,經過 rehash 后批量插入 (batch insert)到新庫,需要配置jdbc 連接串引數 rewriteBatchedStatements=true 才能使批處理操作生效,

因為歷史資料也會存在不斷的更新,如果先開啟歷史資料全量同步,則剛同步完成的資料有可能不是最新的,

所以我們會先開啟增量資料單向同步(從舊庫到新庫),此時只是開啟積壓 kafka 訊息并不會真正消費;然后在開始歷史資料全量同步,當歷史全量資料同步完成后,在開啟消費 kafka 訊息進行增量資料同步(提高全量同步效率減少積壓也是關鍵的一環),這樣來保證遷移資料程序中的資料一致,

增量資料同步考慮到灰度切流穩定性、容災 和可回滾能力 ,采用實時雙向同步方案,切流程序中一旦新庫出現穩定性問題或者新庫出現資料一致問題,可快速回滾切回舊庫,保證資料庫的穩定和資料可靠,

增量資料實時同步的大體思路 :

1.過濾回圈訊息

需要過濾掉回圈同步的 binlog 訊息 ;

2.資料合并

同一條記錄的多條操作只保留最后一條,為了提高性能,資料同步組件接到 kafka 訊息后不會立刻進行資料流轉,而是先存到本地阻塞佇列,然后由本地定時任務每X秒將本地佇列中的N條資料進行資料流轉操作,此時N條資料有可能是對同一張表同一條記錄的操作,所以此處只需要保留最后一條(類似于 redis aof 重寫);

3.update 轉 insert

資料合并時,如果資料中有 insert + update 只保留最后一條 update ,會執行失敗,所以此處需要將 update 轉為 insert 陳述句 ;

4.按新表合并

將最終要提交的 N 條資料,按照新表進行拆分合并,這樣可以直接按照新表緯度進行資料庫批量操作,提高插入效率,

擴容方案文字來自 《256變4096:分庫分表擴容如何實作平滑資料遷移》,筆者做了些許調整,

6 總結

sharding-jdbc 的本質是實作 JDBC 的核心介面,架構相對簡單,

實戰程序中,需要配置資料源資訊,邏輯表對應的真實節點和分庫分表策略(分片欄位和分片演算法

實作分布式主鍵直接路由到對應分片,則需要使用基因法 & 自定義復合分片演算法 ,

平滑擴容的核心是全量同步實時雙向同步,工程上有不少細節,

實戰代碼地址:https://github.com/makemyownlife/shardingsphere-jdbc-demo

參考資料:

  • 256變4096:分庫分表擴容如何實作平滑資料遷移?
  • 黃東旭:分布式資料庫歷史、發展趨勢與 TiDB 架構

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/545527.html

標籤:Java

上一篇:風控系統就該這么設計,萬能通用,穩的一批!(建議收藏)

下一篇:面試官:從 MySQL 讀取 100w 資料進行處理,應該怎么做?問倒一大遍!

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more