主頁 > 軟體設計 > 存盤高性能[關系型資料庫]

存盤高性能[關系型資料庫]

2020-09-14 00:47:01 軟體設計

關系型資料庫由于其ACID的特性和功能強大的SQL能力,目前仍舊是各種業務系統關鍵且核心的存盤系統,很多場景下高性能的設計核心部分就是關系型資料庫的設計,尤其是互聯網時代,海量用戶加上海量資料的特點,單個資料庫服務器已經難以滿足業務需求,必須考慮資料庫集群的方式提升性能,高性能資料庫集群的第一種方式是讀寫分離,其本質是將訪問壓力分散到集群中的多個節點,但沒有分散存盤壓力;第二種方式是分庫分表,既可以分散訪問壓力,又可以分散存盤壓力

讀寫分離

在這里插入圖片描述

讀寫分離的基本原理是將資料庫讀寫操作分散到不同的節點上:

  • 資料庫服務器搭建主從集群,一主一叢或一主多從
  • 資料庫主機負責讀寫操作,從機之負責讀操作
  • 資料庫主機通過復制將資料同步到從機,每臺資料庫服務器都存盤了所有的業務資料
  • 業務服務器將寫操作發給資料庫主機,將讀操作發給資料庫從機

讀寫分離的實作邏輯并不復雜,而實際應用程序中需要應對的是復制延遲帶來的復雜性,以MySQL為例,主從復制延遲可能1秒,如果大量資料同步延遲達到1分鐘也很常見,這種情況就帶來了一個問題業務服務器將資料寫入到資料庫主服務器,應用程式立刻進行讀取,此時讀操作訪問的是從機,主機還沒有將資料復制過來,到從機讀取資料是讀不到最新資料的;再距離注冊賬號的功能,注冊完立即登陸是會得到類似“你還沒有注冊”的提示的

解決主從復制延遲

將寫操作后的讀操作發送給資料庫主服務器

例如注冊賬號完成后,立即登陸時讀取賬號的讀操作也要發給資料庫主服務器,這種方式與業務強系結,對業務的侵入和影響較大

讀從機失敗后再讀一次主機

這也就是常說的“二次讀取”,二次讀取和業務無系結,對底層訪問資料庫的API進行封裝,實作代價比較小,缺點在于二次讀取過多,仍舊會增加主機的讀操作壓力

關鍵業務讀寫操作全部指向主機,非關鍵業務采用讀寫分離

分庫分表

讀寫分離分散了資料庫讀寫操作的壓力,但沒有分散存盤壓力,資料量達到千萬級以上的時候,單臺資料庫服務器的存盤能力會成為系統的瓶頸,主要體現在如下三個方面:

  • 資料量太大,讀寫的性能就會下降,即使有索引,索引也會變得很大,性能同樣會下降
  • 資料檔案會變得很大,資料庫備份和恢復需要消耗很長的時間
  • 資料檔案越大,極端情況下丟失資料的風險越高
    因此,單個資料庫服務器存盤的資料量不能太大,需要控制在一定的范圍,需要將存盤分散到多臺資料庫服務器,也就是分庫分表

業務分庫

業務分庫是指按照業務模塊將資料分散到不同的資料庫服務器
在這里插入圖片描述

分庫雖然分散了存盤和訪問壓力,但同時也帶來了新的問題

join操作問題

業務分庫后,原本在同一個資料庫中的表分散到不同的資料庫中,導致無法使用SQL的join查詢

事務問題

原本在同一個資料庫中不同的表可以在同一個事務中修改,業務分庫后,表分散到不同的資料庫中,無法通過事務統一修改,雖然資料庫提供了分布式事務的解決方案例如MySQL的XA,但性能比較差,與高性能存盤的目標是相違背的

成本問題

業務分庫同時帶來了成本的代價,一臺的事變成了三臺的事

分表

將不同業務資料分散存盤到不同的資料庫服務器,能夠支撐百萬甚至千萬用戶規模的業務,隨著業務的發展同一業務的單表資料也會達到單臺資料庫服務器的處理瓶頸,單表拆分有兩種方式垂直分表和水平分表

  • 表的垂直切分:將一個表切成兩個,這兩個表的記錄相同但包含不同的列,例如一個表包含ID、name、age、sex列;另一個表包含ID、nickname、description列
  • 表的水平切分:將一個表切成兩個,這兩個表的列相同但包含不同的行資料,例如兩個表都包含ID、name、age、sex、nickname,description列,但一個表包含的是ID從1到999999的行資料,另一個表包含的是ID從100000到99999999的行資料
  • 實際上架構設計程序中并不局限切分次數,一個表可以切兩次,也可以多次
  • 單表切分后的表是否需要分散在不同的資料庫服務器中,可以根據實際切分效果來確定,并不強制要求單表切分變成多表后一定要分散到不同的資料庫中,原因在于單表切分為多表后,新的表即使在同一個資料庫服務器中,也會帶來可觀的性能提升,如果單表拆分后單臺服務器依然無法滿足性能要求,可以再進行分庫

垂直分表

  • 垂直分表適合將表中某些不常用且占了大量空間的列拆分出去,例如用戶在篩選其他用戶的時候,主要是用age和sex兩個欄位進行查詢,而nickname和description兩個欄位主要用于展示,一般不會用到業務查詢中使用,這個時候將nickname和description獨立到另外一張表中,這樣在查詢age和sex時,就會帶來性能提升
  • 垂直分表引入的復雜性主要體現在表操作的數量要增加,例如分表前一次查詢就可以獲取name、age、sex、nickname、description,現在需要查詢兩次,一次查詢獲取name、age、sex,另一次查詢獲取nickname、description

水平分表

水平分表適合表行數特別大的表,通常單表行數超過5000萬就必須進行分表,但不絕對標準需要視情況而定做取舍,但單表行數達到千萬級架構師就必須警覺,水平分表比垂直分表更復雜,主要體現在如下幾個方面

路由

水平分表后,某條資料具體屬于哪個切分后的字表,需要增加路由演算法進行計算,常見的路由演算法有

范圍路由
  • 選取有序的資料列(例如,整型、時間戳等)作為路由的條件,不同分段分散到不同的數 據庫表中 以最常見的用戶ID為例,路由演算法可以按照1000000 的范圍大小進行分段,1~999999 放到A資料庫的表中,1000000~1999999放到B資料庫的表中 ,以此類推
  • 范圍路由設計的復雜點主要體現在分段大小的選取上,分段太小會導致切分后子表數量過多,增加維護復雜度;分段太大可能會導致單表依然存在性能問題,一般建議分段大小在100 萬至 2000 萬之間具體需要根據業務選取合適的分段大小
  • 范圍路由的優點是可以隨著資料的增加平滑地擴充新的表,例如,現在的用戶是100 萬,如果增加到 1000萬,只需要增加新的表就可以了,原有的資料不需要動
  • 范圍路由的一個比較隱含的缺點是分布不均勻,假如按照 1000萬來進行分表,有可能某個分段實際存盤的資料只有 1000 條, 而另外一個分段實際存盤的資料有900萬條
Hash路由
  • 選取某個列(或者某幾個列組合也可以〉的值進行 Hash 運算,然后根據 Hash 結果分散到不同的資料庫表中,同樣以用戶ID為例,假如我們一開始就規劃了 10 個資料庫表,路由演算法可以簡單地用user id %10的值來表示資料所屬的資料庫表編號,ID為985的用戶放到編號為5的子表中,ID為10086 的用 戶放到編號為 6 的字表中
  • Hash 路由設計的復雜點主要體現在初始表數量的選取上,表數量太多維護比較麻煩,表數 量太少又可能導致單表性能存在問題,而用了Hash路由后,增加字表數量是非常麻煩的, 所有 資料都要重分布
  • Hash 路由的優缺點和范圍路由基本相反, Hash路由的優點是表分布比較均勻,缺點是擴充新的表很麻煩,所有資料都要重分布
配置路由
  • 配置路由就是路由表,用 一張獨立的表來記錄路由資訊,同樣以用戶 ID 為例 ,我們新增一張user router 表,這個表包含 user_id 和 table_id 兩列,根據 user_id 就可以查詢對應的 table_id
  • 配置路由設計簡單,使用起來非常靈活,尤其是在擴充表的時候,只需要遷移指定的資料, 然后修改路由表就可以了
  • 配置路由的缺點就是必須多查詢一次,會影響整體性能 ; 而且路由表本身如果太大(幾億條資料),性能同樣可能成為瓶頸,如果我們再次將路由表分庫分表,則又面臨一個死回圈式的路由演算法選擇問題
join 操作問題

水平分表后,資料分散在多個表中 ,如果需要與其他表進行join查詢,需要在業務代碼或資料庫中間件中進行多次join查詢,然后將結果合井

count 操作問題

水平分表后,雖然物理上資料分散到多個表中,但某些業務邏輯上還是會將這些表當作一個表來處理,例如,獲取記錄總數用于分頁或展示,水平分表前用 一個count()就能完成的操作,在分表后就沒那么簡單了, 常見的處理方式有:

count() 相加

具體做法是在業務代碼或資料庫中間件中對每個表進行count()操作,然后將結果相加 ,這種方式實作簡單,缺點就是性能比較低 ,例如,水平分表后切分為20張表,則要進行20次count(*) 操作,如果串行的話, 則可能需要幾秒鐘才能得到結果,

記錄數表
  • 具體做法是新建一張表,假如表名為"記錄數表",包含table_name、row_count兩個欄位,每次插入或洗掉子表資料成功后,都更新“記錄數表”
  • 這種方式獲取表記錄數的性能要大大優于count()相加的方式,因為只需要一次簡單查詢就可以獲取資料
  • 缺點是復雜度增加不少,對子表的操作要同步操作“記錄數表”,如果有一個業務邏輯遺漏了,資料就會不一致;且針對“記錄數表”的操作和針對子表的操作無法放在同一事務中進行處理,例外的情況下會出現操作子表成功了而操作記錄數表失敗,同樣會導致資料 不一致,
  • 此外,記錄數表的方式也增加了資料庫的寫壓力,因為每次針對子表的insert和delete操作都要update記錄數表,所以對于一些不要求記錄數實時保持精確的業務,也可以通過后臺定時更新記錄數表,定時更新實際上就是“ count()相加”和“記錄數表”的結合,即定時通過count()相加計算表的記錄數,然后更新記錄數表中的資料,
order by 操作

水平分表后,資料分散到過個字表中,排序操作無法在資料庫中完成,只能由業務代碼或資料庫中間件分別查詢每個字表中的資料,然后匯總再排序

實作方法

讀寫分離需要將讀寫操作區分開來,然后訪問不同的資料庫服務器;分庫分表需要根據不同的資料訪問不同的資料庫服務器,兩者本質上都是一種分配機制,即將不同的 SQL 陳述句發送 到不同 的 資料庫服務器,常見的分配實作方式有兩種:程式代碼封裝和中間件封裝

程式代碼封裝

程式代碼封裝指在代碼中抽象一個資料訪問層來實作讀寫分離、分庫分表,例如,基于Hibernate進行簡單封裝,就可以實作讀寫分離 , 基本架構如下圖所示

在這里插入圖片描述

程式代碼封裝的方式具備如下幾個特點:

  • 實作簡單 , 而且可以根據業務做較多定制化的功能
  • 每個編程語言都需要自己實作一次,無法通用 ,如果一個業務包含多個編程語言寫的多個子系統 ,則重復開發 的作業量比較大
  • 故障情況下,如果主從發生切換, 則可能需要所有系統都修改配置井重啟 ,

目前開源的實作方案中,淘寶的TDDL ( Taobao Distributed Data Layer)是比較有名的,它是一個通用資料訪問層,所有功能封裝在jar包中供業務代碼呼叫,其基本原 理是一個基于集中式配置的jdbc datasource實作,具有主備、讀寫分離、動態資料庫配置等功 能,基本架構如下圖所示
在這里插入圖片描述

中間件封裝

中間件封裝指的是獨立一套系統 出來,實作讀寫分離和分庫分表操作,中間件對業務服務器提供 SQL兼容的協議,對于業務服務器來說,訪問中間件和訪問資料庫沒有區別,事實上在業務服務器看來,中間件就是一個資料庫服務器,例如,中間件實作讀寫分離的基本架構如下圖所示

在這里插入圖片描述
資料庫中間件的方式具備如下特點:

  • 能夠支持多種編程語言 ,因為資料庫中間件對業務服務器提供的是標準SQL介面
  • 資料庫中間件要支持完整的SQL語法和資料庫服務器的協議(例如,MySQL客戶端和服務器的連接協議),這是一個很復雜的事情,而且細節特別多,很容易出現bug
  • 資料庫中間件自己不執行真正的讀寫操作,但所有的資料庫操作請求都要經過中間件,中間件的性能要求也很高
  • 資料庫主從切換對業務服務器無感知,資料庫中間件可以探測資料庫服務器的主從狀態,例如,向某個測驗表寫入1條資料,成功的就是主機,失敗的就是從機,

由于資料庫中間件的復雜度要比程式代碼封裝高出一個數量級, 一般情況下建議采用程式語言封裝的方式,或者使用成熟的開源資料庫中間件,這個系統一旦做好,接入的業務系統越多,節省的程式開發投入也就越多價值也越大

目前的開源資料庫中間件方案中, MySQL官方先是提供了mysql-proxy ,但 mysql-proxy一直沒有正式 GA ,現在 MySQL官方推薦 MySQL Router,MySQL Router 的主要功能有讀寫分離、故障自動切換、負載均衡、連接池等,其基本架構如下圖所示
在這里插入圖片描述
奇虎360公司也開源了自己的資料庫中間件Atlas,它基于MySQL proxy實作的,基本架構如下圖所示
在這里插入圖片描述

Atlas 是一個位于應用程式與 MySQL 之間的中間件 , 在后端DB看來,Atlas相當于連接它的客戶端,在前端應用看來,Atlas相當于一個DB,Atlas作為服務端與應用程式通信,它實作了MySQL的客戶端和服務端協議,同時作為客戶端與MySQL通信,它對應用程式屏蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連接池

實作復雜度

  • 讀寫分離實作時只要識別SQL操作是讀操作還是寫操作即可,通過簡單地判斷SELECT、UPDATE、INSERT、DELETE幾個關鍵字就可以實作
  • 分庫分表的實作除了要判斷操作型別, 還要判斷SQL中的具體需要操作的表、操作函式(例如, count函式)、order by 、 group by 操作等,然后根據不同的操作進行不同的處理 , 例如order by操作需要先從多個庫查詢各個庫的資料,然后重新執行order by才能得到最終的結果 相比來說,分庫分表的實作要復雜得多

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/28819.html

標籤:其他

上一篇:鴻蒙OS 2.0 開源蹭熱淺讀

下一篇:開發1-5年的Java程式員,該學習哪些知識實作漲薪30K?

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more