有需要學習交流的友人請加入交流群的咱們一起，群內都是1-7年的開發者，希望可以一起交流，探討PHP,swoole這塊的技術或者有其他問題也可以問，獲取swoole或者php進階相關資料私聊管理即可

點此加入該群?jq.qq.com

首先采用Mysql存盤千億級的資料，確實是一項非常大的挑戰，Mysql單表確實可以存盤10億級的資料，只是這個時候性能非常差，專案中大量的實驗證明，Mysql單表容量在500萬左右，性能處于最佳狀態，

針對大表的優化，主要是通過資料庫分庫分表來解決，目前比較普遍的方案有三個：磁區，分庫分表，NoSql/NewSql，實際專案中，這三種方案是結合的，目前絕大部分系統的核心資料都是以RDBMS存盤為主，NoSql/NewSql存盤為輔，

磁區

首先來了解一下磁區方案，

磁區表是由多個相關的底層表實作的，這些底層表也是由句柄物件表示，所以我們也可以直接訪問各個磁區，存盤引擎管理磁區的各個底層表和管理普通表一樣（所有的底層表都必須使用相同的存盤引擎），磁區表的索引只是在各個底層表上各自加上一個相同的索引，這個方案對用戶屏蔽了sharding的細節，即使查詢條件沒有sharding column，它也能正常作業（只是這時候性能一般），

不過它的缺點很明顯：很多的資源都受到單機的限制，例如連接數，網路吞吐等，如何進行磁區，在實際應用中是一個非常關鍵的要素之一，

下面開始舉例：以客戶資訊為例，客戶資料量5000萬加，專案背景要求保存客戶的銀行卡系結關系，客戶的證件系結關系，以及客戶系結的業務資訊，

此業務背景下，該如何設計資料庫呢，專案一期的時候，我們建立了一張客戶業務系結關系表，里面冗余了每一位客戶系結的業務資訊，

基本結構大致如下：

查詢時，對銀行卡做索引，業務編號做索引，證件號做索引，隨著需求大增多，這張表的索引會達到10個以上，而且客戶解約再簽約，里面會保存兩條資料，只是系結的狀態不同，

假設我們有5千萬的客戶，5個業務型別，每位客戶平均2張卡，那么這張表的資料量將會達到驚人的5億，事實上我們系統用戶量還沒有過百萬時就已經不行了，這樣的設計絕對是不行的，無論是插入，還是查詢，都會讓系統崩潰，

mysql資料庫中的資料是以檔案的形勢存在磁盤上的，默認放在/mysql/data下面（可以通過my.cnf中的datadir來查看），一張表主要對應著三個檔案，一個是frm存放表結構的，一個是myd存放表資料的，一個是myi存表索引的，這三個檔案都非常的龐大，尤其是.myd檔案，快5個G了，下面進行第一次磁區優化，Mysql支持的磁區方式有四種：

在我們的專案中，range磁區和list磁區沒有使用場景，如果基于系結編號做range或者list磁區，系結編號沒有實際的業務含義，無法通過它進行查詢，因此，我們就剩下 HASH 磁區和 KEY 磁區了，HASH磁區僅支持int型別列的磁區，且是其中的一列，

KEY 磁區倒是可以支持多列，但也要求其中的一列必須是int型別；看我們的庫表結構，發現沒有哪一列是int型別的，如何做磁區呢？增加一列，系結時間列，將此列設定為int型別，然后按照系結時間進行磁區，將每一天系結的用戶分到同一個區里面去，

這次優化之后，我們的插入快了許多，但是查詢依然很慢，為什么？

因為在做查詢的時候，我們也只是根據銀行卡或者證件號進行查詢，并沒有根據時間查詢，相當于每次查詢，mysql都會將所有的磁區表查詢一遍，

進行第二次方案優化，既然 HASH 磁區和 KEY磁區要求其中的一列必須是int型別的，那么創造出一個int型別的列出來磁區是否可以？

分析發現，銀行卡的那串數字有秘密，銀行卡一般是16位到19位不等的數字串，我們取其中的某一位拿出來作為表磁區是否可行呢，通過分析發現，在這串數字中，其中確實有一位是0到9隨機生成的，我們基于銀行卡號+隨機位進行KEY磁區，每次查詢的時候，通過計算截取出這位隨機位數字，再加上卡號，聯合查詢，達到了磁區查詢的目的，需要說明的是，磁區后，建立的索引，也必須是磁區列，否則Mysql還是會在所有的磁區表中查詢資料，

通過銀行卡號查詢系結關系的問題解決了，那么證件號呢，如何通過證件號來查詢系結關系，

前面已經講過，做索引一定是要在磁區健上進行，否則會引起全表掃描，我們再創建了一張新表，保存客戶的證件號系結關系，每位客戶的證件號都是唯一的，新的證件號系結關系表里，證件號作為了主鍵，那么如何來計算這個磁區健呢，客戶的證件資訊比較龐雜，有身份證號，港澳臺通行證，機動車駕駛證等等，如何在無序的證件號里找到磁區健，

為了解決這個問題，我們將證件號系結關系表一分為二，其中的一張表專用于保存身份證型別的證件號，另一張表則保存其他證件型別的證件號，在身份證型別的證件系結關系表中，我們將身份證號中的月數拆分出來作為了磁區健，將同一個月出生的客戶證件號保存在同一個區，這樣分成了12個區，其他證件型別的證件號，資料量不超過10萬，就沒有必要進行磁區了，

這樣每次查詢時，首先通過證件型別確定要去查詢哪張表，再計算磁區健進行查詢，作了磁區設計之后，保存2000萬用戶資料時銀行卡表的資料保存檔案就分成了10個小檔案，證件表的資料保存檔案分成了12個小檔案，解決了這兩個查詢的問題，還剩下一個問題：業務編號怎么辦？一個客戶有多個簽約業務，如何進行保存？這時候，采用磁區的方案就不太合適了，它需要用到分表的方案，

分表

我們前面有提到過對于mysql，其資料檔案是以檔案形式存盤在磁盤上的，當一個資料檔案過大時，作業系統對大檔案的操作就會比較麻煩耗時，且有的作業系統就不支持大檔案，這個時候就必須分表了，

另外對于mysql常用的存盤引擎是Innodb，它的底層資料結構是B+樹，當其資料檔案過大的時候，查詢一個節點可能會查詢很多層次，而這必定會導致多次IO操作進行裝載進記憶體，肯定會耗時的，

除此之外還有Innodb對于B+樹的鎖機制，對每個節點進行加鎖，那么當更改表結構的時候，這時候就會樹進行加鎖，當表檔案大的時候，這可以認為是不可實作的，所以綜上我們就必須進行分表與分庫的操作，

如何進行分庫分表，目前互聯網上有許多的版本，比較知名的一些方案：阿里的TDDL，DRDS和cobar，京東金融的sharding-jdbc；民間組織的MyCAT；360的Atlas；美團的zebra；其他比如網易，58，京東等公司都有自研的中間件，

這么多的分庫分表中間件方案歸總起來，就兩類：client模式和proxy模式，

client模式

proxy模式

無論是client模式，還是proxy模式，幾個核心的步驟是一樣的：SQL決議，重寫，路由，執行，結果歸并，個人比較傾向于采用client模式，它架構簡單，性能損耗也比較小，運維成本低，

如何對業務型別進行分庫分表，分庫分表最重要的一步，即sharding column的選取，sharding column選擇的好壞將直接決定整個分庫分表方案最終是否成功，而sharding column的選取跟業務強相關，

在我們的專案場景中，sharding column無疑最好的選擇是業務編號，通過業務編號，將客戶不同的系結簽約業務保存到不同的表里面去，根據業務編號路由到相應的表中進行查詢，達到進一步優化sql的目的，

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/94434.html

標籤：MySQL

上一篇：MySQL資料庫Group by分組之后再統計數目Count(*)與不分組直接統計數目的區別

下一篇：阿里云esc 安裝 mysql8.0

phper使用MySQL 針對千萬級的大表要怎么優化？

磁區

首先來了解一下磁區方案，

client模式

proxy模式