柯煜昌青云科技研發顧問級工程師目前從事 RadonDB 容器化研發，華中科技大學研究生畢業，有多年的資料庫內核開發經驗，

文章字數 3800+，閱讀時間 15 分鐘

背景

MySQL 5.7 的字典資訊保存在非事務表中，并且存放在不同的檔案中（.FRM，.PAR，.OPT，.TRN，.TRG 等)，所有 DDL 操作都不是 Crash Safe，而且對于組合 DDL（ALTER 多個表）會出現有的成功有的失敗的情況，而不是總體失敗，這樣主從復制就出現了問題，也導致基于復制的高可用系統不再安全，

MySQL 8.0 推出新特性 - 原子 DDL，解決了以上的問題，

什么是原子 DDL？

DDL 是指資料定義語言（Data Definition Language），負責資料結構的定義與資料物件的定義，原子 DDL 是指一個 DDL 操作是不可分割的，要么全成功要么全失敗，

有哪些限制？

MySQL 8.0 只有 InnoDB 存盤引擎支持原子 DDL，

支持陳述句：資料庫、表空間、表、索引的 CREATE、ALTER 以及 DROP 陳述句，以及 TRUNCATE TABLE 陳述句，

MySQL 8.0 系統表均以 InnoDB 存盤引擎存盤，涉及到字典物件的均支持原子 DDL，

支持的陳述句：存盤程序、觸發器、視圖以及用戶定義函式（UDF）的 CREATE 和 DROP 、ALTER 操作，用戶和角色的 CREATE、ALTER、DROP 陳述句，以及適用的 RENAME 陳述句，以及 GRANT 和 REVOKE 陳述句，

不支持的陳述句：

INSTALL PLUGIN、UNINSTALL PLUGIN
INSTALL COMPONENT、UNINSTALL COMPONENT
REATE SERVER、ALTER SERVER、DROP SERVER

實作原理是什么？

首先，8.0 將字典資訊存放到事務引擎的系統表（InnoDB 存盤引擎）中，這樣 DDL 操作轉變成一組對系統表的 DML 操作，從而失敗后可以依據事務引擎自身的事務回滾保證系統表的原子性，

似乎 DDL 原子性就此就可以完成，但實際上并沒有這么簡單，首先字典資訊不光是系統表，還有一組字典快取，如：

Table Share 快取
DD 快取
InnoDB 中的 dict

此外，字典資訊只是資料庫物件的元資料，DDL 操作不光要修改字典資訊，還要實實在在的操作物件，以及物件本身在記憶體中快取，

表空間
Dynamic meta
Btree
ibd 檔案
buffer pool 中表空間的 page 頁

此外，binlog 也要考慮 DDL 失敗的情況，

因此，原子 DDL 在處理 DDL 失敗的時候，不光是直接回滾系統表的資料，而且也要保證記憶體快取，資料庫物件也能回滾到一致狀態，

實作細節

為了解決 DDL 失敗情況中資料庫物件的回滾，8.0 引入了系統表 DDL_LOG，該表在 mysql 庫中，不可見，也不能人為操作，如果想了解該表的結果，先編譯一個 debug 版的 MySQL：

SET SESSION debug='+d,skip_dd_table_access_check';
show create table  mysql.innodb_ddl_log;

可以看到如下表結構：

CREATE TABLE `innodb_ddl_log` (
  `id` bigint unsigned NOT NULL AUTO_INCREMENT,
  `thread_id` bigint unsigned NOT NULL,
  `type` int unsigned NOT NULL,
  `space_id` int unsigned DEFAULT NULL,
  `page_no` int unsigned DEFAULT NULL,
  `index_id` bigint unsigned DEFAULT NULL,
  `table_id` bigint unsigned DEFAULT NULL,
  `old_file_path` varchar(512) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL,
  `new_file_path` varchar(512) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `thread_id` (`thread_id`)
) /*!50100 TABLESPACE `mysql` */ ENGINE=InnoDB AUTO_INCREMENT=48 DEFAULT CHARSET=utf8 COLLATE=utf8_bin STATS_PERSISTENT=0 ROW_FORMAT=DYNAMIC

在 8.0 中，這個表需要滿足兩個場景以及兩個任務：

場景 1: 符合 DDL 失敗的場景，需要回滾部分完成的 DDL，
場景 2：DDL 進行中，發生故障（掉電、軟硬體故障等），重啟機器需要完成部分 DDL，

兩個任務：

任務 1：失敗后回滾，執行反向操作，
任務 2：如果成功，則執行清理作業，

也許有人會問，為什么執行成功需要執行清理作業呢？

之所以要執行清理作業，因為 ibd 檔案和索引一旦洗掉就不能恢復，為了實作回滾，DDL 洗掉這些物件時候，并不是真正洗掉，而是先將它們備份一下，以備回滾時使用，所以只有確認 DDL 已經執行成功，這些備份物件不需要了，才執行清理作業，

舉個例子

為了將這個原理將清楚，我們流程相對簡單的 CREATE TABLE 講起，管中窺豹，可見一斑，假設已經有編譯好了 8.0 debug 版本，并且 innodb_file_per_table 為 on，先執行以下命令：

mysql> set global log_error_verbosity=3;
Query OK, 0 rows affected (0.00 sec)

mysql> set global innodb_print_ddl_logs = on;
Query OK, 0 rows affected (0.00 sec)

從而開啟了ddl log的日志，然后創建表：

mysql> create table t2 (a int);
Query OK, 0 rows affected (25 min 26.42 sec)

可以看到如下日志：

XXXXX 8 [Note] [MY-012473] [InnoDB] DDL log insert : [DDL record: DELETE SPACE, id=20, thread_id=8, space_id=6, old_file_path=./test/t2.ibd]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 20
XXXXX 8 [Note] [MY-012477] [InnoDB] DDL log insert : [DDL record: REMOVE CACHE, id=21, thread_id=8, table_id=1067, new_file_path=test/t2]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 21
XXXXX 8 [Note] [MY-012472] [InnoDB] DDL log insert : [DDL record: FREE, id=22, thread_id=8, space_id=6, index_id=157, page_no=4]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 22
XXXXX 8 [Note] [MY-012485] [InnoDB] DDL log post ddl : begin for thread id : 8
XXXXX 8 [Note] [MY-012486] [InnoDB] DDL log post ddl : end for thread id : 8

create table 的 DDL 只有反向操作日志記錄，而無清理操作日志記錄，細心的讀者可能看到日志中插入某條 DDL log，隨后又將其洗掉，會心生疑惑，但這正是 MySQL 原子 DDL 的秘密所在，我們選 DELETE SPACE 這個 DDL 日志寫入函式Log_DDL::write_delete_space_log 來揭秘這個程序，

dberr_t Log_DDL::write_delete_space_log(trx_t *trx, const dict_table_t *table,

space_id_t space_id,

const char *file_path, bool is_drop,

bool dict_locked) {

ut_ad(trx == thd_to_trx(current_thd));

ut_ad(table == nullptr || dict_table_is_file_per_table(table));


if (skip(table, trx->mysql_thd)) {

return (DB_SUCCESS);

}


uint64_t id = next_id();

ulint thread_id = thd_get_thread_id(trx->mysql_thd);

dberr_t err;


trx->ddl_operation = true;


DBUG_INJECT_CRASH("ddl_log_crash_before_delete_space_log",

crash_before_delete_space_log_counter++);



if (is_drop) { //（1）

err = insert_delete_space_log(trx, id, thread_id, space_id, file_path,

dict_locked);

if (err != DB_SUCCESS) {

return err;

}


DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_log",

crash_after_delete_space_log_counter++);

} else { // （2）

err = insert_delete_space_log(nullptr, id, thread_id, space_id, file_path,

dict_locked);

if (err != DB_SUCCESS) {

return err;

}


DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_log",

crash_after_delete_space_log_counter++);


DBUG_EXECUTE_IF("DDL_Log_remove_inject_error_2",

srv_inject_too_many_concurrent_trxs = true;);


err = delete_by_id(trx, id, dict_locked); //（3）

ut_ad(err == DB_SUCCESS || err == DB_TOO_MANY_CONCURRENT_TRXS);


DBUG_EXECUTE_IF("DDL_Log_remove_inject_error_2",

srv_inject_too_many_concurrent_trxs = false;);


DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_delete",

crash_after_delete_space_delete_counter++);

}

return (err);

}

在create table 這個程序中呼叫write_delete_space_log，is_drop 為false，執行以上代碼執行分支 (2) 和 (3) ，注意的是 insert_delete_space_log 第一個引數為空，這意味著會在創建一個后臺事務（呼叫trx_allocate_for_background）插入DELETE_SPACE 記錄到innodb_ddl_log 表中，然后提交該事務，注意到(3) 處delete_by_id 第一個引數為trx , 這里的trx 即本次 DDL 的事務，(3) 所做的動作是在本次事務中洗掉(2)插入的記錄，

為什么是這樣的邏輯呢？

file

以下分兩種情況來討論，如上圖所示：

如果插入 DDL log 之后，DDL 的各個步驟都成功執行，最后事務trx 成功提交，那么 innodb_ddl_log 并沒有該 DDL 的記錄，因此在后續的post_ddl 中什么也不做（post_ddl 在后面會描述），
如果插入 DDL log 之后，DDL 的某個步驟失敗，則 DDL 所在的事務trx會回滾，此時，上圖中delete [DELETE SPACE, id=20]這個動作也會回滾，最后，innodb_ddl_log 中就會存在DELETE SPACE 這條記錄，后續執行post_ddl 進行 Replay（重演），從而洗掉這次失敗的create table 的 DDL 已經創建的表空間，你可以發現，create table 的 DDL 創建表空間，就一定會以這樣的機制往innodb_ddl_log 中插入一條相反的動作DELETE SPACE的日志記錄，所以也被稱為反向操作日志，

其它 DDL log 記錄的操作如REMOVE CACHE 、FREE 日志記錄的寫入也是類似的邏輯，復雜的 DDL，不光是會插入反向操作日志記錄，也會插入清理操作日志，比如TRUNCATE 表操作會將原有的表空間重命名為一個零時表空間，當 DDL 成功之后，需要通過post_ddl Replay DDL log 記錄，將臨時表空間洗掉，如果失敗，又需要 post_ddl重演 DDL log，執行反向操作，將臨時表空間重命名為原來的表空間，總之，如果是反向操作日志，則使用background trx 插入并提交，然后使用trx 洗掉；如果是清理日志，則使用trx 插入即可，

注意：innodb_ddl_log表與其他 InnoDB 表一樣，對該表所有操作 InnoDB 引擎都會產生 Redo 日志與 Undo 記錄，所以不要將 DDL log 表中反向操作記錄看作 Undo log，這兩者不在同一個抽象層次上，而且反向操作在另一個事務中執行，而回滾時，Undo log 則是在原有同一個事務上執行，

需要探討的幾個問題

DDL 是否有必要日志刷盤？

我們知道 MySQL 有一個 innodb_flush_log_at_trx_commit 引數，當設定為 0 時，提交時并不會立刻將 Redo log 刷入持久存盤中，雖然能提高性能，但在掉電或者停機時會有一定概率丟失已經提交的事務，對于 DML 操作來說，這樣僅僅是丟失事務，但對于 DDL 來說，丟失 DDL 的事務，就會導致資料庫元資料與其他資料不一致，以至資料庫系統無法正常作業，

所以，在trx_commit 會根據該事務是否為 DDL 操作，進行特殊處理：

無論innodb_flush_log_at_trx_commit引數如何設定，與 DDL 有關的事務，提交時必須日志刷盤！

DDL log 的寫入時機

在理解了 DDL log 的機制之后，筆者問大家一個問題，對于create table 來說，是先執行write_delete_space_log 還是先創建表空間呢？

我們先假設是先創建表空間（A 動作），再寫反向操作日志（B 動作），如果 A 執行結束后出現掉的情況，此時 B 還未執行，此時create table 動作并沒有完成，而innodb_ddl_log 不存在DELETE SPACE 這樣的 DDL 反向日志記錄，資料庫崩潰恢復后，資料庫系統會將系統表資料回滾，但是 A 創建的表空間卻沒有洗掉，由于存在中間狀態，此時create table 就不是原子DDL 了，

所以，在 DDL 中每個步驟中，先寫入該步驟的反向操作日志記錄到innodb_ddl_log ，再執行該步驟，也就是說 DDL Log 寫入時機在執行步驟之前，如果create table 已經寫入了 DDL log，但是沒有創建表空間就出現掉電情況呢？這并不要緊，在 post_ddl 做 Replay 的時候，會進行處理，

Replay 的呼叫邏輯

在 DDL 操作完成之后，無論 DDL 的事務提交還是回滾，都會呼叫post_ddl 函式，post_ddl 則會呼叫replay函式進行 Replay，此外，MySQL 8.0 資料庫崩潰恢復程序中，與 MySQL 5.7 相比，也多了ha_post_recover的程序，它會呼叫log_ddl->recover 將 innodb_ddl_log 所有的日志記錄進行 Replay，

在post_ddl呼叫的是replay_by_thread_id，崩潰恢復中ha_post_recover 呼叫的是replay_all，其邏輯如下描述：

依據傳入的thread_id 為索引（thread_id 與trx 是可以一一對應的)，以逆序方式將所有記錄獲取出來，然后根據記錄的內容，依次執行 Replay 動作，最后洗掉已經重演的記錄，
replay_all 將innodb_ddl_log 所有記錄逆序方式獲取出來，依次執行 Replay 動作，最后洗掉已經重演的記錄，

可以看到，以上兩個函式都有將記錄逆序的獲取的程序，為什么要逆序呢？

逆函式

1、反向操作

我們如果將 DDL 中每個步驟看做一個函式，引數為資料庫系統，假設第 i 個步驟函式為oi，那么n個步驟就是 n 個函式的復合函式：

file

也即，復合函式的逆時所有步驟逆函式的反向復合，所以反向操作需要將 DDL log 逆序進行處理，

2、清理操作

DDL 的清理動作往往沒有順序要求，逆向操作與正向操作效果往往是一樣的，所以統一進行逆序處理也沒有問題，

冪等性

與 Redo、Undo 類似，每個型別的日志重演均要考慮其冪等性，

所謂冪等性，就是執行多次和執行一次的效果是一樣的，特別是在崩潰恢復的時候，在重演反向操作的時候，尚未完成時發生掉電故障，重新進行崩潰恢復，此時某項重演操作可能發生多次，

因此，MySQL 8.0 實作這些重演操作，必須要考慮冪等性，最典型是重演一些洗掉操作，必須先判斷資料庫物件是否存在，如果存在，才進行洗掉，否則什么都不做，

Tips：說到這里，筆者推薦一本書《具體數學：計算機科學中的一塊基石》此書講解了許多計算機科學中用到的數學知識及技巧，并特別著墨于演算法分析方面，

Server 層的動作

DDL 開始更新，無論失敗與否，table share 都要進行快取更新，tdc_remove_table；
DDL 成功之后，執行事務提交，否則執行事務回滾；
無論事務提交還是回滾，都要呼叫 post_ddl ， post_ddl 作用在前面已經描述，用以r Replay 系統表 innodb_ddl_log 記錄的日志；
崩潰恢復時候，除了執行 Redo 日志，回滾未提交的事務之后，還需要執執行 ha_post_recover，而 InnoDB 的 ha_post_recover 就是呼叫 post_ddl 執行 DDL 的反向操作；
binglog 處理只有一個原則，就是 DDL 事務成功，并且提交之后，才呼叫 write_bin_log 寫 binlog，

注意事項

MySQL 8.0 支持原子 DDL，并不意味著 DDL 可以通過 SQL 陳述句命令進行回滾，實際上除了 SQLServer 外，幾乎所有的資料庫系統不支持 DDL 的 SQL 命令進行回滾，DDL 回滾引入的問題遠遠多于其帶來的好處，
MySQL 8.0 只承諾單個 DDL 陳述句的原子性，并不能保證多個 DDL 組合也能保持原子性，某大廠為了實作 Truncate table flashback ，僅僅在 MySQL 的 Server 層將 truncate table 動作轉換為 rename table 動作，flashback 的時候將表、索引、約束重新以 RENAME DDL 組合執行來實作 flashback，這個是及其危險的，不保證其原子性，筆者也完成過此功能，并沒有如此取巧，而是老老實實的從 Server 層、InnoDB 存盤引擎、binlog 各方面進行改造，完整保證其原子性，
MySQL 8.0 用這種方法實作原子 DDL，并不意味著其它資料庫也是這種方式實作原子DDL，

參考

https://dev.mysql.com/doc/refman/8.0/en/atomic-ddl.html
https://www.slideshare.net/StleDeraas/dd-and-atomic-ddl-pl17-dublin
https://dev.mysql.com/blog-archive/atomic-ddl-in-mysql-8-0/

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/507266.html

標籤：其他

上一篇：MySQL到底有沒有解決幻讀問題？這篇文章徹底給你解答

下一篇：加班整理出來的MySQL資料庫基本操作送給大家，非常詳細！

詳談 MySQL 8.0 原子 DDL 原理

背景