柯煜昌 青云科技研發顧問級工程師 目前從事 RadonDB 容器化研發,華中科技大學研究生畢業,有多年的資料庫內核開發經驗,
文章字數 3800+,閱讀時間 15 分鐘
背景
MySQL 5.7 的字典資訊保存在非事務表中,并且存放在不同的檔案中(.FRM,.PAR,.OPT,.TRN,.TRG 等),所有 DDL 操作都不是 Crash Safe,而且對于組合 DDL(ALTER 多個表)會出現有的成功有的失敗的情況,而不是總體失敗,這樣主從復制就出現了問題,也導致基于復制的高可用系統不再安全,
MySQL 8.0 推出新特性 - 原子 DDL,解決了以上的問題,
什么是原子 DDL?
DDL 是指資料定義語言(Data Definition Language),負責資料結構的定義與資料物件的定義,原子 DDL 是指一個 DDL 操作是不可分割的,要么全成功要么全失敗,
有哪些限制?
MySQL 8.0 只有 InnoDB 存盤引擎支持原子 DDL,
支持陳述句:資料庫、表空間、表、索引的 CREATE、ALTER 以及 DROP 陳述句,以及 TRUNCATE TABLE 陳述句,
MySQL 8.0 系統表均以 InnoDB 存盤引擎存盤,涉及到字典物件的均支持原子 DDL,
支持的陳述句:存盤程序、觸發器、視圖以及用戶定義函式(UDF)的 CREATE 和 DROP 、ALTER 操作,用戶和角色的 CREATE、ALTER、DROP 陳述句,以及適用的 RENAME 陳述句,以及 GRANT 和 REVOKE 陳述句,
不支持的陳述句:
- INSTALL PLUGIN、UNINSTALL PLUGIN
- INSTALL COMPONENT、UNINSTALL COMPONENT
- REATE SERVER、ALTER SERVER、DROP SERVER
實作原理是什么?
首先,8.0 將字典資訊存放到事務引擎的系統表(InnoDB 存盤引擎)中,這樣 DDL 操作轉變成一組對系統表的 DML 操作,從而失敗后可以依據事務引擎自身的事務回滾保證系統表的原子性,
似乎 DDL 原子性就此就可以完成,但實際上并沒有這么簡單,首先字典資訊不光是系統表,還有一組字典快取,如:
- Table Share 快取
- DD 快取
- InnoDB 中的 dict
此外,字典資訊只是資料庫物件的元資料,DDL 操作不光要修改字典資訊,還要實實在在的操作物件,以及物件本身在記憶體中快取,
- 表空間
- Dynamic meta
- Btree
- ibd 檔案
- buffer pool 中表空間的 page 頁
此外,binlog 也要考慮 DDL 失敗的情況,
因此,原子 DDL 在處理 DDL 失敗的時候,不光是直接回滾系統表的資料,而且也要保證記憶體快取,資料庫物件也能回滾到一致狀態,
實作細節
為了解決 DDL 失敗情況中資料庫物件的回滾,8.0 引入了系統表 DDL_LOG,該表在 mysql 庫中,不可見,也不能人為操作,如果想了解該表的結果,先編譯一個 debug 版的 MySQL:
SET SESSION debug='+d,skip_dd_table_access_check';
show create table mysql.innodb_ddl_log;
可以看到如下表結構:
CREATE TABLE `innodb_ddl_log` (
`id` bigint unsigned NOT NULL AUTO_INCREMENT,
`thread_id` bigint unsigned NOT NULL,
`type` int unsigned NOT NULL,
`space_id` int unsigned DEFAULT NULL,
`page_no` int unsigned DEFAULT NULL,
`index_id` bigint unsigned DEFAULT NULL,
`table_id` bigint unsigned DEFAULT NULL,
`old_file_path` varchar(512) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL,
`new_file_path` varchar(512) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `thread_id` (`thread_id`)
) /*!50100 TABLESPACE `mysql` */ ENGINE=InnoDB AUTO_INCREMENT=48 DEFAULT CHARSET=utf8 COLLATE=utf8_bin STATS_PERSISTENT=0 ROW_FORMAT=DYNAMIC
在 8.0 中,這個表需要滿足兩個場景以及兩個任務:
-
場景 1: 符合 DDL 失敗的場景,需要回滾部分完成的 DDL,
-
場景 2:DDL 進行中,發生故障(掉電、軟硬體故障等),重啟機器需要完成部分 DDL,
兩個任務:
-
任務 1:失敗后回滾,執行反向操作,
-
任務 2:如果成功,則執行清理作業,
也許有人會問,為什么執行成功需要執行清理作業呢?
之所以要執行清理作業,因為 ibd 檔案和索引一旦洗掉就不能恢復,為了實作回滾,DDL 洗掉這些物件時候,并不是真正洗掉,而是先將它們備份一下,以備回滾時使用,所以只有確認 DDL 已經執行成功,這些備份物件不需要了,才執行清理作業,
舉個例子
為了將這個原理將清楚,我們流程相對簡單的 CREATE TABLE 講起,管中窺豹,可見一斑,假設已經有編譯好了 8.0 debug 版本,并且 innodb_file_per_table 為 on,先執行以下命令:
mysql> set global log_error_verbosity=3;
Query OK, 0 rows affected (0.00 sec)
mysql> set global innodb_print_ddl_logs = on;
Query OK, 0 rows affected (0.00 sec)
從而開啟了ddl log的日志,然后創建表:
mysql> create table t2 (a int);
Query OK, 0 rows affected (25 min 26.42 sec)
可以看到如下日志:
XXXXX 8 [Note] [MY-012473] [InnoDB] DDL log insert : [DDL record: DELETE SPACE, id=20, thread_id=8, space_id=6, old_file_path=./test/t2.ibd]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 20
XXXXX 8 [Note] [MY-012477] [InnoDB] DDL log insert : [DDL record: REMOVE CACHE, id=21, thread_id=8, table_id=1067, new_file_path=test/t2]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 21
XXXXX 8 [Note] [MY-012472] [InnoDB] DDL log insert : [DDL record: FREE, id=22, thread_id=8, space_id=6, index_id=157, page_no=4]
XXXXX 8 [Note] [MY-012478] [InnoDB] DDL log delete : 22
XXXXX 8 [Note] [MY-012485] [InnoDB] DDL log post ddl : begin for thread id : 8
XXXXX 8 [Note] [MY-012486] [InnoDB] DDL log post ddl : end for thread id : 8
create table 的 DDL 只有反向操作日志記錄,而無清理操作日志記錄,細心的讀者可能看到日志中插入某條 DDL log,隨后又將其洗掉,會心生疑惑,但這正是 MySQL 原子 DDL 的秘密所在,我們選 DELETE SPACE 這個 DDL 日志寫入函式Log_DDL::write_delete_space_log 來揭秘這個程序,
dberr_t Log_DDL::write_delete_space_log(trx_t *trx, const dict_table_t *table,
space_id_t space_id,
const char *file_path, bool is_drop,
bool dict_locked) {
ut_ad(trx == thd_to_trx(current_thd));
ut_ad(table == nullptr || dict_table_is_file_per_table(table));
if (skip(table, trx->mysql_thd)) {
return (DB_SUCCESS);
}
uint64_t id = next_id();
ulint thread_id = thd_get_thread_id(trx->mysql_thd);
dberr_t err;
trx->ddl_operation = true;
DBUG_INJECT_CRASH("ddl_log_crash_before_delete_space_log",
crash_before_delete_space_log_counter++);
if (is_drop) { //(1)
err = insert_delete_space_log(trx, id, thread_id, space_id, file_path,
dict_locked);
if (err != DB_SUCCESS) {
return err;
}
DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_log",
crash_after_delete_space_log_counter++);
} else { // (2)
err = insert_delete_space_log(nullptr, id, thread_id, space_id, file_path,
dict_locked);
if (err != DB_SUCCESS) {
return err;
}
DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_log",
crash_after_delete_space_log_counter++);
DBUG_EXECUTE_IF("DDL_Log_remove_inject_error_2",
srv_inject_too_many_concurrent_trxs = true;);
err = delete_by_id(trx, id, dict_locked); //(3)
ut_ad(err == DB_SUCCESS || err == DB_TOO_MANY_CONCURRENT_TRXS);
DBUG_EXECUTE_IF("DDL_Log_remove_inject_error_2",
srv_inject_too_many_concurrent_trxs = false;);
DBUG_INJECT_CRASH("ddl_log_crash_after_delete_space_delete",
crash_after_delete_space_delete_counter++);
}
return (err);
}
在create table 這個程序中呼叫write_delete_space_log,is_drop 為false,執行以上代碼執行分支 (2) 和 (3) ,注意的是 insert_delete_space_log 第一個引數為空,這意味著會在創建一個后臺事務(呼叫trx_allocate_for_background)插入DELETE_SPACE 記錄到innodb_ddl_log 表中,然后提交該事務,注意到(3) 處delete_by_id 第一個引數為trx , 這里的trx 即本次 DDL 的事務,(3) 所做的動作是在本次事務中洗掉(2)插入的記錄,
為什么是這樣的邏輯呢?

以下分兩種情況來討論,如上圖所示:
- 如果插入 DDL log 之后,DDL 的各個步驟都成功執行,最后事務
trx成功提交,那么innodb_ddl_log并沒有該 DDL 的記錄,因此在后續的post_ddl中什么也不做(post_ddl 在后面會描述), - 如果插入 DDL log 之后,DDL 的某個步驟失敗,則 DDL 所在的事務
trx會回滾,此時,上圖中delete [DELETE SPACE, id=20]這個動作也會回滾,最后,innodb_ddl_log中就會存在DELETE SPACE這條記錄,后續執行post_ddl進行 Replay(重演), 從而洗掉這次失敗的create table的 DDL 已經創建的表空間,你可以發現,create table的 DDL 創建表空間,就一定會以這樣的機制往innodb_ddl_log中插入一條相反的動作DELETE SPACE的日志記錄,所以也被稱為反向操作日志,
其它 DDL log 記錄的操作如REMOVE CACHE 、FREE 日志記錄的寫入也是類似的邏輯,復雜的 DDL,不光是會插入反向操作日志記錄,也會插入清理操作日志,比如TRUNCATE 表操作會將原有的表空間重命名為一個零時表空間,當 DDL 成功之后,需要通過post_ddl Replay DDL log 記錄,將臨時表空間洗掉,如果失敗,又需要 post_ddl重演 DDL log,執行反向操作,將臨時表空間重命名為原來的表空間,總之,如果是反向操作日志,則使用background trx 插入并提交,然后使用trx 洗掉;如果是清理日志,則使用trx 插入即可,
注意:
innodb_ddl_log表與其他 InnoDB 表一樣,對該表所有操作 InnoDB 引擎都會產生 Redo 日志與 Undo 記錄,所以不要將 DDL log 表中反向操作記錄看作 Undo log,這兩者不在同一個抽象層次上,而且反向操作在另一個事務中執行,而回滾時,Undo log 則是在原有同一個事務上執行,
需要探討的幾個問題
DDL 是否有必要日志刷盤?
我們知道 MySQL 有一個 innodb_flush_log_at_trx_commit 引數,當設定為 0 時,提交時并不會立刻將 Redo log 刷入持久存盤中,雖然能提高性能,但在掉電或者停機時會有一定概率丟失已經提交的事務,對于 DML 操作來說,這樣僅僅是丟失事務,但對于 DDL 來說,丟失 DDL 的事務,就會導致資料庫元資料與其他資料不一致,以至資料庫系統無法正常作業,
所以,在trx_commit 會根據該事務是否為 DDL 操作,進行特殊處理:
無論innodb_flush_log_at_trx_commit引數如何設定,與 DDL 有關的事務,提交時必須日志刷盤!
DDL log 的寫入時機
在理解了 DDL log 的機制之后,筆者問大家一個問題,對于create table 來說,是先執行write_delete_space_log 還是先創建表空間呢?
我們先假設是先創建表空間(A 動作),再寫反向操作日志(B 動作),如果 A 執行結束后出現掉的情況,此時 B 還未執行,此時create table 動作并沒有完成,而innodb_ddl_log 不存在DELETE SPACE 這樣的 DDL 反向日志記錄,資料庫崩潰恢復后,資料庫系統會將系統表資料回滾,但是 A 創建的表空間卻沒有洗掉,由于存在中間狀態,此時create table 就不是原子DDL 了,
所以,在 DDL 中每個步驟中,先寫入該步驟的反向操作日志記錄到innodb_ddl_log ,再執行該步驟,也就是說 DDL Log 寫入時機在執行步驟之前,如果create table 已經寫入了 DDL log, 但是沒有創建表空間就出現掉電情況呢? 這并不要緊,在 post_ddl 做 Replay 的時候,會進行處理,
Replay 的呼叫邏輯
在 DDL 操作完成之后,無論 DDL 的事務提交還是回滾,都會呼叫post_ddl 函式,post_ddl 則會呼叫replay函式進行 Replay,此外,MySQL 8.0 資料庫崩潰恢復程序中,與 MySQL 5.7 相比,也多了ha_post_recover的程序,它會呼叫log_ddl->recover 將 innodb_ddl_log 所有的日志記錄進行 Replay,
在post_ddl呼叫的是replay_by_thread_id,崩潰恢復中ha_post_recover 呼叫的是replay_all,其邏輯如下描述:
- 依據傳入的
thread_id為索引(thread_id與trx是可以一一對應的),以逆序方式將所有記錄獲取出來,然后根據記錄的內容,依次執行 Replay 動作,最后洗掉已經重演的記錄, replay_all將innodb_ddl_log所有記錄逆序方式獲取出來,依次執行 Replay 動作,最后洗掉已經重演的記錄,
可以看到,以上兩個函式都有將記錄逆序的獲取的程序,為什么要逆序呢?
逆函式
1、反向操作
我們如果將 DDL 中每個步驟看做一個函式,引數為資料庫系統,假設第 i 個步驟函式為oi,那么n個步驟就是 n 個函式的復合函式:

也即,復合函式的逆時所有步驟逆函式的反向復合,所以反向操作需要將 DDL log 逆序進行處理,
2、清理操作
DDL 的清理動作往往沒有順序要求,逆向操作與正向操作效果往往是一樣的,所以統一進行逆序處理也沒有問題,
冪等性
與 Redo、Undo 類似,每個型別的日志重演均要考慮其冪等性,
所謂冪等性,就是執行多次和執行一次的效果是一樣的,特別是在崩潰恢復的時候,在重演反向操作的時候,尚未完成時發生掉電故障,重新進行崩潰恢復,此時某項重演操作可能發生多次,
因此,MySQL 8.0 實作這些重演操作,必須要考慮冪等性,最典型是重演一些洗掉操作,必須先判斷資料庫物件是否存在,如果存在,才進行洗掉,否則什么都不做,
Tips:說到這里,筆者推薦一本書《具體數學:計算機科學中的一塊基石》此書講解了許多計算機科學中用到的數學知識及技巧,并特別著墨于演算法分析方面,
Server 層的動作
- DDL 開始更新,無論失敗與否,table share 都要進行快取更新,tdc_remove_table;
- DDL 成功之后,執行事務提交,否則執行事務回滾;
- 無論事務提交還是回滾,都要呼叫
post_ddl,post_ddl作用在前面已經描述,用以r Replay 系統表innodb_ddl_log記錄的日志; - 崩潰恢復時候,除了執行 Redo 日志,回滾未提交的事務之后,還需要執執行
ha_post_recover,而 InnoDB 的ha_post_recover就是呼叫post_ddl執行 DDL 的反向操作; - binglog 處理只有一個原則,就是 DDL 事務成功,并且提交之后,才呼叫
write_bin_log寫 binlog,
注意事項
-
MySQL 8.0 支持原子 DDL,并不意味著 DDL 可以通過 SQL 陳述句命令進行回滾,實際上除了 SQLServer 外,幾乎所有的資料庫系統不支持 DDL 的 SQL 命令進行回滾,DDL 回滾引入的問題遠遠多于其帶來的好處,
-
MySQL 8.0 只承諾單個 DDL 陳述句的原子性,并不能保證多個 DDL 組合也能保持原子性,某大廠為了實作
Truncate table flashback,僅僅在 MySQL 的 Server 層將truncate table動作轉換為rename table動作,flashback 的時候將表、索引、約束重新以 RENAME DDL 組合執行來實作 flashback,這個是及其危險的,不保證其原子性,筆者也完成過此功能,并沒有如此取巧,而是老老實實的從 Server 層、InnoDB 存盤引擎、binlog 各方面進行改造,完整保證其原子性, -
MySQL 8.0 用這種方法實作原子 DDL,并不意味著其它資料庫也是這種方式實作原子DDL,
參考
- https://dev.mysql.com/doc/refman/8.0/en/atomic-ddl.html
- https://www.slideshare.net/StleDeraas/dd-and-atomic-ddl-pl17-dublin
- https://dev.mysql.com/blog-archive/atomic-ddl-in-mysql-8-0/
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/507266.html
標籤:其他
