1. InnoDB

InnoDB 的存盤檔案有兩個，后綴名分別是 .frm 和 .idb，其中 .frm 是表的定義檔案，而 idb 是資料檔案，

InnoDB 中存在表鎖和行鎖，不過行鎖是在命中索引的情況下才會起作用，

InnoDB 支持事務，且支持四種隔離級別（讀未提交、讀已提交、可重復讀、串行化），默認的為可重復讀；而在 Oracle 資料庫中，只支持串行化級別和讀已提交這兩種級別，其中默認的為讀已提交級別，

2. Myisam

Myisam 的存盤檔案有三個，后綴名分別是 .frm、.MYD、MYI，其中 .frm 是表的定義檔案，.MYD 是資料檔案，.MYI 是索引檔案，

Myisam 只支持表鎖，且不支持事務，Myisam 由于有單獨的索引檔案，在讀取資料方面的性能很高，

3. 存盤結構

InnoDB 和 Myisam 都是用 B+Tree 來存盤資料的，

MySQL 的資料、索引存盤結構

1. 資料存盤的原理（硬碟）

資訊存盤在硬碟里，硬碟是由很多的盤片組成，通過盤片表面的磁性物質來存盤資料，

把盤片放在顯微鏡下放大，可以看到盤片表面是凹凸不平的，凸起的地方被磁化，代表數字 1，凹的地方沒有被磁化，代表數字 0，因此硬碟可以通過二進制的形式來存盤表示文字、圖片等的資訊，

硬碟有很多種，但是都是由盤片、磁頭、盤片主軸、控制電機、磁頭控制器、資料轉換器、介面、快取等幾個部分組成，

所有的盤片都固定在一個旋轉軸上，這個軸即盤片主軸，

所有的盤片之間是絕對平行的，在每個盤片的盤面上都有一個磁頭，磁頭與盤片之間的距離比頭發絲的直徑還小，

所有的磁頭連在一個磁頭控制器上，由磁頭控制器負責各個磁頭的運動，磁頭可沿盤片的半徑方向移動，實際上是斜切運動，每個磁頭同一時刻必須是同軸的，即從正上方往下看，所有磁頭任何時候都是重疊的，

由于技術的發展，目前已經有多磁頭獨立技術了，在此不考慮此種情況，

盤片以每分鐘數千轉到上萬轉的速度在高速運轉，這樣磁頭就能對盤片上的指定位置進行資料的讀寫操作，

由于硬碟是高精密設備，塵埃是其大敵，所以必須完全密封，

2. 資料讀寫的原理

硬碟在邏輯上被劃分為磁道、柱面以及扇區，

磁頭靠近主軸接觸的表面，即線速度最小的地方，是一個特殊的區域，它不存放任何資料，稱為啟停區或者著陸區，啟停區外就是資料區，

在最外圈，離主軸最遠的地方是 “0” 磁道，硬碟資料的存放就是從最外圈開始的，

在硬碟中還有一個叫 “0” 磁道檢測器的構件，它是用來完成硬碟的初始定位，

盤面

硬碟的盤片一般用鋁合金材料做基片，硬碟的每一個盤片都有上下兩個盤面，一般每個盤面都會得到利用，都可以存盤資料，成為有效盤面，也有極個別的硬碟盤面數為單數，

每一個這樣的有效盤面都有一個盤面號，按順序從上至下從 0 開始編號，

在硬碟系統中，盤面號又叫磁頭號，因為每一個有效盤面都有一個對應的讀寫磁頭，硬碟的盤片組在 2-14 片不等，通常有 2-3 個盤片，

磁道

磁盤在格式化時被劃分成許多同心圓，這些同心圓軌跡叫做磁道，

磁道從外向內從 0 開始順序編號，硬碟的每一個盤面有 300-1024 個磁道，新式大容量硬碟每面的磁道數更多，資訊以脈沖串的形式記錄在這些軌跡中，這些同心圓不是連續記錄資料，而是被劃分成一段段的圓弧，

這些圓弧的角速度一樣，由于徑向長度不一樣，所以線速度也不一樣，外圈的線速度較內圈的線速度大，即同樣的轉速度下，外圈在同樣時間段里，劃過的圓弧長度要比內圈劃過的圓弧長度大，

每段圓弧叫做一個扇區，扇區從 1 開始編號，每個扇區中的資料作為一個單元同時讀出或寫入，

磁道是看不見的，只是盤面上以特殊形式磁化了的一些磁化區，在磁盤格式化時就已規劃完畢，

柱面

所有盤面上的同一磁道構成一個圓柱，通常稱作柱面，

每個圓柱上的磁頭由上而下從 0 開始編號，資料的讀 / 寫按柱面進行，即磁頭讀 / 寫資料時首先在同一柱面內從 0 磁頭開始進行操作，依次向下在同一柱面的不同盤面即磁頭上進行操作，

只有在同一柱面所有的磁頭全部讀 / 寫完畢后磁頭才轉移到下一柱面（同心圓再往里的柱面），因為選取磁頭只需要通過電子切換即可，而選取柱面則必須機械切換，電子切換相當快，比在機械上的磁頭向鄰近磁道移動快得多，

所以，資料的讀 / 寫按柱面進行，而不按盤面進行，也就是說，一個磁道寫滿資料后，就在同一柱面的下一個盤面來寫，一個柱面寫滿后，才移到下一個扇區開始寫資料，讀資料也按照這種方式進行，這樣就提高了硬碟的讀 / 寫效率，

扇區

作業系統以扇區形式將資訊存盤在硬碟上，每個扇區包括 512 個位元組的資料和一些其他資訊，一個扇區有兩個主要部分：存盤資料地點的識別符號和存盤資料的資料段，

識別符號就是扇區頭標，包括組成扇區三維地址的三個數字：盤面號，柱面號，扇區號（塊號），

資料段可分為資料和保護資料的糾錯碼（ECC），在初始準備期間，計算機用 512 個虛擬資訊位元組（實際資料的存放地）和與這些虛擬資訊位元組相應的 ECC 數字填入這個部分，

3. 訪盤請求完成程序

1）確定磁盤地址（柱面號，磁頭號，扇區號），記憶體地址（源 / 目）：

當需要從磁盤讀取資料的時候，系統會將資料的邏輯地址傳遞個磁盤，磁盤的控制電路按照尋址邏輯將邏輯地址翻譯成物理地址，即確定要讀的資料在哪個磁道，哪個扇區，

2）為了讀取這個扇區的資料，需要將磁頭放到這個扇區上方，為了實作這一點：

A. 首先必須找到柱面，即磁頭需要移動對準相應磁道，這個程序叫做尋道，所耗費時間叫做尋道時間，
B. 然后目標扇區旋轉到磁頭下，即磁盤旋轉將目標扇區旋轉到磁頭下，這個程序耗費的時間叫做旋轉時間，

3）即一次訪盤請求（讀 / 寫）完成程序由三個動作組成：

A. 尋道（時間）：磁頭移動定位到指定磁道，
B. 旋轉延遲（時間）：等待指定扇區從磁頭下旋轉經過，
C. 資料傳輸（時間）：資料在磁盤與記憶體之間的實際傳輸，

4. 磁盤的讀寫原理

系統將檔案存盤到磁盤上時，按柱面、磁頭、扇區的方式進行，即最先是第 1 磁道的第一磁頭下的所有扇區，然后是同一柱面的下一個磁頭……

一個柱面存盤滿后就推進到下一個柱面，直到把檔案內容全部寫入磁盤，

系統也以相同的順序讀出資料，讀出資料時通過告訴磁盤控制器要讀出扇區所在柱面號、磁頭號和扇區號（物理地址的三個組成部分）進行，

5. 減少 I/O 的預讀原理

由于存盤介質的特性，磁盤本身存取就比主存慢很多，再加上機械運動耗費的時間，磁盤的存取速度往往是主存的幾百分之一，

因此，為了提高效率，要盡量減少磁盤的 I/O，

磁盤往往不是嚴格地按需讀取，而是每次都會預讀，即使只需要一個位元組，磁盤也會從這個位置開始，順序向后讀取一定長度的資料放入記憶體，

這樣做的理論依據是計算機科學中著名的區域性原理：

當一個資料被用到時，其附近的資料一般來說也會被馬上使用，
程式運行期間所需要的資料通常比較集中，
由于磁盤順序讀取的效率很高（不需要尋道時間，只需要很少的旋轉時間），因此對于具有區域性的程式來說，預讀可以提高 I/O 效率，

預讀的長度一般為頁（Page）的整數倍，頁是計算機管理存盤器的邏輯塊，硬體及作業系統往往將主存和磁盤存盤分割為連續的大小相等的塊，

每個存盤塊稱為一頁（在許多作業系統中，頁的大小通常為 4k），主存和磁盤以頁為單位交換資料，當程式要讀取的資料不在主存中時，會觸發一個缺頁例外，

此時系統會向磁盤發出讀盤資訊，磁盤會找到資料的起始位置并向后連續讀取一頁或幾頁的資料載入記憶體中，然后例外回傳，程式繼續運行，

6. MySQL 的索引

索引是一種用來實作 MySQL 高效獲取資料的資料結構，

我們通常所說的在某個欄位上建索引，意思就是讓 MySQL 對該欄位以索引這種資料結構來存盤，然后查找的時候就有對應的查找演算法，

建索引的根本目的是為了查找的優化，特別是當資料很龐大的時候，一般的查找演算法有順序查找、折半查找、快速查找等，

但是每種查找演算法都只能應用于特定的資料結構之上，例如順序查找依賴于順序結構，折半查找通過二叉查找樹或紅黑樹實作二分搜索，因此在資料之外，資料庫系統還維護著滿足特定查找演算法的資料結構，

這些資料結構以某種方式參考資料，這樣就可以在這些資料結構上實作高級查找演算法，這種資料結構就是索引，

7. MySQL 的 B+Tree

目前大多數資料庫系統及檔案系統都采用 B-Tree 或其變種 B+Tree 作為索引結構，

B+ 樹索引是 B+ 樹在資料庫中的一種實作，是最常見也是資料庫中使用最為頻繁的一種索引，B+ 樹中的 B 代表平衡，而不是二叉，

因為 B+ 樹是從最早的平衡二叉樹演化而來的，B+ 樹是由二叉查找樹、平衡二叉樹（AVLTree）和平衡多路查找樹（B-Tree）逐步優化而來，

二叉查找樹：左子樹的鍵值小于根的鍵值，右子樹的鍵值大于根的鍵值，

AVL 樹：平衡二叉樹（AVL 樹）在符合二叉查找樹的條件下，還滿足任何節點的兩個子樹的高度最大差為 1，

平衡多路查找樹（B-Tree）：為磁盤等外存盤設備設計的一種平衡查找樹，

系統從磁盤讀取資料到記憶體時是以磁盤塊（block）為基本單位的，位于同一磁盤塊中的資料會被一次性讀取出來，而不是按需讀取，

InnoDB 存盤引擎使用頁作為資料讀取單位，頁是其磁盤管理的最小單位，默認 page 大小是 16k，

系統的一個磁盤塊的存盤空間往往沒有這么大，因此 InnoDB 每次申請磁盤空間時都會是若干地址連續磁盤塊來達到頁的大小 16KB，

InnDB 在把磁盤資料讀入到磁盤時會以頁為基本單位，在查詢資料時如果一個頁中的每條資料都能助于定位資料記錄的位置，這將會減少磁盤 I/O 的次數，提高查詢效率，

B-Tree 結構的資料可以讓系統高效的找到資料所在的磁盤塊，

為了描述 B-Tree，首先定義一條資料記錄為一個二元組 [key, data]，key 為記錄的鍵值，對于不同資料記錄，key 是互不相同的；data 為資料記錄除 key 外的資料，

那么 B-Tree 是滿足下列條件的資料結構：

d 為大于 1 的一個正整數，稱為 B-Tree 的度，
h 為一個正整數，稱為 B-Tree 的高度，
每個非葉子節點由 n-1 個 key 和 n 個指標組成，其中 d<=n<=2d，
每個葉子節點最少包含一個 key 和兩個指標，最多包含 2d-1 個 key 和 2d 個指標，葉節點的指標均為 null ，
所有葉節點具有相同的深度，等于樹高 h，
key 和指標互相間隔，節點兩端是指標，
一個節點中的 key 從左到右非遞減排列，
所有節點組成樹結構，
每個指標要么為 null，要么指向另外一個節點，
如果某個指標在節點 node 最左邊且不為 null，則其指向節點的所有 key 小于 v(key1)，其中 v(key1) 為 node 的第一個 key 的值，
如果某個指標在節點 node 最右邊且不為 null，則其指向節點的所有 key 大于 v(keym)，其中 v(keym) 為 node 的最后一個 key 的值，
如果某個指標在節點 node 的左右相鄰 key 分別是 keyi 和 keyi+1 且不為 null，則其指向節點的所有 key 小于 v(keyi+1) 且大于 v(keyi)，