主頁 > 後端開發 > MySQL索引結構原理分析

MySQL索引結構原理分析

2020-09-21 16:22:09 後端開發

我們在學習MySQL的時候經常會聽到索引這個詞,大概也知道這是什么,但是深究下去又說不出什么道道來,下面將會比較全面的介紹一下關于索引!

索引是什么?

這里用百度百科的一句話來說,在關系資料庫中,索引是一種單獨的、物理的對資料庫表中一列或多列的值進行排序的一種存盤結構,它是某個表中一列或若干列值的集合和相應的指向表中物理標識這些值的資料頁的邏輯指標清單,

簡單來說,索引就是我們一本書的目錄,通過目錄我們才能更快在一本書中查找到我們所要看的內容,同樣的,通過索引我們才能在資料庫中查找到我們的資料!

沒使用索引的MySQL

我們知道索引可以加快我們的查找,所以這里通過沒有使用索引的查找可以更加地讓我們認識到使用索引的好處,

我們的MySQL基本的頁存盤結構是頁,也就是我們的資料記錄都在頁里面,

當我們插入一條記錄的時候就會存盤在我們的資料頁中的存放行記錄的位置,并在我們的Page Directory頁目錄那里生成主鍵的資訊,我們的資料頁中記錄又可以組成一個單鏈表,每插入一條資料就會在尾節點那里添加上,

當我們通過主鍵查找某條記錄的時候可以在頁目錄中使用二分法快速定位到對應的槽,然后再遍歷該槽對應分組中的記錄即可快速找到指定的記錄,如果不是主鍵的話,那么只能遍歷單鏈表中的每條記錄對比查找,

所以,如果不用索引優化的話,那么在進行一條查找的sql的話,默認的流程是這樣子的:

  • 定位到記錄所在的頁(需要遍歷雙向鏈表,找到所在的頁)
  • 從所在的頁內中查找相應的記錄(是不是根據主鍵查詢,不是只能遍歷所在頁的單鏈表了)

如果在資料量特別大的時候,又是極端情況,遍歷雙向鏈表和單鏈表,速度就會顯得非常慢!

B-Tree索引與B+Tree索引

B-Tree索引結構

當人們開始談論索引的時候,如果沒有特別指明型別的話,那么多半說的就是B-Tree(B樹)所以,它使用的是B-Tree資料結構來存盤資料,大多數的MySQL引擎都支持這種索引(但實際上很多存盤引擎使用的是B+Tree,這個我們稍后再談到),我們這里通過B-Tree索引結構就可以極大的優化了上面的查找,

從圖中我們可以很明顯的感受到,使用索引后,就不需要再遍歷雙向鏈表那樣去查找頁,而是通過目錄就可以很快的定位到我們的實際的頁,如查找id為1的資料

  • 首先小于4,可以確定在p1下,指向磁盤頁2
  • 在磁盤頁里面,小于2,指向p1,然后查找到

而且,我們也可以根據圖總結出B-Tree的特點:

  • 所有鍵值資料分布在整棵樹各個節點中
  • 我們的查找有可能在非節點結束,比如上圖中,我們要找id為4的資料的話,在根節點就可以查找到
  • 所有葉子節點都在同一層,并且以升序排列

B+Tree索引結構

B+Tree索引是依據B-Tree索引基礎上的一次優化,具體變化如下:

  • B+Tree 非葉子節點不存放資料

  • 葉子節點存盤關鍵字和資料,非葉子節點的關鍵字也會沉到葉子節點,并且排序

  • 葉子節點兩兩指標相互連接,形成一個雙向環形鏈表(符合磁盤的預讀特性),順序查詢性能更高(區間查找更加方便)

我們的B+Tree的優化到底有什么好處呢?

首先是我們的資料只放在了葉子節點上面,這個唯一的好處就是我們的非葉子節點可以存放更多的關鍵字了,整體就可以存放更多的資料,因為我們MySQL查詢程序是按頁加載資料的,每加載一頁就是一次IO操作,我們根磁盤頁存放的資料越少,關鍵字越多,那么整體的資料量就可以說是越多,

還有一個好處就是,在葉子節點形成雙向環形鏈表,這樣子如果要進行區間查詢的話,只需要順著葉子節點的指標向下查詢就行,而如果是B-Tree的話,就需要回傳上一級節點然后再讀取磁盤頁進行查找,節省了不少時間!

為什么不采用別的樹結構?

為什么要采用B-Tree的結構,甚至是B+Tree的結構呢?

其實還是跟我們的磁盤讀取的原因有關,上面我們說到了,MySQL查詢程序是按頁加載資料的,而我們的作業系統一般將記憶體和磁盤分割成固定大小的塊,每一塊稱為一頁,記憶體與磁盤以頁為單位交換資料,我們的記憶體每次讀取的就是MySQL分割成的一個頁大小,也就是一個索引點,圖中的一個磁盤頁,

采用普通二叉樹?不!

如果采用普通的二叉樹的話,我們要考慮到一種情況,那就是在極端的情況下,一棵樹是會退化成鏈表的,那么樹的優點就沒有了, 這與我們原來用雙向鏈表有何異同?

采用紅黑樹?不!

那么可能有人說了,如果采用紅黑樹,樹保持平衡不就行了嗎?確實,紅黑樹等平衡樹也可以用來實作索引,但是與我們的B-Tree/B+Tree來說性能要差很多,

我們上面說到了記憶體每一次I/O都是載入一個索引節點,也就是一個磁盤頁,如果資料不在同一個磁盤塊上,那么通常需要移動制動手臂進行尋道,而制動手臂因為其物理結構導致了移動效率低下,從而增加磁盤資料讀取時間,B-Tree/B+Tree相對于紅黑樹有更低的樹高,進行尋道的次數與樹高成正比,在同一個磁盤塊上進行訪問只需要很短的磁盤旋轉時間,所以 B-Tree/B+Tree 樹更適合磁盤資料的讀取,

而且為了減少磁盤 I/O 操作,磁盤往往不是嚴格按需讀取,而是每次都會預讀,預讀程序中,磁盤進行順序讀取,順序讀取不需要進行磁盤尋道,并且只需要很短的磁盤旋轉時間,速度會非常快,并且可以利用預讀特性,相鄰的節點也能夠被預先載入,

哈希索引

MySQL除了B+樹之外,還有一種常見的是就是哈希索引,

哈希索引就是采用一定的哈希演算法,把鍵值換算成新的哈希值,檢索時不需要類似B+樹那樣從根節點到葉子節點逐級查找,只需一次哈希演算法即可立刻定位到相應的位置,速度非常快

本質上就是把鍵值換算成新的哈希值,根據這個哈希值來定位

使用哈希索引最大的好處就是速度特別快,我們只需要一次定位就可以找到我們要的資料,時間復雜度為O(1),但是我們的InnoDB(MySQL默認存盤引擎)默認使用的卻是B+樹索引,這也是因為哈希索引有一定的缺點:

  • 無法用于排序和分組
  • 只支持精確查找,無法用于部分查找和范圍查找
  • 在有大量重復鍵值情況下,哈希索引的效率也是極低的---->哈希碰撞問題,
  • 不支持最左匹配原則

可是如果一個索引值被頻繁使用的話,我們的InnoDB會再B+Tree索引之上再創建一個哈希索引,用來方便快速查找,這個功能叫做“自適應哈希索引”,

聚簇索引與輔助索引

MySQL資料庫中innodb存盤引擎,B+樹索引可以分為聚簇索引(也稱聚集索引,clustered index)和輔助索引(有時也稱非聚簇索引或二級索引,secondary index,non-clustered index),這兩種索引內部都是B+樹,聚集索引的葉子節點存放著一整行的資料,

Innodb中的主鍵索引是一種聚簇索引,非聚簇索引都是輔助索引,像復合索引、前綴索引、唯一索引,

聚簇索引

聚簇索引就是按照每張表的主鍵構造一顆B+樹,同時葉子節點中存放的就是整張表的行記錄資料,也將聚集索引的葉子節點稱為資料頁,這個特性決定了索引組織表中資料也是索引的一部分,每張表只能擁有一個聚簇索引,

Innodb通過主鍵聚集資料,如果沒有定義主鍵,innodb會選擇非空的唯一索引代替,如果沒有這樣的索引,innodb會隱式的定義一個主鍵來作為聚簇索引,

使用聚簇索引的優點:

  • 資料訪問更快,因為聚簇索引將索引和資料保存在同一個B+樹中,因此從聚簇索引中獲取資料比非聚簇索引更快
  • 聚簇索引對于主鍵的排序查找和范圍查找速度非常快

缺點:

  • 插入速度嚴重依賴于插入順序,按照主鍵的順序插入是最快的方式,否則將會出現頁分裂,嚴重影響性能,因此,對于InnoDB表,我們一般都會定義一個自增的ID列為主鍵
  • 更新主鍵的代價很高,因為將會導致被更新的行移動,因此,對于InnoDB表,我們一般定義主鍵為不可更新,
  • 二級索引(輔助)訪問需要兩次索引查找,第一次找到主鍵值,第二次根據主鍵值找到行資料,

Innodb中聚簇索引示意圖:

InnoDB要求表必須有主鍵(MyISAM可以沒有),如果沒有顯式指定,則MySQL系統會自動選擇一個可以唯一標識資料記錄的列作為主鍵,如果不存在這種列,則MySQL自動為InnoDB表生成一個隱含欄位作為主鍵,這個欄位長度為6個位元組,型別為長整形

輔助索引

聚簇索引之上創建的索引稱之為輔助索引,輔助索引訪問資料總是需要二次查找,輔助索引葉子節點存盤的不再是行的物理位置,而是主鍵值,通過輔助索引首先找到的是主鍵值,再通過主鍵值找到資料行的資料頁,再通過資料頁中的Page Directory(頁目錄)找到資料行,

Innodb輔助索引的葉子節點并不包含行記錄的全部資料,葉子節點除了包含鍵值外,還包含了相應行資料的聚簇索引鍵,輔助索引的存在不影響資料在聚簇索引中的組織,所以一張表可以有多個輔助索引,在innodb中有時也稱輔助索引為二級索引,

Innodb中輔助索引示意圖:

通過對比我們就可以知道為什么我們對主鍵會有要求:

1、為什么不建議使用過長的欄位作為主鍵,因為所有輔助索引都參考主索引,過長的主索引會令輔助索引變得過大,

2、為什么用非單調的欄位作為主鍵在InnoDB中不是個好主意,因為InnoDB資料檔案本身是一顆B+Tree,非單調的主鍵會造成在插入新記錄時資料檔案為了維持B+Tree的特性而頻繁的分裂調整,十分低效,而使用自增欄位作為主鍵則是一個很好的選擇,

當然,如果我們通過索引優化,將輔助索引優化成覆寫索引,那么輔助索引也包含所有需要查詢的欄位的值,也就是我們的索引就是我們要的值,無需再訪問主索引了,這里,涉及到索引的優化不過多介紹!

MyISAM實作對比

上面我介紹了在InnoDB存盤引擎下的聚簇索引與輔助索引的實作,因為如果沒有說明具體的資料庫和存盤引擎,默認指的是MySQL中的InnoDB存盤引擎,但是我們MySQL還支持MyISAM存盤引擎,它也是支持聚簇索引與輔助索引的,

但是該引擎下的實作卻有些不同,我們的聚簇索引和輔助索引沒有什么區別,他們的葉子節點都不存放資料,而是存放資料記錄的地址,唯一的區別就是聚簇索引要求key是唯一的,而輔助索引的key可以重復

所以如果嚴格的按照聚簇索引葉子節點存放資料來定義的話,MyISAM的索引都只能算是非聚簇索引!聚簇索引,或者嚴格說主鍵索引示意圖:

輔助索引示意圖:

為了更形象說明這兩種存盤引擎下兩種索引的區別,我們假想一個表如下圖存盤了4行資料,其中Id作為主索引,Name作為輔助索引,圖示清晰的顯示了聚簇索引和非聚簇索引的差異,

索引優點及使用

我們通過結構對比了使用索引的好處,總結下來的話就是:

  • 大大減少了服務器需要掃描的資料行數
  • 幫助服務器避免進行排序和分組,以及避免創建臨時表(B+Tree 索引是有序的,可以用于 ORDER BY 和 GROUP BY 操作,臨時表主要是在排序和分組程序中創建,不需要排序和分組,也就不需要創建臨時表)
  • 將隨機 I/O 變為順序 I/O(B+Tree 索引是有序的,會將相鄰的資料都存盤在一起)

但是我們要知道,索引并不是最好的解決方案,總的來說,只有當索引幫助存盤引擎快速找到記錄帶來的好處大于其帶來的額外作業時,索引才是有效的,

  • 對于非常小的表、大部分情況下簡單的全表掃描比建立索引更高效;
  • 對于中到大型的表,索引就非常有效;
  • 但是對于特大型的表,建立和維護索引的代價將會隨之增長,這種情況下,需要用到一種技術可以直接區分出需要查詢的一組資料,而不是一條記錄一條記錄地匹配,例如可以使用磁區技術(具體可以查看高性能MySQL第七章),

總結

這里僅僅是介紹了索引結構原理等,關于索引還有很多,如全文索引,空間索引等,以及索引的優化之類,這更多是我們要去學習的,

參考資料

高性能MySQL(第三版)

MySQL存盤結構

資料庫兩個神器索引和鎖(修訂版)

CS-Nodes聚簇索引與非聚簇索引

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/98204.html

標籤:Java

上一篇:這是一份穩收秋招offer的jvm常見面試題指南,助你成為offer收割機

下一篇:從零搭建Spring Boot腳手架(4):手寫Mybatis通用Mapper

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more