主頁 > 後端開發 > InnoDB學習(七)之索引結構

InnoDB學習(七)之索引結構

2022-01-05 06:19:49 後端開發

索引是對資料庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問資料庫表中的特定資訊,可以將資料庫索引和書的目錄進行類比,通過書的目錄我們可以快速查找到章節位置,如果沒有目錄就只能一頁頁翻書查找了,

索引資料結構

可以用于提升查詢效率的索引結構很多,常見的有B樹索引、哈希索引和B+樹索引,接下來我們會對這些索引一一進行介紹,并說明InnoDB為什么采用B+樹作為索引,

磁盤IO

檔案是存盤在硬碟上面的,當下硬碟的讀取速度十分有限,所以在進行查詢定位某個資料的時候,應該盡可能地減少磁盤I/O次數,

磁盤預讀

由于存盤介質的特性,磁盤本身存取就比主存慢很多,再加上機械運動耗費,磁盤的存取速度往往是主存的幾百分之一,因此為了提高效率,要盡量減少磁盤I/O,為了達到這個目的,磁盤往往不是嚴格按需讀取,而是每次都會預讀,即使只需要一個位元組,磁盤也會從這個位置開始,順序向后讀取一定長度的資料放入記憶體,這樣做的理論依據是計算機科學中著名的區域性原理:當一個資料被用到時,其附近的資料也通常會馬上被使用,程式運行期間所需要的資料通常比較集中,

區域性原理:CPU訪問存盤器時,無論是存取指令還是存取資料,所訪問的存盤單元都趨于聚集在一個較小的連續區域中,

預讀的長度一般為頁(page)的整倍數,頁是計算機管理存盤器的邏輯塊,硬體及作業系統往往將主存和磁盤存盤區分割為連續的大小相等的塊,每個存盤塊稱為一頁(在許多作業系統中,頁的大小通常為4k),主存和磁盤以頁為單位交換資料,當程式要讀取的資料不在主存中時,會觸發一個缺頁例外,此時系統會向磁盤發出讀盤信號,磁盤會找到資料的起始位置并向后連續讀取一頁或幾頁載入記憶體中,然后例外回傳,程式繼續運行,

合理利用磁盤預讀

一般來說,索引本身也很大,不可能全部存盤在記憶體中,因此索引往往以索引檔案的形式存盤的磁盤上,這樣的話,索引查找程序中就要產生磁盤I/O消耗,相對于記憶體存取,I/O存取的消耗要高幾個數量級,所以評價一個資料結構作為索引的優劣最重要的指標就是在查找程序中磁盤I/O操作次數,換句話說,索引的結構組織要盡量減少查找程序中磁盤I/O的存取次數,

如果我們能合理使用磁盤預讀的特性,使每次磁盤IO讀到的頁中的資料都是有用的,就可以大大提升資料的查詢效率,

B樹索引

B樹可以看作是對二叉查找樹的一種擴展,B樹允許每個節點有M-1個子節點,B樹有以下特點:

  1. 根節點至少有兩個子節點;
  2. 每個節點包含M-1條資料,節點中的資料安裝索引遞增順序排序;
  3. 節點中有最多有M個指標指向下一層節點,這些指標位于節點的多個資料之間,下一層節點的所有資料值大于指標左側的資料,小于指標右側的資料;
  4. 每個節點至少包含M/2條資料;

接下來我們用下表示例的用戶資料來構建B樹,如表所示,用戶資料包含姓名、性別、年齡三個欄位,我們把用戶年齡作為資料庫主鍵(假設年齡具有唯一性),那么構建出來的B樹的結構如下圖所示,

|||||||||||
|--|--|--|--|--|--|--|--|--|--|--|
|姓名|陳爾|張散|李思|王舞|趙流|孫期|周跋|吳酒|鄭史|
|性別|男|男|女|女|男|男|男|女|男|
|年齡|5|10|20|28|35|56|25|80|90|

![B樹索引]b-tree-2022-01-04-16-15-24

相比較與常見的二叉樹,B樹的一個節點中存放了更多的資料,這樣做可以有效的減少一次資料查找程序中的磁盤IO次數:

  • 二叉樹每個節點只存放一個資料,節點之間用指標關聯,節點之間的空間是離散的,所以每個節點都對應一次磁盤IO,查找一次資料的IO次數為O($log_2$N);
  • B樹的節點可以存放M-1個資料,如果這M-1個資料剛好可以放到一個頁中,那么B樹查找一次資料的IO次數為O($log_M$N);

哈希索引

哈希索引基于哈希表實作,只有精確匹配索引所有列的查詢才有效,哈希表是一種以鍵-值(Key-Value)存盤資料的結構,用戶可以在O(1)時間復雜度內按照Key查找到對應的Value,

哈希表通常是一個陣列,資料在陣列中的位置可以按照索引的值安裝哈希演算法進行計算,如果兩個資料的索引值計算出來的位置相同,那么通常可以采用鏈地址法解決沖突(其它解決地址沖突的方法還有開放定制法,鏈地址法,公共溢位區法,再散列法等),

如下表資料所示,我們依舊按照用戶的年齡為用戶資料建立索引(假設用戶年齡不會相同),我們采用的哈希演算法為 addr=age%10,我們可以建立長度為10的陣列作為哈希表,按照哈希函式一一把用戶放入哈希表,按照用戶年齡查找用戶時,可以直接計算出用戶所在的位置,從而得到用戶資訊,最終得到的哈希表以及查詢流程如下圖所示,

姓名 陳爾 張散 李思 王舞 趙流 孫期 周跋 吳酒 鄭史
性別
年齡 5 10 20 28 35 56 25 80 90

哈希索引
哈希索引有以下優點:

  1. 占用的額外空間小,為資料新建一個哈希索引需要的額外空間為O(N),和索引欄位長度無關;
  2. 查詢速度極快,哈希函式合理的情況下,程式可以在O(1)的磁盤IO次數內查找到資料;

哈希索引有以下缺點:

  1. 無法進行范圍查詢,哈希程序中已經丟失了索引的順序性;
  2. 無法對資料進行排序查找,比如查找年齡最大的用戶;
  3. 無法使用部分索引查找,比如前綴查詢等;
  4. 哈希函式不合理的情況下,會導致哈希沖突問題,造成查詢效率變低;

B+樹索引

InnoDB使用的索引的資料結構是B+樹,資料庫表定義中的每一個索引對應一顆B+樹,默認的聚簇索引也是一顆B+樹,B+樹有以下特征:

  1. 所有節點關鍵字是按遞增次序排列,并遵循左小右大原則;
  2. 非葉節點的子節點數在1到M之間(下圖中M為3),空樹除外;
  3. 非葉節點的索引數目大于等于ceil(M/2)個且小于等于M個;
  4. 所有葉子節點均在同一層,葉子節點之間有從左到右的指標;
  5. 資料存盤在葉子節點,非葉子節點只存盤索引;

接下來我們用幾條示例的用戶資料來構建B+樹,如表所示,用戶資料包含姓名、性別、年齡三個欄位,我們把用戶年齡作為資料庫主鍵(假設年齡具有唯一性),那么構建出來的B+樹的結構如下圖所示,

姓名 陳爾 張散 李思 王舞 趙流 孫期 周跋 吳酒 鄭史
性別
年齡 5 10 20 28 35 56 25 80 90

B+樹索引

B+樹索引資料結構有以下列出的幾種優勢:

  1. 查詢性能穩定,查詢一條資料需要的IO次數往往是樹的高度次;
  2. 范圍查詢效率高,安裝索引范圍查詢時,可以先查找的第一個滿足要求的資料,然后向后遍歷,直到第一個不滿足條件的資料為止,中間的資料都符合要求;
  3. 查詢效率高,往往一次資料查詢只需要2~3次磁盤IO;
  4. 葉子節點存盤所有資料,不需要去B+樹之外找資料;

InnoDB為什么采用B+樹

在InnoDB引擎中,我們為資料庫創建的索引都是以B+樹的形式存在,為什么InnoDB不采用哈希索引或者B樹索引呢?主要是基于以下原因:

  • 資料庫查詢經常會出現非等值查詢,哈希索引在這種情況下無法作業;
  • 相比于B樹,B+樹索引非葉子節點不存放資料,從而磁盤一次IO可以讀取更多的索引資料,有效減少磁盤IO次數;
  • 資料庫查詢經常會出現范圍查詢,B+樹底層的葉子節點之間按照順序排列,可以更有效的實作范圍查詢;

自增主鍵

通過上文我們知道,B+樹需要維護索引的有序性,

  1. 當用戶向B+樹插入資料,如果插入點對應的節點有空余位置,那么只需要挪動節點中的資料,并把需要插入的資料放入B+樹即可;
  2. 當用戶向B+樹插入資料,如果插入點對應的節點沒有空余位置,那么就需要生成一個新的節點,并把一部分資料挪過去;這種情況不僅會影響插入效率,由于分裂出來的節點只有部分資料,所以會導致空間的利用率降低;
  3. 當用戶洗掉B+樹中的資料時,如果節點或相鄰節點的資料量很少,那么只需要直接洗掉資料,并按挪動節點中的其它資料即可;
  4. 當用戶洗掉B+樹中的資料時,如果節點和相鄰節點的資料量很少,那么在洗掉之后,可能需要把節點和相鄰節點合并,從而提高空間利用率;

基于B+樹需要維護索引有序性的特點,我們對索引欄位提出以下建議:

  1. 對于資料插入比較多的場景,主鍵索引欄位最好是遞增的,遞增的主鍵每次插入一條新記錄,都是追加操作,都不涉及到挪動其他記錄,也不會觸發葉子節點的分裂,
  2. 主鍵索引的長度應當盡量小,主鍵長度越小,普通索引的葉子節點就越小,普通索引占用的空間也就越小,

在InnoDB中,我們應當盡量使用自增主鍵,自增主鍵有插入效率高、占用空間小等優勢,

資料空洞與重建索引

資料空洞

當你對InnoDB進行修改操作時,例如洗掉一些行,這些行只是被標記為“已洗掉”,而不是真的從索引中物理洗掉了,因而空間也沒有真的被釋放回收,InnoDB的Purge執行緒會異步的來清理這些沒用的索引鍵和行,但是依然沒有把這些釋放出來的空間還給作業系統重新使用,因而會導致頁面中存在很多空洞,如果表結構中包含動態長度欄位,那么這些空洞甚至可能不能被InnoDB重新用來存新的行,因為空間空間長度不足,

資料空洞帶來的問題:

  1. 洗掉表中的資料后,表占用的空間不會變小,造成空間浪費;
  2. 會降低資料查詢的速度,因為空洞會占用頁空間;

我們可以通過以下SQL來查看資料庫中的空洞大小,執行陳述句如下所示,回傳結果中的DATA_FREE表示表中空閑資料塊的大小,

select data_length,data_free from information_schema.tables where table_schema='test' and table_name='test';

哈希索引

重建索引

當一張表的索引中的資料空洞過多時,會影響SQL陳述句的執行效率,此時我們就需要清理這些資料空洞,

清理資料空洞比較好的辦法是重建索引,因為重建索引的程序中,會按照索引的大小排序后建立索引,建立出來的索引比較緊湊,

有什么辦法可以重建索引呢?我們比較直觀的想法肯定是先洗掉索引,再重建索引,然而不論是洗掉主鍵還是創建主鍵,都會將整個表重建,所以連著執行這兩個陳述句的話,第一個陳述句就白做了,

alter table user_info drop primary key;
alter table user_info add primary key(id);

InnoDB中可以通過以下轉換資料引擎的陳述句來重建表的所有索引,這是因為在轉換資料引擎(即使沒有真正轉換)的程序中,會讀取表中所有的資料,再重新寫入,這個程序中,會釋放空洞,需要注意的是,通過這種方法重建索引耗時比較長,

alter table test engine=innodb

qrcode_for_gh_83670e17bbd7_344-2021-09-04-10-55-16

本文最先發布至微信公眾號,著作權所有,禁止轉載!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/403537.html

標籤:其他

上一篇:執行緒池使用

下一篇:十七、JDK8 新特性(完結)

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more