主頁 > 資料庫 > MySQL索引-B+樹

MySQL索引-B+樹

2020-09-15 15:32:43 資料庫

索引是一種資料結構,用于幫助我們在大量資料中快速定位到我們想要查找的資料,
索引最形象的比喻就是圖書的目錄了,注意這里的大量,資料量大了索引才顯得有意義,如果我想要在 [1,2,3,4] 中找到 4 這個資料,直接對全資料檢索也很快,沒有必要費力氣建索引再去查找,

索引在 MySQL 資料庫中分三類:

  • B+ 樹索引
  • Hash 索引
  • 全文索引

我們今天要介紹的是作業開發中最常接觸到的 InnoDB 存盤引擎中的 B+ 樹索引,要介紹 B+ 樹索引,就不得不提二叉查找樹,平衡二叉樹和 B 樹這三種資料結構,B+ 樹就是從他們仨演化來的,

二叉查找樹

首先,讓我們先看一張圖:

 

從圖中可以看到,我們為 user 表(用戶資訊表)建立了一個二叉查找樹的索引,

圖中的圓為二叉查找樹的節點,節點中存盤了鍵(key)和資料(data),鍵對應 user 表中的 id,資料對應 user 表中的行資料,

二叉查找樹的特點就是任何節點的左子節點的鍵值都小于當前節點的鍵值,右子節點的鍵值都大于當前節點的鍵值,頂端的節點我們稱為根節點,沒有子節點的節點我們稱之為葉節點,

如果我們需要查找 id=12 的用戶資訊,利用我們創建的二叉查找樹索引,查找流程如下:

  • 將根節點作為當前節點,把 12 與當前節點的鍵值 10 比較,12 大于 10,接下來我們把當前節點>的右子節點作為當前節點,
  • 繼續把 12 和當前節點的鍵值 13 比較,發現 12 小于 13,把當前節點的左子節點作為當前節點,
  • 把 12 和當前節點的鍵值 12 對比,12 等于 12,滿足條件,我們從當前節點中取出 data,即 id=12,name=xm,

 

利用二叉查找樹我們只需要 3 次即可找到匹配的資料,如果在表中一條條的查找的話,我們需要 6 次才能找到,

平衡二叉樹

上面我們講解了利用二叉查找樹可以快速的找到資料,但是,如果上面的二叉查找樹是這樣的構造:

 

 

 

這個時候可以看到我們的二叉查找樹變成了一個鏈表,如果我們需要查找 id=17 的用戶資訊,我們需要查找 7 次,也就相當于全表掃描了, 導致這個現象的原因其實是二叉查找樹變得不平衡了,也就是高度太高了,從而導致查找效率的不穩定,為了解決這個問題,我們需要保證二叉查找樹一直保持平衡,就需要用到平衡二叉樹了, 平衡二叉樹又稱 AVL 樹,在滿足二叉查找樹特性的基礎上,要求每個節點的左右子樹的高度差不能超過 1, 下面是平衡二叉樹和非平衡二叉樹的對比:

由平衡二叉樹的構造我們可以發現第一張圖中的二叉樹其實就是一棵平衡二叉樹,

平衡二叉樹保證了樹的構造是平衡的,當我們插入或洗掉資料導致不滿足平衡二叉樹不平衡時,平衡二叉樹會進行調整樹上的節點來保持平衡,具體的調整方式這里就不介紹了,平衡二叉樹相比于二叉查找樹來說,查找效率更穩定,總體的查找速度也更快,

B 樹

因為記憶體的易失性,一般情況下,我們都會選擇將 user 表中的資料和索引存盤在磁盤這種外圍設備中,但是和記憶體相比,從磁盤中讀取資料的速度會慢上百倍千倍甚至萬倍,所以,我們應當盡量減少從磁盤中讀取資料的次數,另外,從磁盤中讀取資料時,都是按照磁盤塊來讀取的,并不是一條一條的讀,如果我們能把盡量多的資料放進磁盤塊中,那一次磁盤讀取操作就會讀取更多資料,那我們查找資料的時間也會大幅度降低,如果我們用樹這種資料結構作為索引的資料結構,那我們每查找一次資料就需要從磁盤中讀取一個節點,也就是我們說的一個磁盤塊,我們都知道平衡二叉樹可是每個節點只存盤一個鍵值和資料的,那說明什么?說明每個磁盤塊僅僅存盤一個鍵值和資料!那如果我們要存盤海量的資料呢?

可以想象到二叉樹的節點將會非常多,高度也會極其高,我們查找資料時也會進行很多次磁盤 IO,我們查找資料的效率將會極低!

 

 

 

為了解決平衡二叉樹的這個弊端,我們應該尋找一種單個節點可以存盤多個鍵值和資料的平衡樹,也就是我們接下來要說的 B 樹,

B 樹(Balance Tree)即為平衡樹的意思,下圖即是一棵 B 樹:

 

 

 

圖中的 p 節點為指向子節點的指標,二叉查找樹和平衡二叉樹其實也有,因為圖的美觀性,被省略了,

圖中的每個節點稱為頁,頁就是我們上面說的磁盤塊,在 MySQL 中資料讀取的基本單位都是頁,所以我們這里叫做頁更符合 MySQL 中索引的底層資料結構,

 

從上圖可以看出,B 樹相對于平衡二叉樹,每個節點存盤了更多的鍵值(key)和資料(data),并且每個節點擁有更多的子節點,子節點的個數一般稱為階,上述圖中的 B 樹為 3 階 B 樹,高度也會很低,

基于這個特性,B 樹查找資料讀取磁盤的次數將會很少,資料的查找效率也會比平衡二叉樹高很多,

假如我們要查找 id=28 的用戶資訊,那么我們在上圖 B 樹中查找的流程如下:

  • 先找到根節點也就是頁 1,判斷 28 在鍵值 17 和 35 之間,那么我們根據頁 1 中的指標 p2 找到頁 3,
  • 將 28 和頁 3 中的鍵值相比較,28 在 26 和 30 之間,我們根據頁 3 中的指標 p2 找到頁 8,
  • 將 28 和頁 8 中的鍵值相比較,發現有匹配的鍵值 28,鍵值 28 對應的用戶資訊為(28,bv),

B+ 樹

B+ 樹是對 B 樹的進一步優化,讓我們先來看下 B+ 樹的結構圖:

 

 

 

根據上圖我們來看下 B+ 樹和 B 樹有什么不同:

①B+ 樹非葉子節點上是不存盤資料的,僅存盤鍵值,而 B 樹節點中不僅存盤鍵值,也會存盤資料,

之所以這么做是因為在資料庫中頁的大小是固定的,InnoDB 中頁的默認大小是 16KB,

如果不存盤資料,那么就會存盤更多的鍵值,相應的樹的階數(節點的子節點樹)就會更大,樹就會更矮更胖,如此一來我們查找資料進行磁盤的 IO 次數又會再次減少,資料查詢的效率也會更快,

另外,B+ 樹的階數是等于鍵值的數量的,如果我們的 B+ 樹一個節點可以存盤 1000 個鍵值,那么 3 層 B+ 樹可以存盤 1000×1000×1000=10 億個資料,

一般根節點是常駐記憶體的,所以一般我們查找 10 億資料,只需要 2 次磁盤 IO,

②因為 B+ 樹索引的所有資料均存盤在葉子節點,而且資料是按照順序排列的,

那么 B+ 樹使得范圍查找,排序查找,分組查找以及去重查找變得例外簡單,而 B 樹因為資料分散在各個節點,要實作這一點是很不容易的,

有心的讀者可能還發現上圖 B+ 樹中各個頁之間是通過雙向鏈表連接的,葉子節點中的資料是通過單向鏈表連接的,

其實上面的 B 樹我們也可以對各個節點加上鏈表,這些不是它們之前的區別,是因為在 MySQL 的 InnoDB 存盤引擎中,索引就是這樣存盤的,

也就是說上圖中的 B+ 樹索引就是 InnoDB 中 B+ 樹索引真正的實作方式,準確的說應該是聚集索引(聚集索引和非聚集索引下面會講到),

通過上圖可以看到,在 InnoDB 中,我們通過資料頁之間通過雙向鏈表連接以及葉子節點中資料之間通過單向鏈表連接的方式可以找到表中所有的資料,

MyISAM 中的 B+ 樹索引實作與 InnoDB 中的略有不同,在 MyISAM 中,B+ 樹索引的葉子節點并不存盤資料,而是存盤資料的檔案地址,

 

聚集索引 VS 非聚集索引

在上節介紹 B+ 樹索引的時候,我們提到了圖中的索引其實是聚集索引的實作方式,

那什么是聚集索引呢?在 MySQL 中,B+ 樹索引按照存盤方式的不同分為聚集索引和非聚集索引,

這里我們著重介紹 InnoDB 中的聚集索引和非聚集索引:

聚集索引(聚簇索引):以 InnoDB 作為存盤引擎的表,表中的資料都會有一個主鍵,即使你不創建主鍵,系統也會幫你創建一個隱式的主鍵,

這是因為 InnoDB 是把資料存放在 B+ 樹中的,而 B+ 樹的鍵值就是主鍵,在 B+ 樹的葉子節點中,存盤了表中所有的資料,

這種以主鍵作為 B+ 樹索引的鍵值而構建的 B+ 樹索引,我們稱之為聚集索引,

非聚集索引(非聚簇索引):以主鍵以外的列值作為鍵值構建的 B+ 樹索引,我們稱之為非聚集索引,

非聚集索引與聚集索引的區別在于非聚集索引的葉子節點不存盤表中的資料,而是存盤該列對應的主鍵,想要查找資料我們還需要根據主鍵再去聚集索引中進行查找,這個再根據聚集索引查找資料的程序,我們稱為回表,

明白了聚集索引和非聚集索引的定義,我們應該明白這樣一句話:資料即索引,索引即資料,

利用聚集索引和非聚集索引查找資料

前面我們講解 B+ 樹索引的時候并沒有去說怎么在 B+ 樹中進行資料的查找,主要就是因為還沒有引出聚集索引和非聚集索引的概念,

下面我們通過講解如何通過聚集索引以及非聚集索引查找資料表中資料的方式介紹一下 B+ 樹索引查找資料方法,

利用聚集索引查找資料

 

 

 還是這張 B+ 樹索引圖,現在我們應該知道這就是聚集索引,表中的資料存盤在其中,

現在假設我們要查找 id>=18 并且 id<40 的用戶資料,對應的 sql 陳述句為:

select * from user where id>=18 and id <40

其中 id 為主鍵,具體的查找程序如下:

①一般根節點都是常駐記憶體的,也就是說頁 1 已經在記憶體中了,此時不需要到磁盤中讀取資料,直接從記憶體中讀取即可,

從記憶體中讀取到頁 1,要查找這個 id>=18 and id <40 或者范圍值,我們首先需要找到 id=18 的鍵值,

從頁 1 中我們可以找到鍵值 18,此時我們需要根據指標 p2,定位到頁 3,

②要從頁 3 中查找資料,我們就需要拿著 p2 指標去磁盤中進行讀取頁 3,

從磁盤中讀取頁 3 后將頁 3 放入記憶體中,然后進行查找,我們可以找到鍵值 18,然后再拿到頁 3 中的指標 p1,定位到頁 8,

③同樣的頁 8 頁不在記憶體中,我們需要再去磁盤中將頁 8 讀取到記憶體中,

將頁 8 讀取到記憶體中后,因為頁中的資料是鏈表進行連接的,而且鍵值是按照順序存放的,此時可以根據二分查找法定位到鍵值 18,

此時因為已經到資料頁了,此時我們已經找到一條滿足條件的資料了,就是鍵值 18 對應的資料,

因為是范圍查找,而且此時所有的資料又都存在葉子節點,并且是有序排列的,那么我們就可以對頁 8 中的鍵值依次進行遍歷查找并匹配滿足條件的資料,

我們可以一直找到鍵值為 22 的資料,然后頁 8 中就沒有資料了,此時我們需要拿著頁 8 中的 p 指標去讀取頁 9 中的資料,

④因為頁 9 不在記憶體中,就又會加載頁 9 到記憶體中,并通過和頁 8 中一樣的方式進行資料的查找,直到將頁 12 加載到記憶體中,發現 41 大于 40,此時不滿足條件,那么查找到此終止,

最終我們找到滿足條件的所有資料,總共 12 條記錄:

(18,kl), (19,kl), (22,hj), (24,io), (25,vg) , (29,jk), (31,jk) , (33,rt) , (34,ty) , (35,yu) , (37,rt) , (39,rt) ,

下面看下具體的查找流程圖

 

 

 

利用非聚集索引查找資料

 

 

 讀者看到這張圖的時候可能會蒙,這是啥東西啊?怎么都是數字,如果有這種感覺,請仔細看下圖中紅字的解釋,

什么?還看不懂?那我再來解釋下吧,首先,這個非聚集索引表示的是用戶幸運數字的索引(為什么是幸運數字?一時興起想起來的:-)),此時表結構是這樣的,

91

在葉子節點中,不再存盤所有的資料了,存盤的是鍵值和主鍵,對于葉子節點中的 x-y,比如 1-1,左邊的 1 表示的是索引的鍵值,右邊的 1 表示的是主鍵值,

如果我們要找到幸運數字為 33 的用戶資訊,對應的 sql 陳述句為:

 

select * from user where luckNum=33

查找的流程跟聚集索引一樣,這里就不詳細介紹了,我們最侄訓找到主鍵值 47,找到主鍵后我們需要再到聚集索引中查找具體對應的資料資訊,此時又回到了聚集索引的查找流程,

下面看下具體的查找流程圖:

 

 

 

在 MyISAM 中,聚集索引和非聚集索引的葉子節點都會存盤資料的檔案地址,

總結

本篇文章從二叉查找樹,詳細說明了為什么 MySQL 用 B+ 樹作為資料的索引,以及在 InnoDB 中資料庫如何通過 B+ 樹索引來存盤資料以及查找資料,我們一定要記住這句話:資料即索引,索引即資料,

 

原文地址:http://www.liuzk.com/410.html

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/47822.html

標籤:MySQL

上一篇:mysql 回傳欄位型別轉換問題

下一篇:上傳檔案到服務器

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more