主頁 > 資料庫 > 【深入學習MySQL】MySQL的索引結構為什么使用B+樹?

【深入學習MySQL】MySQL的索引結構為什么使用B+樹?

2020-09-25 17:58:25 資料庫

前言

在MySQL中,無論是Innodb還是MyIsam,都使用了B+樹作索引結構(這里不考慮hash等其他索引),本文將從最普通的二叉查找樹開始,逐步說明各種樹解決的問題以及面臨的新問題,從而說明MySQL為什么選擇B+樹作為索引結構,

目錄

一、二叉查找樹(BST):不平衡

二、平衡二叉樹(AVL):旋轉耗時

三、紅黑樹:樹太高

四、B樹:為磁盤而生

五、B+樹

六、感受B+樹的威力

七、總結

一、二叉查找樹(BST):不平衡

二叉查找樹(BST,Binary Search Tree),也叫二叉排序樹,在二叉樹的基礎上需要滿足:任意節點的左子樹上所有節點值不大于根節點的值,任意節點的右子樹上所有節點值不小于根節點的值,如下是一顆BST(圖片來源),

當需要快速查找時,將資料存盤在BST是一種常見的選擇,因為此時查詢時間取決于樹高,平均時間復雜度是O(lgn),然而,BST可能長歪而變得不平衡,如下圖所示(圖片來源),此時BST退化為鏈表,時間復雜度退化為O(n),

為了解決這個問題,引入了平衡二叉樹,

二、平衡二叉樹(AVL):旋轉耗時

AVL樹是嚴格的平衡二叉樹,所有節點的左右子樹高度差不能超過1;AVL樹查找、插入和洗掉在平均和最壞情況下都是O(lgn),

AVL實作平衡的關鍵在于旋轉操作:插入和洗掉可能破壞二叉樹的平衡,此時需要通過一次或多次樹旋轉來重新平衡這個樹,當插入資料時,最多只需要1次旋轉(單旋轉或雙旋轉);但是當洗掉資料時,會導致樹失衡,AVL需要維護從被洗掉節點到根節點這條路徑上所有節點的平衡,旋轉的量級為O(lgn),

由于旋轉的耗時,AVL樹在洗掉資料時效率很低;在洗掉操作較多時,維護平衡所需的代價可能高于其帶來的好處,因此AVL實際使用并不廣泛,

三、紅黑樹:樹太高

與AVL樹相比,紅黑樹并不追求嚴格的平衡,而是大致的平衡:只是確保從根到葉子的最長的可能路徑不多于最短的可能路徑的兩倍長,從實作來看,紅黑樹最大的特點是每個節點都屬于兩種顏色(紅色或黑色)之一,且節點顏色的劃分需要滿足特定的規則(具體規則略),紅黑樹示例如下(圖片來源):

 

與AVL樹相比,紅黑樹的查詢效率會有所下降,這是因為樹的平衡性變差,高度更高,但紅黑樹的洗掉效率大大提高了,因為紅黑樹同時引入了顏色,當插入或洗掉資料時,只需要進行O(1)次數的旋轉以及變色就能保證基本的平衡,不需要像AVL樹進行O(lgn)次數的旋轉,總的來說,紅黑樹的統計性能高于AVL,

因此,在實際應用中,AVL樹的使用相對較少,而紅黑樹的使用非常廣泛,例如,Java中的TreeMap使用紅黑樹存盤排序鍵值對;Java8中的HashMap使用鏈表+紅黑樹解決哈希沖突問題(當沖突節點較少時,使用鏈表,當沖突節點較多時,使用紅黑樹),

對于資料在記憶體中的情況(如上述的TreeMap和HashMap),紅黑樹的表現是非常優異的,但是對于資料在磁盤等輔助存盤設備中的情況(如MySQL等資料庫),紅黑樹并不擅長,因為紅黑樹長得還是太高了,當資料在磁盤中時,磁盤IO會成為最大的性能瓶頸,設計的目標應該是盡量減少IO次數;而樹的高度越高,增刪改查所需要的IO次數也越多,會嚴重影響性能,

四、B樹:為磁盤而生

B樹也稱B-樹(其中-不是減號),是為磁盤等輔存設備設計的多路平衡查找樹,與二叉樹相比,B樹的每個非葉節點可以有多個子樹,因此,當總節點數量相同時,B樹的高度遠遠小于AVL樹和紅黑樹(B樹是一顆“矮胖子”),磁盤IO次數大大減少,

定義B樹最重要的概念是階數(Order),對于一顆m階B樹,需要滿足以下條件:

  • 每個節點最多包含 m 個子節點,
  • 如果根節點包含子節點,則至少包含 2 個子節點;除根節點外,每個非葉節點至少包含 m/2 個子節點,
  • 擁有 k 個子節點的非葉節點將包含 k - 1 條記錄,
  • 所有葉節點都在同一層中,

可以看出,B樹的定義,主要是對非葉結點的子節點數量和記錄數量的限制,

下圖是一個3階B樹的例子(圖片來源):

 

B樹的優勢除了樹高小,還有對訪問區域性原理的利用,所謂區域性原理,是指當一個資料被使用時,其附近的資料有較大概率在短時間內被使用,B樹將鍵相近的資料存盤在同一個節點,當訪問其中某個資料時,資料庫會將該整個節點讀到快取中;當它臨近的資料緊接著被訪問時,可以直接在快取中讀取,無需進行磁盤IO;換句話說,B樹的快取命中率更高,

B樹在資料庫中有一些應用,如mongodb的索引使用了B樹結構,但是在很多資料庫應用中,使用了是B樹的變種B+樹,

五、B+樹

B+樹也是多路平衡查找樹,其與B樹的區別主要在于:

  • B樹中每個節點(包括葉節點和非葉節點)都存盤真實的資料,B+樹中只有葉子節點存盤真實的資料,非葉節點只存盤鍵,在MySQL中,這里所說的真實資料,可能是行的全部資料(如Innodb的聚簇索引),也可能只是行的主鍵(如Innodb的輔助索引),或者是行所在的地址(如MyIsam的非聚簇索引),
  • B樹中一條記錄只會出現一次,不會重復出現,而B+樹的鍵則可能重復重現——一定會在葉節點出現,也可能在非葉節點重復出現,
  • B+樹的葉節點之間通過雙向鏈表鏈接,
  • B樹中的非葉節點,記錄數比子節點個數少1;而B+樹中記錄數與子節點個數相同,

由此,B+樹與B樹相比,有以下優勢:

  • 更少的IO次數:B+樹的非葉節點只包含鍵,而不包含真實資料,因此每個節點存盤的記錄個數比B數多很多(即階m更大),因此B+樹的高度更低,訪問時所需要的IO次數更少,此外,由于每個節點存盤的記錄數更多,所以對訪問區域性原理的利用更好,快取命中率更高,
  • 更適于范圍查詢:在B樹中進行范圍查詢時,首先找到要查找的下限,然后對B樹進行中序遍歷,直到找到查找的上限;而B+樹的范圍查詢,只需要對鏈表進行遍歷即可,
  • 更穩定的查詢效率:B樹的查詢時間復雜度在1到樹高之間(分別對應記錄在根節點和葉節點),而B+樹的查詢復雜度則穩定為樹高,因為所有資料都在葉節點,

B+樹也存在劣勢:由于鍵會重復出現,因此會占用更多的空間,但是與帶來的性能優勢相比,空間劣勢往往可以接受,因此B+樹的在資料庫中的使用比B樹更加廣泛,

六、感受B+樹的威力

前面說到,B樹/B+樹與紅黑樹等二叉樹相比,最大的優勢在于樹高更小,實際上,對于Innodb的B+索引來說,樹的高度一般在2-4層,下面來進行一些具體的估算,

樹的高度是由階數決定的,階數越大樹越矮;而階數的大小又取決于每個節點可以存盤多少條記錄,Innodb中每個節點使用一個頁(page),頁的大小為16KB,其中元資料只占大約128位元組左右(包括檔案管理頭資訊、頁面頭資訊等等),大多數空間都用來存盤資料,

  • 對于非葉節點,記錄只包含索引的鍵和指向下一層節點的指標,假設每個非葉節點頁面存盤1000條記錄,則每條記錄大約占用16位元組;當索引是整型或較短的字串時,這個假設是合理的,延伸一下,我們經常聽到建議說索引列長度不應過大,原因就在這里:索引列太長,每個節點包含的記錄數太少,會導致樹太高,索引的效果會大打折扣,而且索引還會浪費更多的空間,
  • 對于葉節點,記錄包含了索引的鍵和值(值可能是行的主鍵、一行完整資料等,具體見前文),資料量更大,這里假設每個葉節點頁面存盤100條記錄(實際上,當索引為聚簇索引時,這個數字可能不足100;當索引為輔助索引時,這個數字可能遠大于100;可以根據實際情況進行估算),

對于一顆3層B+樹,第一層(根節點)有1個頁面,可以存盤1000條記錄;第二層有1000個頁面,可以存盤1000*1000條記錄;第三層(葉節點)有1000*1000個頁面,每個頁面可以存盤100條記錄,因此可以存盤1000*1000*100條記錄,即1億條,而對于二叉樹,存盤1億條記錄則需要26層左右,

七、總結

最后,總結一下各種樹解決的問題以及面臨的新問題:

1)       二叉查找樹(BST):解決了排序的基本問題,但是由于無法保證平衡,可能退化為鏈表;

2)       平衡二叉樹(AVL):通過旋轉解決了平衡的問題,但是旋轉操作效率太低;

3)       紅黑樹:通過舍棄嚴格的平衡和引入紅黑節點,解決了AVL旋轉效率過低的問題,但是在磁盤等場景下,樹仍然太高,IO次數太多;

4)       B樹:通過將二叉樹改為多路平衡查找樹,解決了樹過高的問題;

5)       B+樹:在B樹的基礎上,將非葉節點改造為不存盤資料的純索引節點,進一步降低了樹的高度;此外將葉節點使用指標連接成鏈表,范圍查詢更加高效,

參考文獻

《MySQL技術內幕:InnoDB存盤引擎》

《MySQL運維內參》

https://zhuanlan.zhihu.com/p/54102723

https://cloud.tencent.com/developer/article/1425604

https://blog.csdn.net/whoamiyang/article/details/51926985

https://www.jianshu.com/p/37436ed14cc6

https://blog.csdn.net/CrankZ/article/details/83301702

https://www.cnblogs.com/gaochundong/p/btree_and_bplustree.html

 

創作不易,如果文章對你有幫助,就點個贊、評個論唄~

創作不易,如果文章對你有幫助,就點個贊、評個論唄~

創作不易,如果文章對你有幫助,就點個贊、評個論唄~

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/127249.html

標籤:MySQL

上一篇:PostgreSQL陣列型別應用

下一篇:Mysql—鎖原理與詳解

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more