MySQL8.0 新特性 Hash Join-有解無憂

概述&背景

MySQL一直被人詬病沒有實作HashJoin，最新發布的8.0.18已經帶上了這個功能，令人欣喜，有時候在想，MySQL為什么一直不支持HashJoin呢？我想可能是因為MySQL多用于簡單的OLTP場景，并且在互聯網應用居多，需求沒那么緊急，另一方面可能是因為以前完全靠社區，這種演進速度畢竟有限，Oracle收購MySQL后，MySQL的發版演進速度明顯加快了很多，

HashJoin本身演算法實作并不復雜，要說復雜，可能是優化器配套選擇執行計劃時，是否選擇HashJoin，選擇外表，內表可能更復雜一點，不管怎樣現在已經有了HashJoin，優化器在選擇Join演算法時又多了一個選擇，MySQL本著實用主義，相信這個功能增強也回應了一些質疑，有些功能不是沒有能力做好，而是有它的優先級，

在8.0.18之前，MySQL只支持NestLoopJoin演算法，最簡單的就是Simple NestLoop Join，MySQL針對這個演算法做了若干優化，實作了Block NestLoop Join，Index NestLoop Join和Batched Key Access等，有了這些優化，在一定程度上能緩解對HashJoin的迫切程度，下文會單獨拿一個章節講MySQL的這些Join優化，下面先講HashJoin，

Hash Join演算法

NestLoopJoin演算法簡單來說，就是雙重回圈，遍歷外表(驅動表)，對于外表的每一行記錄，然后遍歷內表，然后判斷join條件是否符合，進而確定是否將記錄吐出給上一個執行節點，從演算法角度來說，這是一個M*N的復雜度，HashJoin是針對equal-join場景的優化，基本思想是，將外表資料load到記憶體，并建立hash表，這樣只需要遍歷一遍內表，就可以完成join操作，輸出匹配的記錄，如果資料能全部load到記憶體當然好，邏輯也簡單，一般稱這種join為CHJ(Classic Hash Join)，之前MariaDB就已經實作了這種HashJoin演算法，如果資料不能全部load到記憶體，就需要分批load進記憶體，然后分批join，下面具體介紹這幾種join演算法的實作，

In-Memory Join(CHJ)

HashJoin一般包括兩個程序，創建hash表的build程序和探測hash表的probe程序，

1).build phase

遍歷外表，以join條件為key，查詢需要的列作為value創建hash表，這里涉及到一個選擇外表的依據，主要是評估參與join的兩個表(結果集)的大小來判斷，誰小就選擇誰，這樣有限的記憶體更容易放下hash表，

2).probe phase

hash表build完成后，然后逐行遍歷內表，對于內表的每個記錄，對join條件計算hash值，并在hash表中查找，如果匹配，則輸出，否則跳過，所有內表記錄遍歷完，則整個程序就結束了，程序參照下圖，來源于MySQL官方博客

左側是build程序，右側是probe程序，country_id是equal_join條件，countries表是外表，persons表是內表，

On-Disk Hash Join

CHJ的限制條件在于，要求記憶體能裝下整個外表，在MySQL中，Join可以使用的記憶體通過引數join_buffer_size控制，如果join需要的記憶體超出了join_buffer_size，那么CHJ將無能為力，只能對外表分成若干段，每個分段逐一進行build程序，然后遍歷內表對每個分段再進行一次probe程序，假設外表分成了N片，那么將掃描內表N次，這種方式當然是比較弱的，在MySQL8.0中，如果join需要記憶體超過了join_buffer_size，build階段會首先利用hash算將外表進行磁區，并產生臨時分片寫到磁盤上；然后在probe階段，對于內表使用同樣的hash演算法進行磁區，由于使用分片hash函式相同，那么key相同(join條件相同)必然在同一個分片編號中，接下來，再對外表和內表中相同分片編號的資料進行CHJ的程序，所有分片的CHJ做完，整個join程序就結束了，這種演算法的代價是，對外表和內表分別進行了兩次讀IO，一次寫IO，相對于之之前需要N次掃描內表IO，現在的處理方式更好，

左上側圖是外表的分片程序，右上側圖是內表的分片程序，最下面的圖是對分片進行build+probe程序，

Grace Hash Join

主流的資料庫Oracle，SQLServer，PostgreSQL早就支持了HashJoin，Join演算法都類似，這里介紹下Oracle使用的Grace Hash Join演算法，其實整個程序與MySQL的HashJoin類似，主要有一點區別，當出現join_buffer_size不足時，MySQL會對外表進行分片，然后再進行CHJ程序，但是，極端情況下，如果資料分布不均勻，導致大量的資料hash后都分布在一個分桶中，導致分片后，join_buffer_size仍然不夠，MySQL的處理方式是一次讀分片讀若干記錄構建hash表，然后probe對應的外表分片，處理完一批后，清理hash表，重復上述程序，直到這個分片的所有資料處理完為止，這個程序與CHJ在join_buffer_size不足時，處理邏輯相同，

GraceHash在遇到這種情況時，會繼續分片進行二次Hash，直到記憶體足夠放下一個hash表為止，但是，這里仍然有極端情況，如果輸入join條件都相同，那么無論進行多少次Hash，都沒法分開，那么這個時候GraceHashJoin也退化成和MySQL的處理方式一樣，

hybrid hash join

與GraceHashJoin的區別在于，如果快取能快取足夠多的分片資料，會盡量快取，那么就不必像GraceHash那樣，嚴格地將所有分片都先讀進記憶體，然后寫到外存，然后再讀進記憶體去走build程序，這個是在記憶體相對于分片比較充裕的情況下的一種優化，目的是為了減少磁盤的讀寫IO，目前Oceanbase的HashJoin采用的是這種join方式，

MySQL-Join演算法優化

在MySQL8.0.18之前，也就是在很長一段時間內，MySQL資料庫并沒有HashJoin，主要的Join演算法是NestLoopJoin，SimpleNestLoopJoin顯然是很低效的，對內表需要進行N次全表掃描，實際復雜度是N*M，N是外表的記錄數目，M是記錄數，代表一次掃描內表的代價，為此，MySQL針對SimpleNestLoopJoin做了若干優化，下面貼的圖片均來自網路，

BlockNestLoopJoin(BNLJ)

MySQL采用了批量技術，即一次利用join_buffer_size快取足夠多的記錄，每次遍歷內表時，每條內表記錄與這一批資料進行條件判斷，這樣就減少了掃描內表的次數，如果內表比較大，間接就緩解了IO的讀壓力，

IndexNestLoopJoin(INLJ)

如果我們能對內表的join條件建立索引，那么對于外表的每條記錄，無需再進行全表掃描內表，只需要一次Btree-Lookup即可，整體時間復雜度降低為N*O(logM)，對比HashJoin，對于外表每條記錄，HashJoin是一次HashTable的search，當然HashTable也有build時間，還需要處理記憶體不足的情況，不一定比INLJ好，

Batched Key Access

IndexNestLoopJoin利用join條件的索引，通過Btree-Lookup去匹配減少了遍歷內表的代價，如果join條件是非主鍵列，那么意味著大量的回表和隨機IO，BKA優化的做法是，將滿足條件的一批資料按主鍵排序，這樣回表時，從主鍵的角度來說就相對有序，緩解隨機IO的代價，BKA實際上是利用了MRR特性(MultiRangeRead)，訪問資料之前，先將主鍵排序，然后再訪問，主鍵排序的快取大小通過引數read_rnd_buffer_size控制，

總結

MySQL8.0以后，Server層代碼做了大量的重構，雖然優化器相對于Oracle還有很大差距，但一直在進步，HashJoin的支持使得MySQL優化器有更多選擇，SQL的執行路徑也能做到更優，尤其是對于等值join的場景，雖然MySQL之前對于Join做過若干優化，比如NBLJ，INLJ以及BKA等，但這些代替不了HashJoin的作用，一個好用的資料庫就應該具備豐富的基礎能力，利用優化器分析出合適場景，然后拿出對應的基礎能力以最高效的方式回應請求，

參考檔案

https://en.wikipedia.org/wiki/Hash_join

https://mysqlserverteam.com/hash-join-in-mysql-8/

https://dev.mysql.com/worklog/task/?id=2241

https://www.cnblogs.com/qixinbo/p/10524142.html

https://zhuanlan.zhihu.com/p/35040231

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/99372.html

標籤：MySQL

上一篇：資料庫字符集US7ASCII，PB11如何顯示資料庫里的中文？

下一篇：MySQL資料庫備份和恢復