- GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯系小編并注明來源,
- GreatSQL是MySQL的國產分支版本,使用上與MySQL一致,
前言
之前的大多數人分頁采用的都是這樣:
SELECT * FROM table LIMIT 20 OFFSET 50
可能有的小伙伴還是不太清楚LIMIT和OFFSET的具體含義和用法,我介紹一下:
LIMIT X 表示: 讀取 X 條資料LIMIT X, Y 表示: 跳過 X 條資料,讀取 Y 條資料LIMIT Y OFFSET X 表示: 跳過 X 條資料,讀取 Y 條資料
對于簡單的小型應用程式和資料量不是很大的場景,這種方式還是沒問題的,
但是你想構建一個可靠且高效的系統,一定要一開始就要把它做好,
今天我們將探討已經被廣泛使用的分頁方式存在的問題,以及如何實作高性能分頁,
LIMIT和OFFSET有什么問題
OFFSET 和 LIMIT 對于資料量少的專案來說是沒有問題的,但是,當資料庫里的資料量超過服務器記憶體能夠存盤的能力,并且需要對所有資料進行分頁,問題就會出現,為了實作分頁,每次收到分頁請求時,資料庫都需要進行低效的全表遍歷,
全表遍歷就是一個全表掃描的程序,就是根據雙向鏈表把磁盤上的資料頁加載到磁盤的快取頁里去,然后在快取頁內部查找那條資料,這個程序是非常慢的,所以說當資料量大的時候,全表遍歷性能非常低,時間特別長,應該盡量避免全表遍歷,
這意味著,如果你有 1 億個用戶,OFFSET 是 5 千萬,那么它需要獲取所有這些記錄 (包括那么多根本不需要的資料),將它們放入記憶體,然后獲取 LIMIT 指定的 20 條結果,
為了獲取一頁的資料:10萬行中的第5萬行到第5萬零20行需要先獲取 5 萬行,這么做非常低效!
初探LIMIT查詢效率
資料準備
- 本文測驗使用的環境:
[root@zhyno1 ~]# cat /etc/system-release
CentOS Linux release 7.9.2009 (Core)
[root@zhyno1 ~]# uname -a
Linux zhyno1 3.10.0-1160.62.1.el7.x86_64 #1 SMP Tue Apr 5 16:57:59 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
- 測驗資料庫采用的是(存盤引擎采用InnoDB,其它引數默認):
mysql> select version();
+-----------+
| version() |
+-----------+
| 8.0.25-16 |
+-----------+
1 row in set (0.00 sec)
表結構如下:
CREATE TABLE `limit_test` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`column1` decimal(11,2) NOT NULL DEFAULT '0.00',
`column2` decimal(11,2) NOT NULL DEFAULT '0.00',
`column3` decimal(11,2) NOT NULL DEFAULT '0.00',
PRIMARY KEY (`id`)
)ENGINE=InnoDB
mysql> DESC limit_test;
+---------+---------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+---------+---------------+------+-----+---------+----------------+
| id | int | NO | PRI | NULL | auto_increment |
| column1 | decimal(11,2) | NO | | 0.00 | |
| column2 | decimal(11,2) | NO | | 0.00 | |
| column3 | decimal(11,2) | NO | | 0.00 | |
+---------+---------------+------+-----+---------+----------------+
4 rows in set (0.00 sec)
插入350萬條資料作為測驗:
mysql> SELECT COUNT(*) FROM limit_test;
+----------+
| COUNT(*) |
+----------+
| 3500000 |
+----------+
1 row in set (0.47 sec)
開始測驗
首先偏移量設定為0,取20條資料(中間輸出省略):
mysql> SELECT * FROM limit_test LIMIT 0,20;
+----+----------+----------+----------+
| id | column1 | column2 | column3 |
+----+----------+----------+----------+
| 1 | 50766.34 | 43459.36 | 56186.44 |
#...中間輸出省略
| 20 | 66969.53 | 8144.93 | 77600.55 |
+----+----------+----------+----------+
20 rows in set (0.00 sec)
可以看到查詢時間基本忽略不計,于是我們要一步一步的加大這個偏移量然后進行測驗,先將偏移量改為10000(中間輸出省略):
mysql> SELECT * FROM limit_test LIMIT 10000,20;
+-------+----------+----------+----------+
| id | column1 | column2 | column3 |
+-------+----------+----------+----------+
| 10001 | 96945.17 | 33579.72 | 58460.97 |
#...中間輸出省略
| 10020 | 1129.85 | 27087.06 | 97340.04 |
+-------+----------+----------+----------+
20 rows in set (0.00 sec)
可以看到查詢時間還是非常短的,幾乎可以忽略不計,于是我們將偏移量直接上到340W(中間輸出省略):
mysql> SELECT * FROM limit_test LIMIT 3400000,20;
+---------+----------+----------+----------+
| id | column1 | column2 | column3 |
+---------+----------+----------+----------+
| 3400001 | 5184.99 | 67179.02 | 56424.95 |
#...中間輸出省略
| 3400020 | 8732.38 | 71035.71 | 52750.14 |
+---------+----------+----------+----------+
20 rows in set (0.73 sec)
這個時候就可以看到非常明顯的變化了,查詢時間猛增到了0.73s,
分析耗時的原因
根據下面的結果可以看到三條查詢陳述句都進行了全表掃描:
mysql> EXPLAIN SELECT * FROM limit_test LIMIT 0,20;
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| 1 | SIMPLE | limit_test | NULL | ALL | NULL | NULL | NULL | NULL | 3491695 | 100.00 | NULL |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
1 row in set, 1 warning (0.00 sec)
mysql> EXPLAIN SELECT * FROM limit_test LIMIT 10000,20;
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| 1 | SIMPLE | limit_test | NULL | ALL | NULL | NULL | NULL | NULL | 3491695 | 100.00 | NULL |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
1 row in set, 1 warning (0.00 sec)
mysql> EXPLAIN SELECT * FROM limit_test LIMIT 3400000,20;
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
| 1 | SIMPLE | limit_test | NULL | ALL | NULL | NULL | NULL | NULL | 3491695 | 100.00 | NULL |
+----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
1 row in set, 1 warning (0.00 sec)
此時就可以知道的是,在偏移量非常大的時候,就像案例中的LIMIT 3400000,20這樣的查詢,
此時MySQL就需要查詢3400020行資料,然后在回傳最后20條資料,
前邊查詢的340W資料都將被拋棄,這樣的執行結果可不是我們想要的,
接下來就是優化大偏移量的性能問題
優化
你可以這樣做:
SELECT * FROM limit_test WHERE id>10 limit 20
這是一種基于指標的分頁,
你要在本地保存上一次接收到的主鍵 (通常是一個 ID) 和 LIMIT,而不是 OFFSET 和 LIMIT,那么每一次的查詢可能都與此類似,
為什么?因為通過顯式告知資料庫最新行,資料庫就確切地知道從哪里開始搜索(基于有效的索引),而不需要考慮目標范圍之外的記錄,
我們再來一次測驗(中間輸出省略):
mysql> SELECT * FROM limit_test WHERE id>3400000 LIMIT 20;
+---------+----------+----------+----------+
| id | column1 | column2 | column3 |
+---------+----------+----------+----------+
| 3400001 | 5184.99 | 67179.02 | 56424.95 |
#...中間輸出省略
| 3400020 | 8732.38 | 71035.71 | 52750.14 |
+---------+----------+----------+----------+
20 rows in set (0.00 sec)
mysql> EXPLAIN SELECT * FROM limit_test WHERE id>3400000 LIMIT 20;
+----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
| 1 | SIMPLE | limit_test | NULL | range | PRIMARY | PRIMARY | 4 | NULL | 185828 | 100.00 | Using where |
+----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
1 row in set, 1 warning (0.00 sec)
回傳同樣的結果,第一個查詢使用了0.73 sec,而第二個僅用了0.00 sec,
注意:
如果我們的表沒有主鍵,比如是具有多對多關系的表,那么就使用傳統的 OFFSET/LIMIT 方式,只是這樣做存在潛在的慢查詢問題,所以建議在需要分頁的表中使用自動遞增的主鍵,即使只是為了分頁,
再優化
類似于查詢 SELECT * FROM table_name WHERE id > 3400000 LIMIT 20; 這樣的效率非常快,因為主鍵上是有索引的,但是這樣有個缺點,就是ID必須是連續的,并且查詢不能有WHERE陳述句,因為WHERE陳述句會造成過濾資料,那使用場景就非常的局限了,于是我們可以這樣:
使用覆寫索引優化
MySQL的查詢完全命中索引的時候,稱為覆寫索引,是非常快的,因為查詢只需要在索引上進行查找,之后可以直接回傳,而不用再回資料表拿資料,因此我們可以先查出索引的 ID,然后根據 Id 拿資料,
SELECT * FROM (SELECT id FROM table_name LIMIT 3400000,20) a LEFT JOIN table_name b ON a.id = b.id;
#或者是
SELECT * FROM table_name a INNER JOIN (SELECT id FROM table_name LIMIT 3400000,20) b USING (id);
總結
- 資料量大的時候不能使用OFFSET/LIMIT來進行分頁,因為OFFSET越大,查詢時間越久,
- 當然不能說所有的分頁都不可以,如果你的資料就那么幾千、幾萬條,那就很無所謂,隨便使用,
- 如果我們的表沒有主鍵,比如是具有多對多關系的表,那么就使用傳統的 OFFSET/LIMIT 方式,
- 這種方法適用于要求ID為數值型別,并且查出的資料ID連續的場景且不能有其他欄位的排序,
Enjoy GreatSQL ??
關于 GreatSQL
GreatSQL是由萬里資料庫維護的MySQL分支,專注于提升MGR可靠性及性能,支持InnoDB并行查詢特性,是適用于金融級應用的MySQL分支版本,
相關鏈接: GreatSQL社區 Gitee GitHub Bilibili
GreatSQL社區:
歡迎來GreatSQL社區發帖提問
https://greatsql.cn/

技術交流群:
微信:掃碼添加
GreatSQL社區助手微信好友,發送驗證資訊加群,

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/505561.html
標籤:其他
上一篇:MySQL第五天
