主頁 > 資料庫 > SQL優化終于干掉了“distinct”

SQL優化終于干掉了“distinct”

2020-10-08 11:49:21 資料庫

SQL優化之多表聯合查詢干掉“distinct”去重關鍵字

  • 一、優化目的
  • 二、優化之前的sql長這樣
  • 三、DISTINCT關鍵字的用法
  • 四、談:如何優化distinct的sql
  • 五、distinct真的和group by等價嗎?
  • 六、優化后的sql長啥樣?
  • 七、總結

一、優化目的

在我提交了代碼的時候,架構師給我指出我這個sql這樣寫會有問題,因為在分庫分表的時候,是不支持子查詢的,

所以需要把多表的子查詢的sql結構進行優化,

二、優化之前的sql長這樣

是不是挺恐怖的;(此處為了脫敏,我把相關的sql關鍵詞都給打碼掉了)

在這里插入圖片描述
這個sql的執行步驟如下:
1、查詢出來d表中的某個id欄位包含多個id值的所有的資料(因為此表是1-n的關系,所以需要去重,僅需要拿到不重復的id才可以繼續下一個步驟);可以看到此步驟我把查詢出來的多個值的結果給生成的了一個子表名為sss;

2、下一個步驟就是需要進行排序(以時間進行倒序排序,因為要在前臺進行按時間進行展示);

3、第3步就是把這些結果與a表進行合并,查詢出來排序后的每個id的資訊;然后進行分頁處理;

其他的可以不必關心,最終要的是去重關鍵字(DISTINCT),拿小本本記號,一會要考哦,

三、DISTINCT關鍵字的用法

實踐是驗證真理的唯一標準

例如有下表:

可以看到nameproduct_unit列有可能是重復的

mysql> SELECT t1.id,t1.name,t1.product_unit  FROM dd_product_category t1;
+----+----------+--------------+
| id | name     | product_unit |
+----+----------+--------------+
| 55 | 飲料     ||
| 56 | 飲料     ||
| 57 | 零食     ||
| 59 | 膨化食品 ||
| 60 | 方便食品 ||
| 61 | 自熱火鍋 ||
| 62 | 方便面   ||
| 63 | 礦泉水   ||
| 64 | 糖果     |              |
| 65 | 酒類     ||
| 66 | 烈酒     ||
| 67 | 啤酒     ||
| 68 | 預調酒   ||
+----+----------+--------------+
13 rows in set (0.13 sec)

mysql> 
mysql> 

如何我們想只拿到name或者product_unit列的值并且不想要重復的值該怎么辦?

1、拿到單個值是好拿的,但是是存在重復的資料的,這些重復的資料我們只保留一個就可以了,那么該怎么做呢?


mysql> SELECT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
||
||
||
||
||
||
||
||
|              |
||
||
||
||
+--------------+
13 rows in set (19.31 sec)

mysql> 

2、去除重復列

mysql> 
mysql> SELECT DISTINCT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
||
||
||
||
||
|              |
+--------------+
6 rows in set (0.11 sec)

mysql> 

是不是很簡單,雖然看著簡單,但是如果多表子查詢的時候,就會出現問題,例如你想要查詢表a,b,c三個表的資料,這三個表必然都是有關系的,

a和b是1-n的關系,但是你只有b表中id,你需要先查詢出來b表的資料,然后利用b表的資料去查詢a表的資料,然后再去查詢c表的資料,

想必肯定是很繞的,

整個程序中你肯定是需要去重的

當整個sql寫完,基本上跟我寫的優化前的sql也就差不多了,(多表嵌套,多sql嵌套sql,啦啦啦一大堆),

優化思路還是有很多的,當時能想到的就是把這個復雜的sql拆分成多個簡單的sql執行,然后使用Java后臺代碼進行處理,(對于不甘于現狀的我,想找到一個比這個更友好的解決方案的我,我是不會屈服這個問題的,

四、談:如何優化distinct的sql

說到這里,先給大家放上一個鏈接:

  • 1、(Mysql5.7官方手冊中提及到的關于優化distinct的方法)
    https://dev.mysql.com/doc/refman/5.7/en/distinct-optimization.html

  • 2、還有一個優化group by的:
    https://dev.mysql.com/doc/refman/5.7/en/group-by-optimization.html

推薦大家閱讀,

Mysql5.7官方手冊中提及到的關于優化distinct的方法,原文如下:

MySQL 5.7 Reference Manual / … / DISTINCT Optimization

8.2.1.16 DISTINCT Optimization

DISTINCT combined with ORDER BY needs a temporary table in many cases.

distinct 與order by 結合的許多情況下需要建一個臨時表;

Because DISTINCT may use GROUP BY, learn how MySQL works with columns in ORDER BY or HAVING clauses that are not part of the selected columns. See Section 12.20.3, “MySQL Handling of GROUP BY”.

因為distinct可能使用group by,了解MySQL如何處理按order by 列或者具有不屬于所選列的子句,見12.20.3節, “MySQL Handling of GROUP BY”.

In most cases, a DISTINCT clause can be considered as a special case of GROUP BY. For example, the following two queries are equivalent:

在大多數情況下,一個不同的子句可以被認為是group by 的特殊情況,例如下面這兩個查詢是等價的:

SELECT DISTINCT c1, c2, c3 FROM t1
WHERE c1 > const;
SELECT c1, c2, c3 FROM t1
WHERE c1 > const GROUP BY c1, c2, c3;

Due to this equivalence, the optimizations applicable to GROUP BY queries can be also applied to queries with a DISTINCT clause. Thus, for more details on the optimization possibilities for DISTINCT queries, see Section 8.2.1.15, “GROUP BY Optimization”.

由于這種等價性,適用于group by查詢的優化,也可以應用于具有不同子句的查詢,因此,關于distinct的查詢優化的更多細節可以參考Section 8.2.1.15, “GROUP BY Optimization”.

When combining LIMIT row_count with DISTINCT, MySQL stops as soon as it finds row_count unique rows.

當row_count與distinct一起使用時,MySQL一旦發現row_count是唯一的行,就會停止,

If you do not use columns from all tables named in a query, MySQL stops scanning any unused tables as soon as it finds the first match. In the following case, assuming that t1 is used before t2 (which you can check with EXPLAIN), MySQL stops reading from t2 (for any particular row in t1) when it finds the first row in t2:

如果在查詢中不適用來自所有表的列,MySQL一旦找到第一個匹配項就會停止掃描任何未使用的表,

在下面的例子中,假設t1在t2之前使用(你可以使用explanin來檢查),MySQL在找到t2的第一行時停止從t2讀取(對于t1中的任何特定行),

SELECT DISTINCT t1.a FROM t1, t2 where t1.a=t2.a;

官方的手冊中寫到的,真是句句扣心呀!!!

總結有以下比較重要的幾點:

  • 1、distinct與group by幾乎等價;
  • 2、distinct的相關優化與group by的查詢優化方法是等價的;

五、distinct真的和group by等價嗎?

我們抱著試試看的態度,去做個試驗,

就以下列這個效果為最終目的好了:

mysql> 
mysql> SELECT DISTINCT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
||
||
||
||
||
|              |
+--------------+
6 rows in set (0.11 sec)

mysql> 

使用group by去重:

mysql> select  t1.product_unit from dd_product_category t1 group by t1.product_unit;
+--------------+
| product_unit |
+--------------+
|              |
||
||
||
||
||
+--------------+
6 rows in set (19.46 sec)

mysql> 

可以看到,最終拿到的資料是一模一樣的,

那么我們試驗是成功的,distinct的效果和group by的效果是一樣的,

那么我們優化distinct就變向的去優化group by了(我優化前的sql并未使用group by所以談不上優化group by,只能說是把distinct的復雜sql改造成group by 的sql),

打開我前面提到的這個優化group by的官方手冊:
https://dev.mysql.com/doc/refman/5.7/en/group-by-optimization.html

由于原文比較長,這里就不在過多贅述,

現在需要做的就是把distinct改造成group by的sql語法的寫法,

六、優化后的sql長啥樣?

怎么樣,改造后的sql,是不是還挺清爽的,

1、我們扔掉了多個嵌套sql

2、也不用去生成一個sss的臨時表了

在這里插入圖片描述

七、總結

對于本人而言學到了:

  • 1、distinct與group by幾乎等價;
  • 2、distinct的相關優化與group by的查詢優化方法是等價的;
  • 3、如果distinct的不能讓sql最優化,那么可以嘗試著使用group by的方式去改造一下,

這些我都上傳到了百度云,
在這里插入圖片描述

為了防止鏈接丟失可以關注公眾號,回復:"mysql",即可拿到MySQL相關的全部精彩內容,

歡迎一起學習,一起交流,一起進步,

關注我微信公眾號第一時間推送給你精彩內容哦:

回復選單,更有好禮,驚喜在等著你,

在這里插入圖片描述

快來我粉絲群:每天歡快的玩耍(微信掃描二維碼即可加入,群馬上滿,抓緊啦!!!)
在這里插入圖片描述

TrueDei CSDN認證博客專家 Linux 分布式 Java
不荒廢現在,不畏懼未來!我認為把知識給別人講會,講明白,自己才徹底明白,努力把文章寫好,寫明白每一篇文章,分享給更多人,

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/162904.html

標籤:其他

上一篇:優質高效!阿里新產架構進階手冊,Github已星標71.6k

下一篇:花費我一個多月時間整理出這“全程高能得Java面試題合集”面試首選,跳槽必備!誠意之作,收藏不虧!

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more