如何寫出一手好 SQL ？-有解無憂

來源：編碼磚家　
鏈接：cnblogs.com/xiaoyangjia/p/11267191.html

背景

最近頻繁出現慢SQL告警，執行時間最長的竟然高達5分鐘，匯出日志后分析，主要原因竟然是沒有命中索引和沒有分頁處理 ，

其實這是非常低級的錯誤，我不禁后背一涼，團隊成員的技術水平亟待提高啊，改造這些SQL的程序中，總結了一些經驗分享給大家，如果有錯誤歡迎批評指正，

MySQL性能

最大資料量

拋開資料量和并發數，談性能都是耍流氓 ，MySQL沒有限制單表最大記錄數，它取決于作業系統對檔案大小的限制，

檔案系統	單檔案大小限制
FAT32	最大4G
NTFS	最大64GB
NTFS5.0	最大2TB
EXT2	塊大小為1024位元組，檔案最大容量16GB；塊大小為4096位元組，檔案最大容量2TB
EXT3	塊大小為4KB，檔案最大容量為4TB
EXT4	理論可以大于16TB

《阿里巴巴Java開發手冊》提出單表行數超過500萬行或者單表容量超過2GB，才推薦分庫分表，性能由綜合因素決定，拋開業務復雜度，影響程度依次是硬體配置、MySQL配置、資料表設計、索引優化，500萬這個值僅供參考，并非鐵律，

博主曾經操作過超過4億行資料的單表，分頁查詢最新的20條記錄耗時0.6秒，SQL陳述句大致是 select field_1,field_2 from table where id < #{prePageMinId} order by id desc limit 20，prePageMinId是上一頁資料記錄的最小ID，雖然當時查詢速度還湊合，隨著資料不斷增長，有朝一日必定不堪重負，

分庫分表是個周期長而風險高的大活兒，應該盡可能在當前結構上優化，比如升級硬體、遷移歷史資料等等，實在沒轍了再分，對分庫分表感興趣的同學可以閱讀分庫分表的基本思想，

最大并發數

并發數是指同一時刻資料庫能處理多少個請求，由maxconnections和maxuserconnections決定，maxconnections是指MySQL實體的最大連接數，上限值是16384，maxuser*connections是指每個資料庫用戶的最大連接數，

MySQL會為每個連接提供緩沖區，意味著消耗更多的記憶體，如果連接數設定太高硬體吃不消，太低又不能充分利用硬體，一般要求兩者比值超過10%，計算方法如下：

max_used_connections / max_connections * 100% = 3/100 *100% ≈ 3%

查看最大連接數與回應最大連接數：

show variables like '%max_connections%';show variables like '%max_user_connections%';

在組態檔my.cnf中修改最大連接數

[mysqld]max_connections = 100max_used_connections = 20

查詢耗時0.5秒

建議將單次查詢耗時控制在0.5秒以內，0.5秒是個經驗值，源于用戶體驗的 3秒原則 ，如果用戶的操作3秒內沒有回應，將會厭煩甚至退出，回應時間=客戶端UI渲染耗時+網路請求耗時+應用程式處理耗時+查詢資料庫耗時，0.5秒就是留給資料庫1/6的處理時間，

實施原則

相比NoSQL資料庫，MySQL是個嬌氣脆弱的家伙，它就像體育課上的女同學，一點糾紛就和同學鬧別扭(擴容難)，跑兩步就氣喘吁吁(容量小并發低)，常常身體不適要請假(SQL約束太多)，如今大家都會搞點分布式，應用程式擴容比資料庫要容易得多，所以實施原則是 資料庫少干活，應用程式多干活 ，

充分利用但不濫用索引，須知索引也消耗磁盤和CPU，
不推薦使用資料庫函式格式化資料，交給應用程式處理，
不推薦使用外鍵約束，用應用程式保證資料準確性，
寫多讀少的場景，不推薦使用唯一索引，用應用程式保證唯一性，
適當冗余欄位，嘗試創建中間表，用應用程式計算中間結果，用空間換時間，
不允許執行極度耗時的事務，配合應用程式拆分成更小的事務，
預估重要資料表（比如訂單表）的負載和資料增長態勢，提前優化，

資料表設計

資料型別

資料型別的選擇原則：更簡單或者占用空間更小，

如果長度能夠滿足，整型盡量使用tinyint、smallint、medium_int而非int，
如果字串長度確定，采用char型別，
如果varchar能夠滿足，不采用text型別，
精度要求較高的使用decimal型別，也可以使用BIGINT，比如精確兩位小數就乘以100后保存，

盡量采用timestamp而非datetime，

型別	占據位元組	描述
datetime	8位元組	'1000-01-01 00:00:00.000000' to '9999-12-31 23:59:59.999999
timestamp	4位元組	'1970-01-01 00:00:01.000000' to '2038-01-19 03:14:07.999999'

相比datetime，timestamp占用更少的空間，以UTC的格式儲存自動轉換時區，

避免空值

MySQL中欄位為NULL時依然占用空間，會使索引、索引統計更加復雜，從NULL值更新到非NULL無法做到原地更新，容易發生索引分裂影響性能，盡可能將NULL值用有意義的值代替，也能避免SQL陳述句里面包含 is not null的判斷，

text型別優化

由于text欄位儲存大量資料，表容量會很早漲上去，影響其他欄位的查詢性能，建議抽取出來放在子表里，用業務主鍵關聯，

索引優化

索引分類

普通索引：最基本的索引，
組合索引：多個欄位上建立的索引，能夠加速復合查詢條件的檢索，
唯一索引：與普通索引類似，但索引列的值必須唯一，允許有空值，
組合唯一索引：列值的組合必須唯一，
主鍵索引：特殊的唯一索引，用于唯一標識資料表中的某一條記錄，不允許有空值，一般用primary key約束，
全文索引：用于海量文本的查詢，MySQL5.6之后的InnoDB和MyISAM均支持全文索引，由于查詢精度以及擴展性不佳，更多的企業選擇Elasticsearch，

索引優化

分頁查詢很重要，如果查詢資料量超過30%，MYSQL不會使用索引，
單表索引數不超過5個、單個索引欄位數不超過5個，
字串可使用前綴索引，前綴長度控制在5-8個字符，
欄位唯一性太低，增加索引沒有意義，如：是否洗掉、性別，
合理使用覆寫索引，如下所示：

select loginname, nickname from member where login_name = ?

loginname, nickname兩個欄位建立組合索引，比login_name簡單索引要更快

SQL優化

分批處理

博主小時候看到魚塘挖開小口子放水，水面有各種漂浮物，浮萍和樹葉總能順利通過出水口，而樹枝會擋住其他物體通過，有時還會卡住，需要人工清理，MySQL就是魚塘，最大并發數和網路帶寬就是出水口，用戶SQL就是漂浮物，

不帶分頁引數的查詢或者影響大量資料的update和delete操作，都是樹枝，我們要把它打散分批處理，舉例說明：業務描述：更新用戶所有已過期的優惠券為不可用狀態，

SQL陳述句：update status=0 FROMcoupon WHERE expire_date <= #{currentDate} and status=1;如果大量優惠券需要更新為不可用狀態，執行這條SQL可能會堵死其他SQL，分批處理偽代碼如下：

int pageNo = 1;
int PAGE_SIZE = 100;
while(true) {
    List<Integer> batchIdList = queryList('select id FROM `coupon` WHERE expire_date <= #{currentDate} and status = 1 limit #{(pageNo-1) * PAGE_SIZE},#{PAGE_SIZE}');
    if (CollectionUtils.isEmpty(batchIdList)) {
        return;
    }
    update('update status = 0 FROM `coupon` where status = 1 and id in #{batchIdList}')
    pageNo ++;
}

運算子<>優化

通常<>運算子無法使用索引，舉例如下，查詢金額不為100元的訂單：select id from orders where amount != 100;如果金額為100的訂單極少，這種資料分布嚴重不均的情況下，有可能使用索引，鑒于這種不確定性，采用union聚合搜索結果，改寫方法如下：

(select id from orders where amount > 100) union all(select id from orders where amount < 100 and amount > 0)

OR優化

在Innodb引擎下or無法使用組合索引，比如：

select id，product_name from orders where mobile_no = '13421800407' or user_id = 100;

OR無法命中mobileno + userid的組合索引，可采用union，如下所示：

(select id，product_name from orders where mobile_no = '13421800407') union(select id，product_name from orders where user_id = 100);

此時id和product_name欄位都有索引，查詢才最高效，

IN優化

IN適合主表大子表小，EXIST適合主表小子表大，由于查詢優化器的不斷升級，很多場景這兩者性能差不多一樣了，
嘗試改為join查詢，舉例如下：

select id from orders where user_id in (select id from user where level = 'VIP');

采用JOIN如下所示：

select o.id from orders o left join user u on o.user_id = u.id where u.level = 'VIP';

不做列運算

通常在查詢條件列運算會導致索引失效，如下所示：查詢當日訂單

select id from order where date_format(create_time，'%Y-%m-%d') = '2019-07-01';

date_format函式會導致這個查詢無法使用索引，改寫后：

select id from order where create_time between '2019-07-01 00:00:00' and '2019-07-01 23:59:59';

避免Select all

如果不查詢表中所有的列，避免使用 SELECT *，它會進行全表掃描，不能有效利用索引，

Like優化

like用于模糊查詢，舉個例子（field已建立索引）：

SELECT column FROM table WHERE field like '%keyword%';

這個查詢未命中索引，換成下面的寫法：

SELECT column FROM table WHERE field like 'keyword%';

去除了前面的%查詢將會命中索引，但是產品經理一定要前后模糊匹配呢？全文索引fulltext可以嘗試一下，但Elasticsearch才是終極武器，

Join優化

join的實作是采用Nested Loop Join演算法，就是通過驅動表的結果集作為基礎資料，通過該結資料作為過濾條件到下一個表中回圈查詢資料，然后合并結果，如果有多個join，則將前面的結果集作為回圈資料，再次到后一個表中查詢資料，

驅動表和被驅動表盡可能增加查詢條件，滿足ON的條件而少用Where，用小結果集驅動大結果集，
被驅動表的join欄位上加上索引，無法建立索引的時候，設定足夠的Join Buffer Size，
禁止join連接三個以上的表，嘗試增加冗余欄位，

Limit優化

limit用于分頁查詢時越往后翻性能越差，解決的原則：縮小掃描范圍 ，如下所示：

select * from orders order by id desc limit 100000,10 耗時0.4秒select * from orders order by id desc limit 1000000,10耗時5.2秒

先篩選出ID縮小查詢范圍，寫法如下：

select * from orders where id > (select id from orders order by id desc  limit 1000000, 1) order by id desc limit 0,10耗時0.5秒

如果查詢條件僅有主鍵ID，寫法如下：

select id from orders where id between 1000000 and 1000010 order by id desc耗時0.3秒

如果以上方案依然很慢呢？只好用游標了，感興趣的朋友閱讀JDBC使用游標實作分頁查詢的方法

其他資料庫

作為一名后端開發人員，務必精通作為存盤核心的MySQL或SQL Server，也要積極關注NoSQL資料庫，他們已經足夠成熟并被廣泛采用，能解決特定場景下的性能瓶頸，

分類	資料庫	特性
鍵值型	Memcache	用于內容快取，大量資料的高訪問負載
鍵值型	Redis	用于內容快取，比Memcache支持更多的資料型別，并能持久化資料
列式存盤	HBase	Hadoop體系的核心資料庫，海量結構化資料存盤，大資料必備，
檔案型	MongoDb	知名檔案型資料庫，也可以用于快取
檔案型	CouchDB	Apache的開源專案，專注于易用性，支持REST API
檔案型	SequoiaDB	國內知名檔案型資料庫
圖形	Neo4J	用于社交網路構建關系圖譜，推薦系統等

參考：https://www.jianshu.com/p/6864abb4d885

雞湯：你既然已經做出了選擇，又何必去問為什么選擇， ——衛莊

近期熱文推薦：

1.1,000+ 道 Java面試題及答案整理(2022最新版)

2.勁爆！Java 協程要來了，，，

3.Spring Boot 2.x 教程，太全了！

4.別再寫滿屏的爆爆爆炸類了，試試裝飾器模式，這才是優雅的方式！！

5.《Java開發手冊（嵩山版）》最新發布，速速下載！

覺得不錯，別忘了隨手點贊+轉發哦！

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/472237.html

標籤：其他

上一篇：python中最簡單的turtle繪圖：奧運五環

下一篇：多執行緒筆記（二）