主頁 > 後端開發 > 為什么索引可以讓查詢變快?終于有人說清楚了!

為什么索引可以讓查詢變快?終于有人說清楚了!

2021-08-17 06:14:41 後端開發

概述

人類存盤資訊的發展歷程大致經歷如下:

由于是個人憑著自己理解總結的,因此可能不一定精確,但是毋庸置疑的是,在當代,各大公司機構部門的資料都是維護在資料庫當中的,資料庫作為資料存盤介質發展的最新產物,必然是具有許多優點的,其中一個很大的優點就是存盤在資料庫中的資料訪問速度非常快,

資料庫訪問速度快的一個很重要的原因就在于索引index的作用,也就是這篇文章的主要想介紹的內容,為什么索引可以讓資料庫查詢變快?

計算機存盤原理

在理解索引這個概念之前,我們需要先了解一下計算機存盤方面的基本知識,

我們知道資料持久化之后存在了資料庫里,那么我現在的問題是資料庫將資料存在了哪里?答案顯然是存在了計算機的存盤設備上,就個人電腦而言,資料被存在了我們的電腦存盤設備上,

計算機的存盤設備有很多種,其中速度越快的越貴,因此容量也往往越小例如我們的RAM隨機存盤器,也就是大家平時說的記憶體條,速度慢的就相對便宜例如我們的硬碟,而我們的資料往往都是被存在最慢的存盤設備硬碟上的,因為存在當中的資料在斷電之后依然存在,

計算機的存盤介質有多種,例如硬碟,例如告訴快取,不同的存盤介質的資料讀取速度是不一樣的,例如,像RAM這樣的易失性存盤設備的讀寫操作就非常快,訪問其中的資料幾乎沒有延遲性,由于這個原因,計算機作業系統的設計是這樣的:資料永遠不會直接從硬碟等機械設備中取出,而是首先從硬碟轉移到更快的存盤設備,例如RAM,從RAM當中應用程式直接按需獲取資料,

計算機內部的機械硬碟是下面這樣的:

在一個典型的硬碟驅動器中可以有很多個盤片,“盤片”在外觀上非常類似于一個光碟(但具有很高的存盤容量),盤片又被磁道分條,同時一個盤片又可以分為扇區,

要獲取資料,“盤片”需要由主軸進行旋轉,大多數硬碟供應商都提到了主軸旋轉的速度,例如,7200轉/分和15000轉/分,磁盤中的資料總是以扇區的固定大小倍數表示,因此,如果要從硬碟訪問資料,需要執行以下步驟,這也是性能開銷的主要來源,

  • 確定資料所在的正確磁道,并將磁頭移動到該磁道,即通常說的尋道,
  • 讓“主軸”旋轉盤片,使正確的扇區位于“磁盤頭”下方,
  • 從扇區開始到扇區結束獲取整個資料,

如果資料恰好分布在連續扇區上,那么它將提高獲取資料的性能,因為主軸和磁頭本身不需要移動/旋轉,也就沒有太多開銷,但是大多數時候這種開銷是存在的,

由于存在這種開銷,我們不能直接從硬碟獲取資料,RAM的存盤器高性能的背后的主要原因是它沒有像硬碟那樣的機械運動部件,但是盡管RAM的性能很高,但它當中的資料卻不會用作永久存盤,斷電之后就會消失,重新啟動之后就什么都沒有了,這是我們需要硬碟來進行持久化的原因所在,資料庫中的資料毫無疑問就是存放在硬碟當中的,因此訪問資料庫中的資料不可避免的會經歷磁盤操作的開銷,

索引是如何作業的?

知道上述知識后,索引就更容易理解了,

舉個例子,想象一下,現在有一本500頁厚包含幾十萬字的字典,同時里面的字是無序排列的,現在我需要你從中找出某幾個字出來同時不允許查看目錄,毫無疑問,我們只能一頁一頁的翻,這是非人類能接受的作業,我們必然想的是先看目錄,找到相關的字或者偏旁,然后去對應的地方查找文字,這樣效率就大大提高了,目錄事實上就是一種索引,其思想一脈相承,

資料庫的索引類似于書中的這個目錄,索引會幫助我們快速檢索資料庫,查詢不需要通過整個表來獲取資料,而是從索引中找到資料塊,以一張資料庫表為例:

上表是一張真實的資料庫表,其中每一行是一條記錄,每條記錄都有欄位,假設上面的資料庫是一個有10萬條記錄的大資料庫,現在,我們想從10萬條記錄中搜索一些內容,那么挨著一個一個搜索無疑將花費很長的時間,這個時候我們在資料結構與演算法里學的二分查找法就派上了用場,

二分查找法

使用二分查找法,需要將資料先排序,但是其查詢效率將大大提高,例子如下:

假設我們在上面的資料庫中使用的是固定長度的記錄,固定塊記錄大小為205個位元組, 默認塊大小是1024位元組,則:

固定記錄大小=204位元組,塊大小=1024位元組

所以每個資料塊的記錄數=1024/204=5條記錄,10萬條記錄就是2萬個塊

不使用任何演算法,我們要查詢100000條記錄中的某一條,,在最壞的情況下我們需要遍歷一遍2萬block才能獲得全部100000條記錄,但如果進行二分查找,則只需要進行20000的對數基數2,即14.287712次即可,這意味著我們只需對排序后的值進行14次搜索,就可以使用二分查找到您感興趣的唯一值,

上圖是對一串數字生成的二叉查找樹,其時間復雜度為O(n)=O(log2N),即以2為底,n的對數,其中n為查找目標群體的總資料量,

例如,假設N為8,則O(n) = O(2為底8的對數) = O(3).

遍歷方式,其時間復雜度為O(n)

在上述例子當中,n就是10000,使用索引的時間復雜度為O(2為底10000的對數) 大約等于 13. 和O(10000)之間差大概800倍,

索引為何使得查詢變快?

這個時候我們就能直接回答上述問題了,建立了索引的資料,就是通過事先排好序,從而在查找時可以應用二分查找來提高查詢效率,這也解釋了為什么索引應當盡可能的建立在主鍵這樣的欄位上,因為主鍵必須是唯一的,根據這樣的欄位生成的二叉查找樹的效率無疑是最高的,

為什么索引不能建立的太多?

如果一個表中所有欄位的索引很大,也會導致性能下降,想象一下,如果一個索引和一個表一樣長,那么它將再次成為一個需要檢查的開銷,這就好比字典的目錄非常詳細,但是其長度已經和所有的文字一樣長,這個時候目錄本身的效率就大大下降了,

索引有弊端嗎?

肯定是有的,索引可以提高查詢讀取性能,而它將降低寫入性能,當有索引時,如果更改一條記錄,或者在資料庫中插入一條新的記錄,它將執行兩個寫入操作(一個操作是寫入記錄本身,另一個操作是將更新索引),因此,在定義索引時,必須牢記以下幾點:

  • 索引表中的每個欄位將降低寫入性能,
  • 建議使用表中的唯一值為欄位編制索引,
  • 在關系資料庫中充當外鍵的欄位必須建立索引,因為它們有助于跨多個表進行復雜查詢,
  • 索引還使用磁盤空間,因此在選擇要索引的欄位時要小心,

什么是聚集索引

聚集索引clustered index也叫聚簇索引,它的定義是:聚集索引的表中資料行的物理順序與列值(一般是主鍵的那一列)的邏輯順序相同,一個表中只能擁有一個聚集索引,

例如:

結合上面的表格就很好理解了:資料行的物理順序與列值的順序相同,如果我們查詢id比較靠后的資料,那么這行資料的地址在磁盤中的物理地址也會比較靠后,聚集索引存盤記錄是物理上連續存在,而非聚集索引是邏輯上的連續,物理存盤并不連續,

為什么查詢更快呢?我們通過上面的分析知道了索引是通過二叉樹的資料結構來描述的,我們可以這么理解聚簇索引:索引的葉節點就是資料節點,而非聚簇索引的葉節點仍然是索引節點,只不過有一個指標指向對應的資料塊,

主鍵一般會默認創建聚集索引,

在創建聚集索引之前,應先了解您的資料是如何被訪問的,可考慮將聚集索參考于:

包含大量非重復值的列,使用下列運算子回傳一個范圍值的查詢:BETWEEN、>、>=、< 和 <=,被連續訪問的列,回傳大型結果集的查詢,經常被使用聯接或 GROUP BY 子句的查詢訪問的列;一般來說,這些是外鍵列,對 ORDER BY 或 GROUP BY 子句中指定的列進行索引,可以使 SQL Server 不必對資料進行排序,因為這些行已經排序,這樣可以提高查詢性能,OLTP型的應用程式,這些程式要求進行非常快速的單行查找(一般通過主鍵),應在主鍵上創建聚集索引,聚集索引不適用于:

頻繁更改的列 這將導致整行移動,因為 SQL Server 必須按物理順序保留行中的資料值,這一點要特別注意,因為在大資料量事務處理系統中資料是易失的

索引失效的典型例子

條件中用or,即使其中有條件帶索引,也不會使用索引查詢,這就是查詢盡量不要用or的原因,用in吧,

常見的sql優化手段有哪些

1.避免全表掃描

全表掃描往往發生在下面幾種情況:

  • SQL的on子句或者where子句涉及到的列上沒有索引;
  • 表資料量很小,走索引查詢比全表掃描更麻煩;這對于少于10行且行長度較短的表來說很常見

2.避免索引失效

不在索引列上做任何操作(計算,函式、自動or手動型別轉換),這樣會導致索引失效而轉向全表掃描,

存盤引擎不能使用索引中范圍條件右邊的列,這個是因為age中查詢時范圍查詢了,pos列的索引就沒有生效了

盡量使用覆寫索引(只訪問索引的查詢(索引列和查詢列一致)),減少select *,

對于MySQL而言

  • mysql在使用不等于(!=或者<>)的時候無法使用索引會導致全表掃描
  • is null,is not null也無法使用索引
  • like 通配符開頭'%abc..',mysql索引會失效會變成全表掃描的操作

3.避免排序,不能避免,盡量選擇索引排序

4.避免查詢不必要的欄位

5.避免臨時表的創建,洗掉

原文鏈接:https://blog.csdn.net/topdeveloperr/article/details/88742503

著作權宣告:本文為CSDN博主「topEngineerray」的原創文章,遵循CC 4.0 BY-SA著作權協議,轉載請附上原文出處鏈接及本宣告,

近期熱文推薦:

1.1,000+ 道 Java面試題及答案整理(2021最新版)

2.別在再滿屏的 if/ else 了,試試策略模式,真香!!

3.臥槽!Java 中的 xx ≠ null 是什么新語法?

4.Spring Boot 2.5 重磅發布,黑暗模式太炸了!

5.《Java開發手冊(嵩山版)》最新發布,速速下載!

覺得不錯,別忘了隨手點贊+轉發哦!

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/294100.html

標籤:其他

上一篇:為什么索引可以讓查詢變快?終于有人說清楚了!

下一篇:Mybatis概述

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more