主頁 >  其他 > ES的索引結構與演算法決議

ES的索引結構與演算法決議

2023-04-25 08:14:34 其他

作者:京東物流 李洪吉

提到ES,大多數愛好者想到的都是搜索引擎,但是明確一點,ES不等同于搜索引擎,不管是谷歌、百度、必應、搜狗為代表的自然語言處理(NLP)、爬蟲、網頁處理、大資料處理的全文搜索引擎,還是有明確搜索目的的搜索行為,如各大電商網站、OA、站內搜索、視頻網站的垂直搜索引擎,他們或多或少都使用到了ES,

?作為搜索引擎的一部分,ES自然具有速度快、結果準確、結果豐富等特點,那么ES是如何達到“搜索引擎”級別的查詢效率呢?首先是索引,其次是壓縮演算法,接下來我們就一起了解下ES的索引結構和壓縮演算法

1 結構

1.1 Mysql

Mysql下的data目錄存放的檔案就是mysql相關資料,mysql檔案夾對應的就是資料庫mysql,

其中表columns_priv對應了3個檔案:columns_priv.frm、columns_priv.MYD、columns_priv.MYI,

.frm:表結構;.MYD:myisam存盤引擎原資料;.MYI:myisam存盤引擎索引;.ibd:innodb存盤引擎資料

1.2 Elasticsearch

cfe為索引文,cfs 為資料檔案,cfe檔案保存Lucene各檔案在.cfs檔案的位置資訊

cfs、cfe 在segment還很小的時候,將segment的所有檔案都存在在cfs中,在cfs逐漸變大時,大小超過shard的10%,則會拆分為其他檔案,如tim、dvd、fdt等檔案

1.3 存盤結構

倒排索引結構分為倒排表、詞項字典、詞項索引

倒排表包含某個詞項的所有id的資料存盤了在.doc檔案中

詞項字典包含了index field的所有經過處理之后的詞項資料,最終存盤在.tim檔案中

1.4 結構對比

我們以某商城的手機為例,左側為es倒排索引結構,右側為原始資料,左側圖示只是為了展示倒排索引結構,并不是說es中倒排表就是簡單的陣列

以上面結構對比示例圖為例,假如共有10億條資料需要存盤在ES中(上圖右),分詞后存盤的倒排表(上圖左)大概包含分詞term以及對應的id陣列等,在10億條資料中,分詞“小米”相關的資料有100萬條,也就是說分詞“小米”對應的陣列Posting List長度是100萬

id是int型別的有序主鍵,分詞“小米”在陣列Posting List中100萬int型別數字總長度=100萬?每個int占4位元組=400萬Byte≈4MB,1個分詞占4MB空間,假如10億條資料有500萬個分詞,總空間=4MB?500萬=2千萬MB,磁盤空間直接爆炸

2 演算法

分詞對應的陣列Posting List實際就是一個個有序陣列,而有序數值陣列是比較容易進行壓縮處理的,而且一般來說壓縮效益也不錯,如果能對其進行壓縮是能夠大大節約空間資源的

ES中倒排索引的壓縮演算法主要有FOR演算法(Frame Of Reference)和RBM演算法(RoaringBitMap)

2.1 FOR

FOR演算法的核心思想是用減法來削減數值大小,從而達到降低空間存盤, 假設V(n)表示陣列中第n個欄位的值,那么經過FOR演算法壓縮的數值V(n)=V(n)-V(n-1),也就是說存盤的是后一位減去前一位的差值,存盤是也不再按照int來計算了,而是看這個陣列的最大值需要占用多少bit來計算

我們按照差值計算的方式來保存資料,初始值為1,2與1的差值為1,3與2的差值為1……最終我們就將原始Posting List資料轉化為100萬個1,每個1我們可以用1bit來記錄,總空間=1bit?100萬=100萬bit,相比原有400萬Byte=3200bit,空間壓縮了32倍

在實際生產中,不可能出現一個term的Posting List是這種差值均為1的情況,所以我們以通用示例舉例,假如原資料為[73,300,302,332,343,372],陣列中6個數字占據總空間為24位元組,按照差值方式記錄,陣列轉化為[73,227,2,30,11,29],最大數字為227,大于2的7次方128,小于2的8次方256,所以每個數字可以使用8bit即1Byte來保存,占據總空間為1Byte*6 + 1Byte=7Byte

在此基礎上,我們將差值陣列按照密集度劃分為[73,227]和[2,30,11,29],其中[73,227]中最大值227介于2的7次方和2的8次方之間,所以用8bit=1Byte作為切割分段,[2,30,11,29]中最大數30介于2的4次方和2的5次方之間,所以用5bit作為切割分段,

陣列[73,227]占據總空間為8bit?2個=16bit=2Byte

陣列[2,30,11,29]占據總空間為5bit?4個=20bit=3Byte

為什么20bit=3Byte呢?因為8bit=1Byte,小于8bit也會占據1個位元組空間,所以17bit到24bit均為3Byte

所以,最終占據總空間=1+2+1+3=7Byte

疑問一:既然原陣列[73,300,302,332,343,372]要按照密集度拆分為[73,227]和[2,30,11,29]兩個陣列,那為什么不繼續往下拆分,直接拆分到每個數字是一個陣列,這樣使用bit記錄時占據總空間會更少?

答:如果繼續拆分陣列,空間確實會使用更少,但是,之前我們提到搜索引擎速度快的方式有兩種:高效的壓縮演算法和快速的編碼解碼速度,單個數字存盤確實壓縮了空間,但是我們無法再通過解碼的方式將源資料還原

疑問二:為什么源資料使用差值記錄占據6Byte,拆分陣列后占據7Byte,拆分后占據空間不變,有時候甚至會變大,為什么?

答:資料量小的情況下確實會出現該情況,因為我們需要拆分陣列并記錄拆分陣列的長度(如上面示例中的8bit和5bit),在原資料存盤空間基礎上還要存盤拆分長度,所以資料量小的情況下會出現比直接存盤占據空間大的情況,但是不管是搜索引擎還是Elasticsearch更多處理的是海量資料,資料量越多,差值陣列拆分的方式節省空間越明顯

2.2 RBM

我們已經了解了FOR壓縮演算法,演算法核心是將PostingList按照差值密集度轉化成兩個差值陣列,在這里我們要考慮一種情況就是:在大資料中,10億條資料分詞500萬個,如果分詞“小米”所在PostList比較分散且差值很大,此時使用FOR演算法效果就會大打折扣,所以稀疏的陣列,不適合使用FOR演算法

在這里我們以[1000,62101,131385,132052,191173,196658]為例,如果按照FOR演算法,轉化成的差值陣列為[1000,61101,69284,667,59121,5485]密集度很低,我們采用RBM演算法

源資料PostingList是由int型別組成的陣列,int型別=4Byte=32bit,最大值=2的32次方-1=4294967295≈43億,當資料較大且稀疏時,我們將32bit拆分為16bit和16bit,16bit最大值=65535,前16bit存放,后16bit存放余數,所以商和余數都不會超過65535.我們將源陣列的值除以65536,得到的商和余數分別存放在前16bit和后16bit,

以數字196658為例,轉化為2進制,前16位=3,后16位=50

得到的結果以K-V存放,Key最大值為16bit,所以以short[]陣列存放,Value以Container存放,

由于源陣列為有序陣列,所以按照高低16位轉化后,商和余數都是從小到大排列

通過看Container原始碼,我們可以看到Container有3種:ArrayContainer、BitmapContainer、RunContainer,

  1. ArrayContainer本質為集合,所以隨著陣列中數量越多,占用空間越多,呈正向增長,

當陣列種數量為4096時,占據總空間=4096個?16bit(即2Byte)?1024=8KB

當陣列種數量為65536時,占據總空間=65536個?16bit(即2Byte)?1024=128KB

  1. BitmapContainer位圖,核心就是將原有存盤數值轉化成該數值在哪個位置上存在

由于余數最大值為65535,所以我們需要65536位位圖,數值是多少,在位圖上對應的位置就是多少,數值等于4096,則位圖上4096位值為1;數值等于65535,則位圖上65535位值為1,每個位置上的數都占用8KB空間(8KB=65536bit)

  • RunContainer用法相對狹隘,這種型別是Lucene 5之后新增的型別,主要應用在連續數字的存盤商,比如倒排表中存盤的陣列為 [1,2,3…100W] 這樣的連續陣列,如果使用RunContainer,只需存盤開頭和結尾兩個數字:1和100W,即占用8個位元組,這種存盤方式的優缺點都很明顯,它嚴重收到數字連續性的影響,連續的數字越多,它存盤的效率就越高
  • 如果陣列是如下形式 [1,2,3,4,5,100,101,102,999,1000,1001] 就會被拆分為三段:[1,5],[100,102],[999,1001]

至于每次存盤采用什么容器,需要進行一下判定,比如ArrayContainer,當存盤的元素少于4096個時,他會比BitmapContainer占用更少空間,而當大于4096個元素時,采用ArrayContainer所需要的空間就會大于8kb,那么采用BitmapContainer就會占用更少空間

3 總結

ES在處理海量資料時通過其獨到的結構和壓縮演算法,將索引效率盡可能的提升,雖然在實際業務處理中我們極少遇到海量資料處理的情況,但是通過了解ES的原理,能夠幫我們開闊下視野,了解數字之美,演算法之美,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551080.html

標籤:其他

上一篇:S3 物件重命名

下一篇:返回列表

標籤雲
其他(158014) Python(38099) JavaScript(25390) Java(17999) C(15217) 區塊鏈(8260) C#(7972) AI(7469) 爪哇(7425) MySQL(7140) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5328) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4559) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2430) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1960) Web開發(1951) HtmlCss(1923) python-3.x(1918) 弹簧靴(1913) C++(1911) xml(1889) PostgreSQL(1873) .NETCore(1855) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • ES的索引結構與演算法決議

    作為搜索引擎的一部分,ES自然具有速度快、結果準確、結果豐富等特點,那么ES是如何達到“搜索引擎”級別的查詢效率呢?首先是索引,其次是壓縮演算法,接下來我們就一起了解下ES的索引結構和壓縮演算法 ......

    uj5u.com 2023-04-25 08:14:34 more
  • S3 物件重命名

    本文所述操作適用于兼容 S3 協議的所有存盤框架,包括 AWS S3、Aliyun OSS、MinIO、Ceph 等。 不知為何,截止目前,S3 協議并不包含物件重命名的介面。如果有重命名物件的需求,一般能想到的就是重新上傳改名之后的物件,然后從存盤桶中將原名物件洗掉。很明顯,這種方式好比大炮打蚊子 ......

    uj5u.com 2023-04-25 08:14:29 more
  • 【Lua】VSCode 搭建 Lua 開發環境

    前言 最近在找作業,基本所有的崗位都會問到 Lua(甚至拼 UI 的都要求會 Lua),咱能怎么辦呢,咱也只能學啊…… 工欲善其事,必先利其器。第一步,先來把環境配置好吧! 當前適用版本: LuaBinaries 版本:5.4.2 VSCode 版本:1.77.3 文章最近更新日期:2023.04. ......

    uj5u.com 2023-04-25 08:13:58 more
  • UNITY_Z_0_FAR_FROM_CLIPSPACE的作用

    在一個開了深度霧,平面和天空盒由頭攝像機渲染,而材質球由正交相機渲染的場景下,調節正交相機的近裁剪面為負時,會出現材質球突變成霧的顏色的bug。 需要把URP原始碼中的 #define _FOG_FRAGMENT 1 注釋掉 一般來說,連續調節某個數值,變化也應當是連續的,而霧出現這種情況必然有哪個地 ......

    uj5u.com 2023-04-25 08:08:32 more
  • 第14屆藍橋杯C++B組省賽題解(A-J)(更新完畢)

    A. 日期統計 題目內容 小藍現在有一個長度為 $100$ 的陣列,陣列中的每個元素的值都在 $0$ 到 $9$ 的范圍之內。 陣列中的元素從左至右如下所示: 5 6 8 6 9 1 6 1 2 4 9 1 9 8 2 3 6 4 7 7 5 9 5 0 3 8 7 5 8 1 5 8 6 1 8 ......

    uj5u.com 2023-04-25 08:08:16 more
  • 李航統計學習概述

    監督學習 感知機 概念: 感知機模型的基本形式是: $f(x) = sign(w \cdot x + b)$ 其中,$x$ 是輸入樣本的特征向量,$w$ 是權值向量,$b$ 是偏置量,$w \cdot x$ 表示向量 $w$ 和 $x$ 的點積。$sign$ 函式表示符號函式,當輸入大于 0 時輸出 ......

    uj5u.com 2023-04-25 08:08:12 more
  • [Week 18] 每日一題(C++,動態規劃,線段樹,數學)

    [Daimayuan] T1 最長公共子序列(C++,DP,二分) 給出從 $1$ 到 $n$ 的兩個排列 $P_1$ 和 $P_2$,求它們的最長公共子序列。 輸入格式 第一行是一個正整數 $n$。 接下來兩行,每行為 $n$ 個數,為自然數 $1,2,…,n$ 的一個排列。 輸出格式 一個數,即 ......

    uj5u.com 2023-04-25 08:08:08 more
  • 資料結構之線性表

    Linear_list 型別定義 一個線性表是n個資料元素的有限序列,線性表中的元素個數n定義為線性表的長度,n=0時成為空表; 抽象資料型別: InitList(&L) //構造空線性表L DestroyList(&L) //銷毀線性表L ClearList(&L) //將L重置為空表 ListE ......

    uj5u.com 2023-04-25 08:08:03 more
  • 稀疏陣列

    引入 當在網頁上下棋類游戲時,玩到中途想要離開,但是我們需要保存進度,方便下次繼續 我們應該怎么實作 ? 以圍棋舉例 使用二維陣列將棋盤記下 ,如 0 為 沒有棋子 ,1 為 黑子 , 2為白子 但是沒有棋子的地方都為 0 ,整個二維陣列充斥著大量的無效資料 0 我們需要想一個辦法來 優化存盤的方式 ......

    uj5u.com 2023-04-25 08:08:00 more
  • STM32HAL庫常用指令速查手冊

    STM32HAL庫常用指令速查手冊 持續更新中 GPIO HAL_GPIO_Init void HAL_GPIO_Init(GPIO_TypeDef *GPIOx, GPIO_InitTypeDef *GPIO_Init); //功能: GPIO初始化 HAL_GPIO_DeInit void HA ......

    uj5u.com 2023-04-25 08:07:35 more