文章目錄

初識ElasticSearch
- 什么是ElasticSearch
- ElasticSearch特點
- ElasticSearch用途
- ElasticSearch底層實作
- ElasticSearch和Solr的區別
- - Solr是什么
  - 不同場景時兩個的對比
  - 總結
- ElasticSearch體系結構
- 倒排索引
- 什么是Term Dictionary
- 什么是Term Index
- 為什么 Elasticsearch/Lucene 檢索可以比 MySQL快
什么是ELK
安裝ElasticSearch
- 安裝ik分詞器
- 測驗ik分詞器
- IK分詞器的兩種分詞模式
- ik分詞器添加自定義詞庫
安裝ElasticSearch-head
安裝Kibana
REST風格說明
- 什么是REST風格
- 基本REST命令說明
- PUT命令
- - 創建型別
  - 插入資料
  - 更新資料
- POST命令
- - 更新資料（推薦使用）
- DELETE命令
- GET命令
- - 查詢資料（重點）
  - - 精確查詢
    - 查詢字串搜索
    - 查詢所有結果
    - 條件查詢
    - 布爾查詢
    - 按排序查詢
    - 分頁查詢
    - 指定查詢結果的欄位
    - 高亮查詢
  - 拓展

初識ElasticSearch

什么是ElasticSearch

Elasticsearch 是一個分布式的開源搜索和分析引擎，適用于所有型別的資料，包括文本、數字、地理空間、結構化和非結構化資料，它可以幫助你用前所未有的速度去處理大規模資料，ElasticSearch是一個基于Lucene的搜索服務器，它提供了一個分布式多用戶能力的全文搜索引擎，基于RESTful web介面，Elasticsearch是用Java開發的，并作為Apache許可條款下的開放原始碼發布，是當前流行的企業級搜索引擎，設計用于云計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便，

ElasticSearch特點

可以作為一個大型分布式集群（數百臺服務器）技術，處理PB級資料，服務大公司；也可以運行在單機上，服務小公司
對用戶而言，是開箱即用的，非常簡單，作為中小型的應用，直接3分鐘部署一下ES
Elasticsearch作為傳統資料庫的一個補充,比如全文檢索，同義詞處理，相關度排名，復雜資料分析，海量資料的近實時處理
Elasticsearch不是什么新技術，主要是將全文檢索、資料分析以及分布式技術，合并在了一起，才形成了獨一無二的ES；lucene（全文檢索），商用的資料分析軟體（也是有的），分布式資料庫（mycat）

ElasticSearch用途

Elasticsearch 在速度和可擴展性方面都表現出色，而且還能夠索引多種型別的內容，這意味著其可用于多種用例：

應用程式搜索
網站搜索
企業搜索
日志處理和分析
基礎設施指標和容器監測
應用程式性能監測
地理空間資料分析和可視化
安全分析
業務分析

維基百科使用Elasticsearch提供全文搜索并高亮關鍵字，以及輸入實時搜索(search-asyou-type)和搜索糾錯(did-you-mean)等搜索建議功能，

英國衛報使用Elasticsearch結合用戶日志和社交網路資料提供給他們的編輯以實時的反饋，以便及時了解公眾對新發表的文章的回應，

Github使用Elasticsearch檢索1300億行的代碼，

ElasticSearch底層實作

ElasticSearch是基于對 Lucene 進行封裝，將搜索引擎的操作封裝成了RESTful API,通過http請求就可以呼叫，目的是為了隱藏Lucene的復雜性，從而讓全文搜索變得簡單，

ElasticSearch和Solr的區別

Solr是什么

Solr 是Apache下的一個頂級開源專案，采用Java開發，它是基于Lucene的全文搜索服務器，Solr提供了比Lucene更為豐富的查詢語言，同時實作了可配置、可擴展，并對索引、搜索性能進行了優化，

Solr可以獨立運行，運行在Jetty、Tomcat等這些Servlet容器中，Solr 索引的實作方法很簡單，用 POST 方法向 Solr 服務器發送一個描述 Field 及其內容的 XML 檔案，Solr根據xml檔案添加、洗掉、更新索引，Solr 搜索只需要發送 HTTP GET 請求，然后對 Solr 回傳Xml、json等格式的查詢結果進行決議，組織頁面布局，Solr不提供構建UI的功能，Solr提供了一個管理界面，通過管理界面可以查詢Solr的配置和運行情況，

Solr是基于lucene開發企業級搜索服務器，實際上就是封裝了lucene，

Solr是一個獨立的企業級搜索應用服務器，它對外提供類似于Web-service的API介面，用戶可以通過http請求，向搜索引擎服務器提交一定格式的檔案，生成索引；也可以通過提出查找請求，并得到回傳結果，

不同場景時兩個的對比

在這里插入圖片描述

總結

（1）es基本是開箱即用，非常簡單，Solr安裝略微復雜一點，

（2）Solr 利用 Zookeeper 進行分布式管理，而 Elasticsearch 自身帶有分布式協調管理功能，

（3）Solr 支持更多格式的資料，比如JSON、XML、CSV，而 Elasticsearch 僅支持json檔案格式，

（4）Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高級功能多有第三方插件提供，例如圖形化界面需要kibana支撐

（5）Solr 查詢快，但更新索引時慢（即插入洗掉慢），用于電商等查詢多的應用；ES建立索引快（即查詢慢），即實時性查詢快，用于FaceBook、百度等搜索，Solr 是傳統搜索應用的有力解決方案，但 Elasticsearch 更適用于新興的實時搜索應用，

（6）Solr比較成熟，有一個更大，更成熟的用戶、開發和貢獻者社區，而 Elasticsearch相對開發維護者較少，更新太快，學習使用成本較高，

ElasticSearch體系結構

初學者建議將 ElasticSearch當為一個資料庫進行學習，

下圖是Elasticsearch與關系型資料庫邏輯結構概念的對比：
在這里插入圖片描述

倒排索引

倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引，通俗地來講，正向索引是通過key找value，反向索引則是通過value找key，

正向索引：
MYSQL資料庫所用的索引就是正向索引，適合根據檔案中的ID來查詢對應的內容，但是在查詢一個keyword在哪些檔案里包含的時候需對所有的檔案進行掃描以確保沒有遺漏，這樣就使得檢索時間大大延長，檢索效率低下，

正向索引構建的結果如下圖：
在這里插入圖片描述

倒排索引：
與正序索引相反，在搜索引擎中每個檔案都對應一個檔案ID，檔案內容被表示為一系列關鍵詞的集合，記錄每個關鍵字在檔案中出現的頻率和出現的位置，

按照上面的檔案內容構建的倒排索引結果會如下圖：
在這里插入圖片描述

如果我們要通過倒排索引查找‘Male’這個關鍵詞在哪些檔案中出現過，首先我們通過倒排索引可以查詢到該關鍵詞出現的檔案位置是在2和3中;然后再通過正排索引查詢到檔案2和3的內容并回傳結果，

什么是Term Dictionary

Elasticsearch為了能快速找到某個Term，將所有的Term排個序，二分法查找Term，這就是Term Dictionary，

什么是Term Index

如果Term太多，Term Dictionary也會很大，全部放在記憶體不現實，只能部分存盤到磁盤上，這是又出現了新的問題，磁盤尋道次數太多也會嚴重影響查找效率，為了減少磁盤尋道次數來提高查詢性能，于是有了Term Index，就像字典里的索引頁一樣，A開頭的有哪些Term，分別在哪頁，可以理解Term Index是一顆樹：
在這里插入圖片描述
Term Index不需要存下所有的Term，而僅僅是它們的一些前綴與Term Dictionary的Block之間的映射關系，再結合相關的壓縮技術，可以使Term Index快取到記憶體中，從Term Index查到對應的Term Dictionary的Block位置之后，再去磁盤上找Term，大大減少了磁盤隨機讀的次數，

為什么 Elasticsearch/Lucene 檢索可以比 MySQL快

MySQL 只有 Term Dictionary 這一層，是以 B+Tree 排序的方式存盤在磁盤上的，檢索一個 Term 需要若干次的 Random Access 的磁盤操作，

Lucene 在 Term Dictionary 的基礎上添加了 Term Index 來加速檢索，Term Index 以樹的形式快取在記憶體中，從 Term Index 查到對應的 Term Dictionary 的 Block 位置之后，再去磁盤上找 Term，大大減少了磁盤的 Random Access 次數，
在這里插入圖片描述

值得一提的兩點是：
Term Index 在記憶體中是以 FST（finite state transducers）的形式保存的，其特點是非常節省記憶體，

Term Dictionary 在磁盤上是以分 Block 的方式保存的，一個 Block 內部利用公共前綴壓縮，比如都是 Ab 開頭的單詞就可以把 Ab 省去，這樣 Term Dictionary 可以比 B-Tree 更節約磁盤空間，

什么是ELK

ELK 是elastic公司提供的一套完整的日志收集以及展示的解決方案，分別表示：ElasticSearch , Logstash, Kibana，

ElasticSearch是個開源分布式搜索引擎，提供搜集、分析、存盤資料三大功能，它的特點有：分布式，零配置，自動發現，索引自動分片，索引副本機制，restful風格介面，多資料源，自動搜索負載等，

Logstash 主要是用來日志的搜集、分析、過濾日志的工具，支持大量的資料獲取方式，一般作業方式為c/s架構，client端安裝在需要收集日志的主機上，server端負責將收到的各節點日志進行過濾、修改等操作在一并發往elasticsearch上去，

Kibana 也是一個開源和免費的工具，Kibana可以為 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以幫助匯總、分析和搜索重要資料日志，
在這里插入圖片描述

安裝ElasticSearch

由于官網下載較慢，下方鏈接為華為云的鏡像，

ElasticSearch：
https://mirrors.huaweicloud.com/elasticsearch/?C=N&O=D

選好自己的版本，下載壓縮包，
在這里插入圖片描述
我選擇的是7.6.2的Windows版本，需要清晰知道自己下載的版本，后面下載kibana等都必須版本一致，

下載完成后解壓，
在這里插入圖片描述
重點關注一下config檔案夾中的 jvm.options

很多同學一啟動馬上閃退，就是因為這里的記憶體設定過大，按照自己電腦配置進行設定，1g閃退就設定512M，以此類推，

接著我們打開bin目錄中的elasticsearch.bat
在這里插入圖片描述

出現下面圖片，在瀏覽器輸入紅框地址，
在這里插入圖片描述
出現下方 json格式則安裝成功

安裝ik分詞器

打開下方網址，找到和自己elasticsearch一樣版本的下載，
https://github.com/medcl/elasticsearch-analysis-ik/releases

下載完成后，將其解壓到elasticsearch檔案夾中的plugins，由于ik分詞器是elasticsearch的一個插件，elasticsearch的插件都是放在plugins中的，
在這里插入圖片描述

重啟elasticsearch，觀察其啟動界面的命令列是否出現下圖

出現了即安裝ik插件成功，

測驗ik分詞器

在這里插入圖片描述
安裝成功后我們打開Kibana可以嘗試一下ik分詞器如何使用，

在這里插入圖片描述

IK分詞器的兩種分詞模式

IK分詞器有兩種分詞模式：ik_max_word和ik_smart模式，

ik_max_word
會將文本做最細粒度的拆分，比如會將“中華人民共和國人民大會堂”拆分為“中華人民共和國、中華人民、中華、華人、人民共和國、人民、共和國、大會堂、大會、會堂等詞語，
ik_smart
會做最粗粒度的拆分，比如會將“中華人民共和國人民大會堂”拆分為中華人民共和國、人民大會堂，

點擊小三角形對該陰影區域的json的text進行分詞

ik_smart
在這里插入圖片描述
ik_max_word

在這里插入圖片描述

{
  "tokens" : [
    {
      "token" : "中華人民共和國",
      "start_offset" : 0,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "中華人民",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "中華",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "華人",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "人民共和國",
      "start_offset" : 2,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "共和國",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "共和",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "國人",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 8
    },
    {
      "token" : "人民大會堂",
      "start_offset" : 7,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 9
    },
    {
      "token" : "人民大會",
      "start_offset" : 7,
      "end_offset" : 11,
      "type" : "CN_WORD",
      "position" : 10
    },
    {
      "token" : "人民",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 11
    },
    {
      "token" : "大會堂",
      "start_offset" : 9,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 12
    },
    {
      "token" : "大會",
      "start_offset" : 9,
      "end_offset" : 11,
      "type" : "CN_WORD",
      "position" : 13
    },
    {
      "token" : "會堂",
      "start_offset" : 10,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 14
    }
  ]
}

ik分詞器添加自定義詞庫

當有一些自造詞需要ik分詞器進行分詞時，可以打開在ik分詞器的解壓檔案夾中的config
在這里插入圖片描述
新建一個檔案將自造詞放進去即可，記得要把檔案后綴改為dic,編碼為UTF-8

在這里插入圖片描述

保存后，打開IKAnalyzer.cfg.xml
在這里插入圖片描述

將自己詞典的檔案名填寫進去，保存，添加成功，重啟es，

安裝ElasticSearch-head

elasticsearch-head將是一款專門針對于elasticsearch的客戶端工具，包括資料可視化，增刪改查工具，es陳述句的可視化等等，

下載地址：
https://github.com/mobz/elasticsearch-head

和elasticsearch安裝一樣，將解壓包解壓，進入elasticsearch-head的檔案夾
在這里插入圖片描述

進入解壓路徑的命令列
在這里插入圖片描述
執行 npm install

執行 npm run start
在這里插入圖片描述
在瀏覽器訪問http://localhost:9100，可看到如下界面，表示啟動成功：

安裝Kibana

依舊是華為云的鏡像

Kibana
https://mirrors.huaweicloud.com/kibana/?C=N&O=D

選擇和你的ElasticSearch一樣的版本下載，和es一樣解壓即可用，
在這里插入圖片描述
由于Kibana默認是英文，我們需要進入config檔案夾中的kibana.yml

在末尾加入i18n.locale: "zh-CN"，更改保存，讓國際化變成中文，

接著進入bin目錄打開kibana.bat，出現下方界面，

在瀏覽器打開http://localhost:5601，進入下方頁面即安裝成功，
在這里插入圖片描述

在這里插入圖片描述

REST風格說明

什么是REST風格

REST是一種軟體架構風格，或者說是一種規范，其強調HTTP應當以資源為中心，并且規范了URI的風格；規范了HTTP請求動作（GET/PUT/POST/DELETE/HEAD/OPTIONS）的使用，具有對應的語意，

基本REST命令說明

在這里插入圖片描述

PUT命令

創建一個demo索引的 type型別下保存1號資料為 “name”: “小黃”, “age”:21

PUT demo/type/1
{
    "name": "小黃",
    "age":21
}

創建成功
在這里插入圖片描述
對照著和關系型資料庫的聯系理解

創建型別

不填寫時，默認為_.doc型別，在未來8.多的版本具體型別可能會被拋棄，

指定某個欄位使用指定型別，常見型別有下圖：
在這里插入圖片描述
我們在下方創建了一個test2的索引里面的欄位和對應的型別

插入資料

這里在demo索引下的插入了4個記錄

PUT demo/type/1
{
    "name": "小黃1.0",
    "age":21
}

PUT demo/type/2
{
    "name": "小黃2.0",
    "age":21
}

PUT demo/type/3
{
    "name": "小黃3.0",
    "age":21
}

PUT demo/type/4
{
    "name": "小黃4.0",
    "age":21
}

在這里插入圖片描述

更新資料

假設我需要更新name為小黃2.0，直接在對應的欄位更改成對應資料即可，需要將不修改欄位的資料也寫上去，否則將會被空白覆寫，

PUT demo/type/1 # 更新id為1的資料
{
    "name": "小黃2.0",
    "age":21 #即使21不用修改還是需要寫
}

在這里插入圖片描述
修改后 _version增加

POST命令

POST可以不帶ID發送，ES會自動生成一個ID，如果再次請求也會再次新增一個ID

POST demo/type
{
    "name": "小黃",
    "age":21
}

在這里插入圖片描述
可以看到自動生成一個ID為 5IF1dncBdbJa8wg0om_V

更新資料（推薦使用）

POST一樣可以更新資料，只需要在最后加上需要修改的ID號和/_update，加上 “doc”:{｝包圍需要修改的資料欄位即可，不需要將不修改的資料寫上去，

POST demo/type/1/_update
{
  "doc":{
     "name": "小黃3.0"
  }
}

在這里插入圖片描述

DELETE命令

DELETE demo #洗掉demo索引

DELETE demo/type/1  #洗掉demo索引下的1號檔案

根據請求判斷洗掉索引還是檔案記錄

GET命令

查詢資料（重點）

GET demo  #獲取索引資訊

在這里插入圖片描述

GET demo/type/1 #獲取demo索引的 type型別下保存1號資料

在這里插入圖片描述

_index：表示在哪個索引下

_type：型別

_id：添加時的id

_version：版本號

_seq_no：并發控制欄位，序列號，每次更新+1 （樂觀鎖操作使用）

_primary_term：分片，作用同上，重啟會變化

_source：真正的內容

精確查詢

term查詢是直接通過倒排索引指定的詞條進行精確查找的

GET demo/type/_search
{
    "query": {
        "term": {
            "age": "21"
        }
    }
}

而match會使用分詞器決議（先分析檔案，在通過分析的檔案進行查詢）

keyword型別資料不能被分詞器決議
在這里插入圖片描述
而其他型別可以被分詞器決議

查詢字串搜索

將具有"黃"的資料全部搜索出來

GET demo/type/_search?q=name:黃

#! Deprecation: [types removal] Specifying types in search requests is deprecated.
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 4,
      "relation" : "eq"
    },
    "max_score" : 0.10536051,
    "hits" : [
      {
        "_index" : "demo",
        "_type" : "type",
        "_id" : "1",
        "_score" : 0.10536051,
        "_source" : {
          "name" : "小黃1.0",
          "age" : 21
        }
      },
      {
        "_index" : "demo",
        "_type" : "type",
        "_id" : "2",
        "_score" : 0.10536051,
        "_source" : {
          "name" : "小黃2.0",
          "age" : 21
        }
      },
      {
        "_index" : "demo",
        "_type" : "type",
        "_id" : "3",
        "_score" : 0.10536051,
        "_source" : {
          "name" : "小黃3.0",
          "age" : 21
        }
      },
      {
        "_index" : "demo",
        "_type" : "type",
        "_id" : "4",
        "_score" : 0.10536051,
        "_source" : {
          "name" : "小黃4.0",
          "age" : 21
        }
      }
    ]
  }
}

hits：顯示索引和檔案資訊，查詢總結果數，權重，具體檔案，資料中的東西都可以遍歷出來

_score：表示權重，越高表示該資料和搜索欄位越匹配，由于我上面的資料格式一樣，都只具有一個"黃"所以權重一樣，都是0.10536051，

查詢所有結果

GET demo/type/_search
{
    "query":{"match_all":{}}
}

條件查詢

GET demo/type/_search
{
  "query":{
    "match":{
      "name":"黃"
    }
  }
}

布爾查詢

使用 "bool":{} 宣告使用布爾查詢

must等同于MySQL中的 and

GET demo/type/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "huang"
          }
        },
         {
          "match": {
            "age": 21
          }
        }
      ]
    }
  }
}

should等同于MySQL中的 or

filter條件過濾查詢，過濾條件的范圍用range表示gt表示大于、lt表示小于、gte表示大于等于、lte表示小于等于)

GET demo/type/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "黃"
          }
        }
      ],
      "filter": {
        "range": {
          "age": {
            "gte": 10,
            "lt": 27
          }
        }
      }
    }
  }
}

按排序查詢

GET demo/type/_search
{
    "query":{
          "match":{
                    "name":"黃"
          }
    },
    "sort":[
        {
             "age":"desc" #降序
       }
   ]
}

分頁查詢

GET demo/type/_search
{
    "query":{"match_all":{}},
    "from":0,
    "size":2  #從零開始查詢所有記錄，每頁只顯示2條記錄
}

指定查詢結果的欄位

GET demo/type/_search
{
    "query":{"match_all":{}},
    "_source":["name","age"]
}

高亮查詢

搜索出name為小黃1.0的資料，并將其name欄位高亮顯示

GET demo/type/_search
{ 
    "query":{
          "match_phrase":{
                  "name":"小黃1.0"
            }              
    } ,
   "highlight":{
              "fields":{
                    "name":{}
               }
   }
}

在這里插入圖片描述
自定義搜索高亮欄位格式前后綴

在這里插入圖片描述

拓展

GET  _cat/nodes #查看所有節點

在這里插入圖片描述

GET  _cat/health #查看es健康狀況

在這里插入圖片描述

GET  _cat/master #查看主節點

在這里插入圖片描述

GET  _cat/indices #查看所有索引 == MySQL中的show databases

在這里插入圖片描述

參考：
https://www.bilibili.com/video/BV17a4y1x7zq
http://www.mybatis.cn/archives/1112.html
https://www.jianshu.com/p/c96576fcbcd9

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/257429.html

標籤：其他

上一篇：Soul網關（十九）總結02

下一篇：Spring boot集成Mybatis與Swagger生產標準規范的API介面

ElasticSearch學習筆記

文章目錄

初識ElasticSearch

什么是ElasticSearch

ElasticSearch特點

ElasticSearch用途

ElasticSearch底層實作

ElasticSearch和Solr的區別

Solr是什么

不同場景時兩個的對比

總結

ElasticSearch體系結構

倒排索引

什么是Term Dictionary

什么是Term Index

為什么 Elasticsearch/Lucene 檢索可以比 MySQL快

什么是ELK

安裝ElasticSearch

安裝ik分詞器

測驗ik分詞器

IK分詞器的兩種分詞模式

ik分詞器添加自定義詞庫

安裝ElasticSearch-head

安裝Kibana

REST風格說明

什么是REST風格

基本REST命令說明

PUT命令

創建型別

插入資料

更新資料

POST命令

更新資料（推薦使用）

DELETE命令

GET命令

查詢資料（重點）

精確查詢

查詢字串搜索

查詢所有結果

條件查詢

布爾查詢

按排序查詢

分頁查詢

指定查詢結果的欄位

高亮查詢

拓展