ElasticSearch7.6入門-有解無憂

筆記記錄 B站狂神說Java的ElasticSearch課程：https://www.bilibili.com/video/BV17a4y1x7zq

一、ElasticSearch概述

官網：https://www.elastic.co/cn/downloads/elasticsearch

Elaticsearch，簡稱為es，es是一個開源的高擴展的分布式全文檢索引擎，它可以近乎實時的存盤、檢索資料;本身擴展性很好，可以擴展到上百臺服務器，處理PB級別(大資料時代）的資料，es也使用java開發并使用Lucene作為其核心來實作所有索引和搜索的功能，但是它的目的是通過簡單的RESTful API來隱藏Lucene的復雜性，從而讓全文搜索變得簡單，

據國際權威的資料庫產品評測機構DB Engines的統計，在2016年1月，ElasticSearch已超過Solr等，成為排名第一的搜索引擎類應用，

誰在使用：

1、維基百科,類似百度百科，全文檢索,高亮,搜索推薦/2
2、The Guardian (國外新聞網站) ,類似搜狐新聞,用戶行為日志(點擊,瀏覽,收藏,評論) +社交網路資料(對某某新聞的相關看法) ,資料分析,給到每篇新聞文章的作者,讓他知道他的文章的公眾反饋(好,壞,熱門，垃圾,鄙視，崇拜)
3、Stack Overflow (國外的程式例外討論論壇) , IT問題,程式的報錯,提交上去,有人會跟你討論和回答,全文檢索,搜索相關問題和答案,程式報錯了,就會將報錯資訊粘貼到里面去,搜索有沒有對應的答案
4、GitHub (開源代碼管理),搜索上千億行代碼
5、電商網站,檢索商品
6、日志資料分析, logstash采集日志, ES進行復雜的資料分析, ELK技術, elasticsearch+logstash+kibana
7、商品價格監控網站,用戶設定某商品的價格閾值,當低于該閾值的時候,發送通知訊息給用戶,比如說訂閱牙膏的監控,如果高露潔牙膏的家庭套裝低于50塊錢,就通知我,我就去買
8、BI系統,商業智能, Business Intelligence，比如說有個大型商場集團，BI ,分析一下某某區域最近3年的用戶消費金額的趨勢以及用戶群體的組成構成,產出相關的數張報表, **區,最近3年,每年消費金額呈現100%的增長,而且用戶群體85%是高級白領，開-個新商場，ES執行資料分析和挖掘, Kibana進行資料可視化
9、國內:站內搜索(電商,招聘,門戶,等等),IT系統搜索(OA,CRM,ERP,等等),資料分析(ES熱門
的一一個使用場景)

ES和Solr

ElasticSearch簡介

Elasticsearch是一個實時分布式搜索和分析引擎，它讓你以前所未有的速度處理大資料成為可能，
它用于全文搜索、結構化搜索、分析以及將這三者混合使用:
維基百科使用Elasticsearch提供全文搜索并高亮關鍵字,以及輸入實時搜索(search-asyou-type)和搜索糾錯(did-you-mean)等搜索建議功能，
英國衛報使用Elasticsearch結合用戶日志和社交網路資料提供給他們的編輯以實時的反饋,以便及時了解公眾對新發表的文章的回應，
StackOverflow結合全文搜索與地理位置查詢,以及more-like-this功能來找到相關的問題和答案，
Github使用Elasticsearch檢索1300億行的代碼，
但是Elasticsearch不僅用于大型企業，它還讓像DataDog以及Klout這樣的創業公司將最初的想法變成可擴展的解決方案，
Elasticsearch可以在你的筆記本上運行,也可以在數以百計的服務器上處理PB級別的資料，
Elasticsearch是一個基于Apache Lucene(TM)的開源搜索引擎，無論在開源還是專有領域, Lucene可被認為是迄今為止最先進、性能最好的、功能最全的搜索引擎庫，
- 但是, Lucene只是一個庫，想要使用它,你必須使用Java來作為開發語言并將其直接集成到你的應用中,更糟糕的是, Lucene非常復雜,你需要深入了解檢索的相關知識來理解它是如何作業的，
Elasticsearch也使用Java開發并使用Lucene作為其核心來實作所有索引和搜索的功能,但是它的目的是通過簡單的RESTful API來隱藏Lucene的復雜性,從而讓全文搜索變得簡單，

Solr簡介

Solr是Apache下的一個頂級開源專案,采用Java開發,它是基于Lucene的全文搜索服務器，Solr提供了比Lucene更為豐富的查詢語言,同時實作了可配置、可擴展，并對索引、搜索性能進行了優化
Solr可以獨立運行,運行在letty. Tomcat等這些Selrvlet容器中 , Solr 索引的實作方法很簡單,用POST方法向Solr服務器發送一個描述Field及其內容的XML檔案, Solr根據xml檔案添加、洗掉、更新索引，Solr 搜索只需要發送HTTP GET請求,然后對Solr回傳xml、json等格式的查詢結果進行決議,組織頁面布局，
Solr不提供構建UI的功能, Solr提供了一個管理界面,通過管理界面可以查詢Solr的配置和運行情況，
Solr是基于lucene開發企業級搜索服務器,實際上就是封裝了lucene.
Solr是一個獨立的企業級搜索應用服務器,它對外提供類似于Web-service的API介面，用戶可以通過http請求,向搜索引擎服務器提交-定格式的檔案,生成索引;也可以通過提出查找請求,并得到回傳結果，

ElasticSearch與Solr比較

當單純的對已有資料進行搜索時，Solr更快

當實時建立索引時，Solr會產生io阻塞，查詢性能較差，ElasticSearch具有明顯的優勢

隨著資料量的增加，Solr的搜索效率會變得更低，而ElasticSearch卻沒有明顯的變化

轉變我們的搜索基礎設施后從Solr ElasticSearch，我們看見一個即時~ 50x提高搜索性能！

總結

1、es基本是開箱即用(解壓就可以用!) ,非常簡單，Solr安裝略微復雜一丟丟!
2、Solr 利用Zookeeper進行分布式管理,而Elasticsearch自身帶有分布式協調管理功能，
3、Solr 支持更多格式的資料,比如JSON、XML、 CSV ,而Elasticsearch僅支持json檔案格式，
4、Solr 官方提供的功能更多,而Elasticsearch本身更注重于核心功能，高級功能多有第三方插件提供，例如圖形化界面需要kibana友好支撐
5、Solr 查詢快,但更新索引時慢(即插入洗掉慢) ，用于電商等查詢多的應用;

ES建立索引快(即查詢慢) ，即實時性查詢快，用于facebook新浪等搜索，
Solr是傳統搜索應用的有力解決方案，但Elasticsearch更適用于新興的實時搜索應用，

6、Solr比較成熟，有一個更大，更成熟的用戶、開發和貢獻者社區，而Elasticsearch相對開發維護者較少,更新太快,學習使用成本較高，

二、ElasticSearch安裝

JDK8，最低要求

使用Java開發，必須保證ElasticSearch的版本與Java的核心jar包版本對應！（Java環境保證沒錯）

這里在windows上進行安裝

Windows下安裝

ElasticSearch安裝

下載地址：https://www.elastic.co/cn/downloads/

歷史版本下載：https://www.elastic.co/cn/downloads/past-releases/

解壓即可（盡量將ElasticSearch相關工具放在統一目錄下）

bin 啟動檔案目錄
config 組態檔目錄
    1og4j2 日志組態檔
    jvm.options java 虛擬機相關的配置(默認啟動占1g記憶體，內容不夠需要自己調整)
    elasticsearch.ym1 elasticsearch 的組態檔! 默認9200埠!跨域!
1ib 
    相關jar包
modules 功能模塊目錄
plugins 插件目錄
    ik分詞器

啟動ElasticSearch

一定要檢查自己的java環境是否配置好

安裝可視化界面

elasticsearch-head

使用前提：需要安裝nodejs

elasticsearch-head下載地址

https://github.com/mobz/elasticsearch-head

2、安裝

解壓即可（盡量將ElasticSearch相關工具放在統一目錄下）

3、啟動elasticsearch-head

cd elasticsearch-head# 安裝依賴npm install# 啟動npm run start# 訪問http://localhost:9100/

安裝依賴

運行

訪問

存在跨域問題（只有當兩個頁面同源，才能互動）

同源（埠，主機，協議三者都相同）

https://blog.csdn.net/qq_38128179/article/details/84956552

開啟跨域（在elasticsearch解壓目錄config下elasticsearch.yml中添加）

# 開啟跨域
http.cors.enabled: true
# 所有人訪問
http.cors.allow-origin: "*"

重啟elasticsearch

再次連接

如何理解上圖：

如果你是初學者
- 索引可以看做 “資料庫”
- 型別可以看做 “表”
- 檔案可以看做 “庫中的資料（表中的行）”
這個head，我們只是把它

當做可視化資料展示工具

，之后

所有的查詢都在kibana中進行
- 因為不支持json格式化，不方便

安裝kibana

Kibana是一個針對ElasticSearch的開源分析及可視化平臺,用來搜索、查看互動存盤在Elasticsearch索引中的資料，使用Kibana ,可以通過各種圖表進行高級資料分析及展示，Kibana讓海量資料更容易理解，它操作簡單,基于瀏覽器的用戶界面可以快速創建儀表板( dashboard )實時顯示Elasticsearch查詢動態，設定Kibana非常簡單，無需編碼或者額外的基礎架構,幾分鐘內就可以完成Kibana安裝并啟動Elasticsearch索引監測，

kibana下載地址:

下載的版本需要與ElasticSearch版本對應

https://www.elastic.co/cn/downloads/

歷史版本下載：https://www.elastic.co/cn/downloads/past-releases/

2、安裝

解壓即可（盡量將ElasticSearch相關工具放在統一目錄下）

3、啟動

訪問

localhost:5601

4、開發工具

（Postman、curl、head、谷歌瀏覽器插件）

可以使用 Kibana進行測驗

如果說，你在英文方面不太擅長，kibana是支持漢化的

5、kibana漢化

編輯器打開kibana解壓目錄/config/kibana.yml，添加

i18n.locale: "zh-CN"

重啟kibana

漢化成功

了解ELK

ELK是

Elasticsearch、Logstash、 Kibana三大開源框架首字母大寫簡稱

，市面上也被成為Elastic Stack，
- 其中Elasticsearch是一個基于Lucene、分布式、通過Restful方式進行互動的近實時搜索平臺框架，
  - 像類似百度、谷歌這種大資料全文搜索引擎的場景都可以使用Elasticsearch作為底層支持框架，可見Elasticsearch提供的搜索能力確實強大,市面上很多時候我們簡稱Elasticsearch為es，
- Logstash是ELK的中央資料流引擎,用于從不同目標(檔案/資料存盤/MQ )收集的不同格式資料,經過過濾后支持輸出到不同目的地(檔案/MQ/redis/elasticsearch/kafka等)，
- Kibana可以將elasticsearch的資料通過友好的頁面展示出來 ,提供實時分析的功能，
市面上很多開發只要提到ELK能夠一致說出它是一個日志分析架構技術堆疊總稱 ,但實際上ELK不僅僅適用于日志分析,它還可以支持其它任何資料分析和收集的場景,日志分析和收集只是更具有代表性，并非唯一性，

收集清洗資料(Logstash) ==> 搜索、存盤(ElasticSearch) ==> 展示(Kibana)

三、ElasticSearch核心概念

概述

1、索引（ElasticSearch）

包多個分片

2、欄位型別（映射）

欄位型別映射（欄位是整型，還是字符型…）

3、檔案

4、分片（Lucene索引，倒排索引）

ElasticSearch是面向檔案，關系行資料庫和ElasticSearch客觀對比！一切都是JSON！

Relational DB	ElasticSearch
資料庫（database）	索引（indices）
表（tables）	types <慢慢會被棄用!>
行（rows）	documents
欄位（columns）	fields

elasticsearch（集群）中可以包含多個索引（資料庫） ,每個索引中可以包含多個型別（表） ,每個型別下又包含多個檔案（行） ,每個檔案中又包含多個欄位（列），

物理設計:

elasticsearch在后臺把每個索引劃分成多個分片，每分分片可以在集群中的不同服務器間遷移

一個人就是一個集群! ，即啟動的ElasticSearch服務，默認就是一個集群，且默認集群名為elasticsearch

邏輯設計:

一個索引型別中，包含多個檔案，比如說檔案1，檔案2，當我們索引一篇檔案時，可以通過這樣的順序找到它：索引 => 型別 => 檔案ID ，通過這個組合我們就能索引到某個具體的檔案，注意：ID不必是整數，實際上它是個字串，

檔案（”行“）

之前說elasticsearch是面向檔案的，那么就意味著索引和搜索資料的最小單位是檔案，elasticsearch中，檔案有幾個重要屬性:

自我包含，一篇檔案同時包含欄位和對應的值，也就是同時包含key:value !
可以是層次型的，一個檔案中包含自檔案，復雜的邏輯物體就是這么來的! {就是一個json物件 ! fastjson進行自動轉換 !}
靈活的結構，檔案不依賴預先定義的模式，我們知道關系型資料庫中，要提前定義欄位才能使用，在elasticsearch中，對于欄位是非常靈活的，有時候,我們可以忽略該欄位，或者動態的添加一個新的欄位，

盡管我們可以隨意的新增或者忽略某個欄位，但是，每個欄位的型別非常重要，比如一個年齡欄位型別，可以是字串也可以是整形，因為elasticsearch會保存欄位和型別之間的映射及其他的設定，這種映射具體到每個映射的每種型別，這也是為什么在elasticsearch中，型別有時候也稱為映射型別，

型別（“表”）

型別是檔案的邏輯容器，就像關系型資料庫一樣，表格是行的容器，型別中對于欄位的定義稱為映射，比如name映射為字串型別，我們說檔案是無模式的，它們不需要擁有映射中所定義的所有欄位，比如新增一個欄位，那么elasticsearch是怎么做的呢?

elasticsearch會自動的將新欄位加入映射，但是這個欄位的不確定它是什么型別，elasticsearch就開始猜，如果這個值是18，那么elasticsearch會認為它是整形，但是elasticsearch也可能猜不對，所以最安全的方式就是提前定義好所需要的映射，這點跟關系型資料庫殊途同歸了，先定義好欄位，然后再使用，別整什么幺蛾子，

索引（“庫”）

索引是映射型別的容器， elasticsearch中的索引是一個非常大的檔案集合，索引存盤了映射型別的欄位和其他設定，然后它們被存盤到了各個分片上了，我們來研究下分片是如何作業的，

物理設計：節點和分片如何作業

創建新索引

一個集群至少有一個節點，而一個節點就是一個elasricsearch行程，節點可以有多個索引默認的，如果你創建索引，那么索引將會有個5個分片(primary shard ,又稱主分片)構成的，每一個主分片會有一個副本(replica shard，又稱復制分片)

上圖是一個有3個節點的集群，可以看到主分片和對應的復制分片都不會在同一個節點內，這樣有利于某個節點掛掉了，資料也不至于失，實際上，一個分片是一個Lucene索引（一個ElasticSearch索引包含多個Lucene索引） ，一個包含倒排索引的檔案目錄，倒排索引的結構使得elasticsearch在不掃描全部檔案的情況下，就能告訴你哪些檔案包含特定的關鍵字，不過，等等，倒排索引是什么鬼?

倒排索引（Lucene索引底層）

簡單說就是按（文章關鍵字，對應的檔案<0個或多個>）形式建立索引，根據關鍵字就可直接查詢對應的檔案（含關鍵字的），無需查詢每一個檔案，如下圖

四、IK分詞器(elasticsearch插件)

IK分詞器：中文分詞器

分詞：即把一段中文或者別的劃分成一個個的關鍵字，我們在搜索時候會把自己的資訊進行分詞，會把資料庫中或者索引庫中的資料進行分詞，然后進行一一個匹配操作，默認的中文分詞是將每個字看成一個詞（不使用用IK分詞器的情況下），比如“我愛狂神”會被分為”我”，”愛”，”狂”，”神” ，這顯然是不符合要求的，所以我們需要安裝中文分詞器ik來解決這個問題，

IK提供了兩個分詞演算法: ik_smart和ik_max_word ,其中ik_smart為最少切分, ik_max_word為最細粒度劃分!

1、下載

版本要與ElasticSearch版本對應

下載地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

2、安裝

ik檔案夾是自己創建的

加壓即可（但是我們需要解壓到ElasticSearch的plugins目錄ik檔案夾下）

3、重啟ElasticSearch

加載了IK分詞器

4、使用 `ElasticSearch安裝補錄/bin/elasticsearch-plugin` 可以查看插件

E:\ElasticSearch\elasticsearch-7.6.1\bin>elasticsearch-plugin list

5、使用kibana測驗

ik_smart：最少切分

ik_max_word：最細粒度劃分（窮盡詞庫的可能）

從上面看，感覺分詞都比較正常，但是大多數，分詞都滿足不了我們的想法，如下例

那么，我們需要手動將該詞添加到分詞器的詞典當中

6、添加自定義的詞添加到擴展字典中

elasticsearch目錄/plugins/ik/config/IKAnalyzer.cfg.xml

打開 IKAnalyzer.cfg.xml 檔案，擴展字典

創建字典檔案，添加字典內容

重啟ElasticSearch，再次使用kibana測驗

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/502443.html

標籤：其他

上一篇：Apache+負載均衡+會話保持（解決csrftoken報錯問題，forbidden 403問題）

下一篇：輕量容器引擎Docker安裝及其架構

ElasticSearch7.6入門

一、ElasticSearch概述

ES和Solr

ElasticSearch簡介

Solr簡介

ElasticSearch與Solr比較

總結

二、ElasticSearch安裝

Windows下安裝

ElasticSearch安裝

啟動ElasticSearch

安裝可視化界面

elasticsearch-head下載地址

2、安裝

3、啟動elasticsearch-head

安裝kibana

kibana下載地址:

2、安裝

3、啟動

4、開發工具

5、kibana漢化

了解ELK

三、ElasticSearch核心概念

概述

物理設計:

邏輯設計:

檔案（”行“）

型別（“表”）

索引（“庫”）

四、IK分詞器(elasticsearch插件)

1、下載

2、安裝

3、重啟ElasticSearch

4、使用 ElasticSearch安裝補錄/bin/elasticsearch-plugin 可以查看插件

5、使用kibana測驗

6、添加自定義的詞添加到擴展字典中

4、使用 `ElasticSearch安裝補錄/bin/elasticsearch-plugin` 可以查看插件