Elasticsearch搜索資料匯總-有解無憂

Elasticsearch 簡介

Elasticsearch（ES）是一個基于Lucene 構建的開源分布式搜索分析引擎，可以近實時的索引、檢索資料，具備高可靠、易使用、社區活躍等特點，在全文檢索、日志分析、監控分析等場景具有廣泛應用，

lucene

Lucene介紹與入門使用

Lucene.Net API

Elasticsearch 中文社區：https://elasticsearch.cn/article/

Elasticsearch 官方檔案：https://www.elastic.co/guide/index.html

Elasticsearch 各客戶端API（eg：.NET、JAVA、Python、Go）

Elasticsearch .net client NEST 5.x 使用總結（初始化、查詢、權重、排序、聚合等）

Elasticsearch 客戶端SDK使用建議：創建索引的Setting和mapping使用elasticsearch 提供的DSL語法更加簡單，因為客戶端API代碼里面只提供基礎的SDK，如（ik拼音等）插件就沒有對應介面提供

Elasticsearch術語（索引、型別、檔案、集群、節點、分片）

ES資料架構的主要概念（與關系資料庫Mysql對比）

clip_image001

在ES 早期版本，一個索引下是可以有多個Type ，從7.0 開始，一個索引只有一個Type，即_doc，一個Type 下的檔案，都有相同的欄位（Field）

安裝

docker版本的ELK快速部署

ELK

ELK 是elastic 公司旗下三款產品ElasticSearch 、Logstash 、Kibana 的首字母組合，

#、ElasticSearch 是一個基于Lucene 構建的開源，分布式，RESTful 搜索引擎，

#、Logstash 傳輸和處理你的日志、事務或其他資料，

#、Kibana 將Elasticsearch 的資料分析并渲染為可視化的報表，

Kibana User Guide

docker安裝elasticsearch和head插件

分詞器

分詞器是專門處理分詞的組件，分詞器由如下三部分組成：

1、Character Filters：針對原始文本處理，比如：去除html 標簽

2、Tokenizer：按照規則切分為單詞，比如：按照空格切分

3、Token Filters：將切分的單詞進行加工，比如：大寫轉小寫，洗掉stopwords，拼音，同義詞等

analyzer = CharFilters（0個或多個）+ Tokenizer(一個) + TokenFilters(0個或多個)

clip_image002

從圖中能夠看出，從上到下依次通過Character Filters，Tokenizer 以及Token Filters，這個順序比較好理解，一個文本進來確定要先對文本資料進行處理，再去分詞，最后對分詞的結果進行過濾，

ElasticSearch 分詞器是什么

一些分詞器介紹（比如適用于英語的Snowball ）

elasticSearch Analysis Token Filters作用及相關樣例

Writing analyzers

ElasticSearch查看欄位分詞結果（便于查為什么匹配不出的問題）

Elasticsearch7 分詞器(內置分詞器和自定義分詞器)

Elasticsearch-Analysis-IK中文分詞器配置使用

elasticsearch 之分詞器配置 (IK+pinyin)

Elasticsearch 使用ik中文分詞器增加分詞熱詞（自定義詞）

Elasticsearch mapping

搞懂Elasticsearch 之Mapping （Reindex）

Mapping中的store屬性（按需查詢欄位）

Elasticsearch中的store field跟non-store field的區別

Elasticsearch 理解mapping中的store屬性

Elasticsearch 動態模板(dynamic_templates)

normalizer 的使用

ElasticSearch Normalizer 的使用方法

elasticsearch大小寫無法使用term查詢的問題

Adding normalizer for all keyword fields NEST

Elasticsearch DLS語法

Elasticsearch 查詢語法（模糊、精確、sort、相關性、and|or、slop間隔等）

Elasticsearch 查詢語法（多條件bool復雜查詢（must、should、filter）、日期范圍查詢）

Elasticsearch 查詢語法（bool復雜查詢、operator（||、&&、!、+）)

ElasticSearch 組合多查詢(bool, must, should, must_not, filter)

Elasticsearch中match、match_phrase、query_string和term的區別

相關性score

ElasticSearch 的分數(_score) 是怎么計算得出 (2.X & 5.X)

Elasticsearch filter和query的不同

ElasticSearch 多級排序（eg：產品要根據：銷量、熱度、相關性排序）

Elasticsearch 搜索條件權重控制（boost）-- 默認情況下，搜索條件的權重都是1

聚合查詢

Elasticsearch 聚合語法（Aggregations）

Elasticsearch 聚合查詢

通過Elasticsearch 實作聚合檢索(分組統計)

Elasticsearch 范圍查詢（數值、日期）

分頁查詢

Elasticsearch 分頁查詢

Elasticsearch 查詢語法（使用scroll回應式回傳大集合檔案）

Elasticsearch 嵌套查詢，父子關系查詢

Elasticsearch 高亮顯示匹配關鍵詞（Highlight）

同義詞

elasticsearch 使用同義詞（synonym.txt）

搜索建議詞（Suggest功能）

Elasticsearch實作搜索推薦詞（C#）

基于Elasticsearch實作搜索推薦

ElasticSearch使用completion實作補全功能

Elasticsearch Suggester詳解（自動補全）

Elasticsearch搜索Suggest功能優化

elasticsearch 7.0 新特性之 search as you type

模擬實戰京東搜索效果（一）

模擬實戰京東搜索效果（二）

安全性

Meow攻擊洗掉開放的的Elasticsearch（及MongoDB）索引，建一堆以Meow結尾的奇奇怪怪的索引（如：m3egspncll-meow）----關閉外網訪問埠，或至少修改ES默認埠

用nginx給kibana、elasticsearch做權限認證

集中式日志分析平臺- ELK Stack - 安全解決方案 X-Pack

常用es語法

版本：Elasticsearch 7.9.0

洗掉索引

DELETE mall.completion

創建索引，并指定settings

PUT mall.completion

{

"settings":{

"analysis":{

"analyzer":{

"ik_smart_pinyin":{

"type":"custom",

"tokenizer":"ik_smart",

"filter":["g_pinyin","word_delimiter"]

"ik_max_word_pinyin":{

"type":"custom",

"tokenizer":"ik_max_word",

"filter":["g_pinyin","word_delimiter"]

}

"filter":{

"g_pinyin":{

"type":"pinyin",

"keep_separate_first_letter":false,

"keep_full_pinyin":true,

"keep_original":true,

"limit_first_letter_length":16,

"lowercase":true,

"remove_duplicated_term":true

}

"mappings": {

"properties": {

"kw_completion": {

"type": "completion"

"kw_text":{

"type": "text",

"analyzer": "ik_smart_pinyin"

}

查看索引設定

GET mall.completion/_settings

查看mapping結構

GET mall.completion/_mapping

批量插入資料

POST _bulk/?refresh=true