主頁 > 資料庫 > ElasticSearch實戰系列二: ElasticSearch的DSL陳述句使用教程---圖文詳解

ElasticSearch實戰系列二: ElasticSearch的DSL陳述句使用教程---圖文詳解

2020-09-16 03:07:33 資料庫

前言

在上一篇中介紹了ElasticSearch集群和kinaba的安裝教程,本篇文章就來講解下 ElasticSearch的DSL陳述句使用,

ElasticSearch DSL 介紹

Elasticsearch提供了基于JSON的完整查詢DSL(特定于域的語言)來定義查詢,將查詢DSL視為查詢的AST(抽象語法樹),它由兩種子句組成:

  • 葉子查詢子句:
    葉查詢子句中尋找一個特定的值在某一特定領域,如 match,term或 range查詢,這些查詢可以自己使用,
  • 復合查詢子句
    復合查詢子句包裝其他葉查詢或復合查詢,并用于以邏輯方式組合多個查詢(例如 bool或dis_max查詢),或更改其行為(例如 constant_score查詢),
    查詢子句的行為會有所不同,具體取決于它們是在 查詢背景關系中還是在過濾器背景關系中使用,

我們在使用ElasticSearch的時候,避免不了使用DSL陳述句去查詢,就像使用關系型資料庫的時候要學會SQL語法一樣,如果我們學習好了DSL語法的使用,那么在日后使用和使用Java Client呼叫時候也會變得非常簡單,

ElasticSearch DSL 陳述句使用

這里我們先來介紹下DSL 陳述句簡單的使用,從最常用的增刪改查開始!

一、新增資料

ElasticSearch可以直接新增資料,只要你指定了index(索引庫名稱)和type(型別)即可,在新增的時候你可以自己指定主鍵ID,也可以不指定,由 ElasticSearch自身生成,

新增資料命令示例:

POST test1/_doc/1
{
    "uid" : "1234",
    "phone" : "12345678909",
    "message" : "qq",
    "msgcode" : "1",
    "sendtime" : "2019-03-14 01:57:04"
}

kinaba示例圖:
在這里插入圖片描述
注: POST test1/_doc/1 這是指定主鍵ID為1,如果POST test1/_doc 的話,那么便是es自身生成ES陳述句,

這里我們還可以通過 GET test1/GET test1/_settingsGET test1/_mapping查看該index的狀態,也就是 setting(設定選項) 和mapping(資料結構),
在這里插入圖片描述

二、創建索引庫

在上述示例中,我們通過直接通過創建資料從而創建了索引庫,但是沒有創建索引庫而通過ES自身生成的這種并不友好,因為它會使用默認的配置,欄位結構都是text(text的資料會分詞,在存盤的時候也會額外的占用空間),分片和索引副本采用默認值,默認是5和1,ES的分片數在創建之后就不能修改,除非reindex(下面會講到),所以這里我們還是指定資料模板進行創建,

這里先簡單介紹一下ES的資料結構,以下的資料結構為ES的6.x版本,

  • 核心資料型別
    text 和 keyword

  • 數值資料型別
    long,integer,short,byte,double,float,half_float,scaled_float

  • 日期資料型別
    date

  • 布爾資料型別
    boolean

  • 二進制資料型別
    binary

  • 范圍資料型別
    integer_range,float_range,long_range,double_range,date_range

  • 復雜資料型別編輯

  • 物件資料型別
    object 用于單個JSON物件

  • 嵌套資料型別
    nested 用于JSON物件陣列

  • 地理資料型別編輯

  • 地理位置資料型別
    geo_point 緯度/經度積分

  • 地理形狀資料型別
    geo_shape 用于多邊形等復雜形狀

  • 專業資料型別編輯

  • IP資料型別
    ip 用于IPv4和IPv6地址

  • 完成資料型別
    completion 提供自動完成建議

  • 令牌計數資料型別
    token_count 計算字串中令牌的數量
    mapper-murmur3
    murmur3 在索引時計算值的哈希并將其存盤在索引中
    mapper-annotated-text
    annotated-text 索引包含特殊標記的文本(通常用于標識命名物體)

  • 滲濾器型別
    接受來自query-dsl的查詢

  • join 資料型別
    為同一索引內的檔案定義父/子關系

  • 別名資料型別
    為現有欄位定義別名,

  • 多欄位編輯
    為不同的目的以不同的方式對同一欄位建立索引通常很有用,例如,一個string欄位可以映射為text用于全文搜索的欄位,也可以映射為keyword用于排序或聚合的欄位,或者,您可以使用standard分析儀, english分析儀和 french分析儀索引文本欄位,
    這是多領域的目的,大多數資料型別通過fields引數支持多欄位,

上面介紹的欄位介紹雖然比較復雜,但是我們常用的幾個型別也就是這幾種 text、keyword、byte、short、integer、long、float、double、boolean、date,其中text和keyword都是string型別,選擇區分很簡單,需要進行分詞用text,不需要并且進行排序或聚合的可以用keyword,

關于ES的資料結構就到這里了,我們來進行索引庫的創建吧!

新增索引庫的命令示例:

PUT test1
{
    "settings" : {
        "number_of_shards" : 10,
        "number_of_replicas" : 1,
         "refresh_interval" : "1s"
    },
    "mappings" : {
        "_doc" : {
            "properties" : {
                "uid" : { "type" : "long" },
                "phone" : { "type" : "long" },
                "message" : { "type" : "keyword" },
                "msgcode" : { "type" : "long" },
                 "sendtime" : {  
                  "type" : "date",
                  "format" : "yyyy-MM-dd HH:mm:ss" 
  }
                
            }
        }
    }
}

示例圖:
在這里插入圖片描述
在這里插入圖片描述
注:

  • number_of_shards: 是設定的分片數,設定之后無法更改!
  • refresh_interval: 是設定es快取的重繪時間,如果寫入較為頻繁,但是查詢對實時性要求不那么高的話,可以設定高一些來提升性能,可以更改
  • number_of_replicas : 是設定該索引庫的副本數,建議設定為1以上,

其中這里還有幾個重要引數也順便說一下:

  • store: true/false 表示該欄位是否存盤,默認存盤,
  • doc_values: true/false 表示該欄位是否參與聚合和排序,
  • index: true/false 表示該欄位是否建立索引,默認建立,

關于這幾個欄位的取值可以參考一下的示例圖:
在這里插入圖片描述

三、修改資料

其實ES的新增和修改可以看做是一樣,存在則修改,不存在則新增,不過這里還是簡單的介紹下吧,
修改資料的方式主要有兩種,一種是通過主鍵ID進行修改,這種比較簡單,就是和新增一樣即可,
另一種則是通過條件進行修改,相當于SQL更新陳述句的 where條件,

根據主鍵修改的命令示例:

POST test1/_doc/1
{
    "uid" : "1234",
    "phone" : "12345678909",
    "message" : "qq",
    "msgcode" : "1",
    "sendtime" : "2019-03-14 01:57:04"
}

根據條件修改的命令示例:

POST test1/_update_by_query
{
  "query": {
    "term": {
      "phone": "12345678909"
    }
  } ,
  "script": {
    "source": "ctx._source['message'] = 'xuwujing'"
  }
}

原有的資料:
在這里插入圖片描述

修改后的資料:
在這里插入圖片描述
注:這里的根據條件進行修改用到的腳本語言,ES除了使用DSl陳述句之后,使用一些官方定義的腳本語言和SQL陳述句也能進行操作,腳本語言和SQL陳述句的操作留到以后在來講下,

四、洗掉資料、欄位和索引庫

ES根據主鍵洗掉資料的命令示例是DELETE 索引庫/id,簡單實用,但是一定要要加上ID,不然就是洗掉索引庫了!

根據主鍵洗掉資料命令示例:

DELETE test1/1

根據條件洗掉資料的命令示例:

POST test/_delete_by_query
{
  "query": {
      "term": {
        "phone": "12345678909"
      }
  }
}

當然ES還可以根據條件只洗掉某一個欄位的資料,比如洗掉欄位msgcode的資料,

洗掉欄位資料的命令示例:

POST test/_doc/_update_by_query
{
"script":{
"lang":"painless",
"inline":"ctx._source.remove(\"msgcode\")"
}
}

示例圖:

在這里插入圖片描述

查詢陳述句

查詢所有

match_all可以查詢集群所有索引庫的資訊,包括一些隱藏索性庫的資訊,
命令示例:

GET _search
{   
  "query": {
    "match_all": {}
  }
}

示例圖:
在這里插入圖片描述

查詢索引庫所有的資料,命令格式為GET 索引庫名稱/索引庫型別/_search,也可以不需要索引庫型別,

命令示例:

GET  test1/_doc/_search

如果根據ID查詢某一條資料的話,也比較簡單,只需要將上述的_search換成主鍵ID即可,
命令示例:

GET  test1/_doc/2

等值(term)查詢

term主要用于精確匹配哪些值,比如數字,日期,布林值或 not_analyzed 的字串(未經分析的文本資料型別)

比如根據手機號進行查詢,
命令示例:

GET  test1/_doc/_search
{
  "query": {
    "term": {
      "phone": "12345678909"
    }
  }
}

當然,如果想在一個欄位匹配多個值的話,可以使用terms,相當于SQL的in語法,

命令示例:

GET  test1/_doc/_search
{
  "query": {
    "terms": {
       "uid": [ 
        1234, 
        12345, 
        123456
      ] 
    }
  }
}

示例圖:
在這里插入圖片描述
注:上述中是沒有123456這條資料,這樣只是為了做下簡單的測驗而已,

范圍(range )查詢

range可以理解為SQL中的><符號,其中gt是大于,lt是小于,gte是大于等于,lte是小于等于,

命令示例:

GET  test1/_doc/_search
{
  "query": {
   "range": { 
      "uid": { 
        "gt": 1234,
        "lte": 12345
      } 
    } 
  }
}

在這里插入圖片描述

存在(exists)查詢

exists可以理解為SQL中的exists函式,就是判斷是否存在該欄位,

這里我們新增一條沒有msgcode的欄位,然后用exists去查詢,

POST test1/_doc/3
{
    "uid" : "123456",
    "phone" : "12345678909",
    "message" : "qq",
    "sendtime" : "2019-03-14 01:57:04"
}

存在查詢命令示例:

GET  test1/_doc/_search
{
  "query": {
   "exists": { 
       "field":"msgcode" 
    } 
  }
}

示例圖:


在這里插入圖片描述

組合(bool)查詢

bool 可以用來合并多個過濾條件查詢結果的布爾邏輯,它包含這如下幾個運算子:

  • must : 多個查詢條件的完全匹配,相當于 and,
  • must_not ::多個查詢條件的相反匹配,相當于 not,
  • should : 至少有一個查詢條件匹配, 相當于 or,

查詢的命令示例:

GET /test1/_search
{
  "query": {
    "bool": {
      "must": {
        "term": {
          "phone": "12345678909"
        }
      },
      "must_not": {
        "term": {
          "uid": 12345
        }
      },
      "should": [
        {
          "term": {
            "uid": 1234
          }
        },
        {
          "term": {
            "uid": 123456
          }
        }
      ],
      "adjust_pure_negative": true,
      "boost": 1
    }
  }
}

示例圖:
在這里插入圖片描述

模糊(wildcard)查詢

wildcard查詢相當于SQL陳述句中的like語法,只不過它查詢的資料需要加上*符號,

模糊查詢命令示例:

GET /test1/_search
{
  "query": {
   "wildcard": { 
       "message":"*wu*" 
    } 
  }
}

在這里插入圖片描述

正則(regexp)查詢

regexp可以支持正則查詢,比如查詢短信內容中的驗證碼之類的,

下面的這個示例就是查詢以xu開頭,后面是0-9數字的內容的資料,

正則查詢命令示例:

GET /test1/_search
{
  "query": {
   "regexp": { 
       "message":"xu[0-9]" 
    } 
  }
}

示例圖:

在這里插入圖片描述

查詢陳述句的示例到這里就差不多就結束了,這里在推薦一下kinaba查詢的幾個小技巧,如圖所示:
在這里插入圖片描述

其它

參考:
https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

ElasticSearch個人已經使用一年多了,在學習的程序中也積攢了一些相關資料其,只不過今年特別忙,沒有太多時間將其整理成博客進行分享了,說來慚愧,今年寫博客的數量有些少了,下半年自己從一個周更博主變成了月更博主了,不過后面若是時間充足的話也會多些一些的,再忙每個月至少也會寫一篇 ヾ(?°?°?)??

ElasticSearch實戰系列:
ElasticSearch實戰系列一: ElasticSearch集群+Kinaba安裝教程

音樂推薦

<iframe frameborder="no" border="0" marginwidth="0" marginheight="0" width=330 height=86 src="https://www.cnblogs.com//music.163.com/outchain/player?type=2&id=1366594775&auto=0&height=66"></iframe>

原創不易,如果感覺不錯,希望給個推薦!您的支持是我寫作的最大動力!
著作權宣告:
作者:虛無境
博客園出處:http://www.cnblogs.com/xuwujing
CSDN出處:http://blog.csdn.net/qazwsxpcm    
個人博客出處:http://www.panchengming.com

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/52385.html

標籤:大數據

上一篇:安裝虛擬機和網路配置

下一篇:理解大資料

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more