主頁 > 資料庫 > ElasticSearch 介紹、Docker安裝以及基本檢索

ElasticSearch 介紹、Docker安裝以及基本檢索

2020-12-14 07:05:22 資料庫

目錄
  • 一、簡介
    • 1.1 什么是Elasticsearch?
    • 1.2 Elasticsearch 的用途
    • 1.3 Elasticsearch 的作業原理
    • 1.4 Elasticsearch 索引是什么?
  • 二、 基本概念
    • 2.1 Index(索引)
    • 2.2 Type(型別)
    • 2.3 Document (檔案)
  • 三、在Docker環境中安裝 ES + Kibana
    • 3.1 下載鏡像
    • 3.2 創建實體
      • 3.2.1 elasticsearch
      • 3.2.2 kibana
  • 四、初步檢索
    • 4.1 _cat
      • 4.1.1 查看節點資訊
      • 4.1.2 查看健康狀況
      • 4.1.3 查看主節點資訊
      • 4.1.3 查看所有的索引
    • 4.2 索引一個檔案
      • 4.2.1 put帶ID保存
      • 4.2.2 POST保存
    • 4.3 查詢檔案
    • 4.4 更新檔案
      • 4.1 POST 帶 _update 更新
      • 4.2 其他更新
    • 4.5 洗掉檔案&索引
    • 4.6 bulk 批量 API

一、簡介

1.1 什么是Elasticsearch?

Elasticsearch是一個分布式的開源搜索和分析引擎, 適用于所有型別的資料,包括文本、數字、地理空間、結構化和啡結構化資料,ElasticsearchApache Lucene的基礎上開發而成,由Elasticsearch N.V. (即現在的Elastic)于2010年首次發布,Elasticsearch 以其簡單的REST風格API、分布式特性、速度和可擴展性而聞名,是Elastic Stack的核心組件: Elastic Stack是適用于資料采集、充實、存盤、分析和可視化的一組開源工具,人們通常將Elastic Stack稱為ELK Stack (代指ElasticsearchLogstashKibana),目前Elastic Stack包括一系列豐富的輕星型資料采集代理, 這些代理統稱為Beats,可用來向Elasticsearch發送資料,

1.2 Elasticsearch 的用途

Elasticsearch在速度和可擴展性方面表現出色,能夠索引多種型別的內容,意味著可以用于多種用例:

  • 應用程式搜索
  • 網站搜索
  • 企業搜索
  • 日志處理分析
  • 基礎設施指標和容器檢測
  • 應用程式性能檢測
  • 地理空間資料分析和可視化
  • 安全分析
  • 業務分析

1.3 Elasticsearch 的作業原理

原始資料會從多個來源(包括日志、系統指標和網路應用程式)輸入到 Elasticsearch 中,資料采集指在Elasticsearch中進行索引之前決議、標準化并充實這些原始資料的程序,這些資料在 Elasticsearch 中索引完成之后,用戶便可針對他們的資料運行復雜的查詢,并使用聚合來檢索自身資料的復雜匯總,在 Kibana 中,用戶可以基于自己的資料創建強大的可視化,分享儀表板,并對 Elastic Stack 進行管理,

1.4 Elasticsearch 索引是什么?

Elasticsearch 索引指相互關聯的檔案集合,Elasticsearch 會以 JSON 檔案的形式存盤資料,每個檔案都會在一組(欄位或屬性的名稱)和它們對應的值(字串、數字、布林值、日期、數值組、地理位置或其他型別的資料)之間建立聯系,
Elasticsearch 使用的是一種名為倒排索引的資料結構,這一結構的設計可以允許十分快速地進行全文本搜索,倒排索引會列出在所有檔案中出現的每個特有詞匯,并且可以找到包含每個詞匯的全部檔案,
在索引程序中,Elasticsearch 會存盤檔案并構建倒排索引,這樣用戶便可以近實時地對檔案資料進行搜索,索引程序是在索引 API 中啟動的,通過此 API 您既可向特定索引中添加 JSON 檔案,也可更改特定索引中的 JSON 檔案,

二、 基本概念

2.1 Index(索引)

動詞: 相當于 MySQL 中的 insert
名詞: 相當于 MySQL 中的 Database

2.2 Type(型別)

在 index (索引) 中,可以定義一個或多個型別,類似于 MySQL 中的 Table ,每一種型別的資料放在一起

把一條資料存在 ES 的某個索引的某個型別下,相當于 MySQL 的某個資料庫的某張表下

2.3 Document (檔案)

保存在某個 索引(資料庫)下, 某種 型別(表) 的一個 Document 檔案(一條資料), 檔案是 JSON格式的,Document 就像是 MySQL 中的某個 Table 里面的內容,

三、在Docker環境中安裝 ES + Kibana

3.1 下載鏡像

docker pull elasticsearch:7.4.2
docker pull kibana:7.4.2

3.2 創建實體

3.2.1 elasticsearch

先在本機中創建一個自己的目錄 , 如:/mydata/elasticsearch , 然后再目錄底下創建三個檔案夾 dataconfigplugins,為后面創建elasticsearch實體時,可以做一個檔案映射,便于我們對 es 實體進行修改,
同時,在 config 檔案夾里,新建 elasticsearch.yml 組態檔,并配置 es 可以被遠程的任何機器進行訪問

mkdir -p /mydata/elasticsearch/data
mkdir -p /mydata/elasticsearch/config
mkdir -p /mydata/elasticsearch/plugins

echo "http.host:0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

啟動 elasticsearch 實體

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx256m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.4.2

-e "discovery.type=single-node" : 設定 es 為單節點運行
-e ES_JAVA_OPTS="-Xms64m -Xmx256m": 設定 es 的最小記憶體使用 64M ,最大記憶體使用為 256 M

啟動成功后,訪問 http://主機IP:9200 ,能看到如下資訊,即為創建成功

注: 如果啟動失敗,可以通過命令 docker logs elasticsearch 查看啟動日志,可能出現的錯誤:
1、沒有權限訪問,因為我們啟動的命令掛載到了外面, 所以可能存在無法訪問的寫入的權限

解決方案: 使用命令 chmod -R 777 /mydata/elasticsearch 給任何用戶任何組所有權限,重啟es實體即可,

3.2.2 kibana

kibana只需要創建實體,關聯我們剛剛的es即可

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://主機IP:9200 \
-p 5601:5601 -d kibana:7.4.2 

上面的命令是根據官方檔案查看而來的,不過這條命令在虛擬機中好像無法啟動(我本地 [vmware 15.6 + centos7] 的環境下,一直無法啟動成功,連接失敗),而在阿里云ESC服務器上,可以成功啟動,遇到上訴的情況,可以通過下面這條命令查看 es 實際暴露的 ip,把上面的主機 IP 修改為對應的 ip 即可

//007e為elasticsearch的id
docker inspect 007e 或者 docker inspect elasticsearch

則,kibana 創建的示例的命令為

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://172.17.0.3:9200 \
-p 5601:5601 -d kibana:7.4.2 

由于我們剛剛在執行前一個命令的時候,已經創建了一個名為 kibana 的實體,所以需要先洗掉后,在執行上一步的命令

// 查看所有運行中的實體
docker ps
// 查看所有的實體
docker ps -a
// 洗掉 kibana 的實體
docker rm kibana

訪問 http://主機ip:5601 ,看到如下頁面即為創建成功

可使用下面的兩個命令,使得我們主機重啟后,實體也會自動啟動

docker update --restart=always elasticsearch
docker update --restart=always kibana

四、初步檢索

4.1 _cat

4.1.1 查看節點資訊

GET http://主機ip:9200/_cat/nodes

4.1.2 查看健康狀況

GET http://主機ip:9200/_cat/health

4.1.3 查看主節點資訊

GET http://主機ip:9200/_cat/master

4.1.3 查看所有的索引

GEThttp://主機ip:9200/_cat/indices

4.2 索引一個檔案

MySQL:保存一條資料到表中

保存一個資料,保存在哪個索引的哪個型別下, 可以指定唯一標識

MySQL: 保存在哪個資料庫的哪張表下

4.2.1 put帶ID保存

新增更新二合一,第一次發送為新增,后面的則為更新,不指定id會報錯,一般用做于修改
PUT /customer/external/1

{
    "name": "John Doe"
}

image-20201206214214767

4.2.2 POST保存

新增修改二合一,不帶ID或者帶ID但是之前沒有資料為新增,帶ID且之前有資料,為修改
PUT /customer/external/

{
    "name": "John Doe"
}

image-20201206215854098

4.3 查詢檔案

查詢 哪個索引 下的 哪個型別 下的 哪條資料

MySQL: 查詢哪個資料庫下的哪張表的哪條資料

GET /customer/external/1

image-20201206215917659

_seq_no:并發控制欄位,每次更新就會 +1 ,可以用來做樂觀鎖
_primary_term:可用于做樂觀鎖,主分片重新分配,如重啟,就會變化
樂觀鎖使用:
更新前,先查詢出當前的資料,可以獲取 當前 _seq_no 以及當前 _primary_term
更新的時候,帶上 ?if_seq_no={當前 _seq_no }&if_primary_term={當前 _primary_term}

4.4 更新檔案

4.1 POST 帶 _update 更新

POST /customer/external/1/_update

{
    # doc 的內容為檔案的最新值
    "doc": {
    	"name": "John Doew"
    }
}

image-20201206222059851

POST 帶 _update 更新, 會對比原資料,如果更新的資料與原來一致,則 _version _seq_no不會變化, 且 result 的值為 noop,意思為沒有做任何操作,且可以給原有的檔案中,新增一個屬性

{
    # 帶 _update doc不可省略, doc 的內容為檔案的最新值
    "doc": {
    	"name": "John Doew",
    	"age": 20
    }
}

如上的請求也是可以成功的

4.2 其他更新

POST /customer/external/1

{
	"name": "John Doew"
}

PUT /customer/external/1

{
	"name": "John Doew"
}

以上兩種方式的更新,永遠為更新操作,不會對比原來的操作,每次請求 _version _seq_no都在不斷疊加,且同 帶 _updte 的 POST 請求一樣,可以為原有檔案新增上新的屬性

4.5 洗掉檔案&索引

發送 DELETE 請求, 需要指定到具體的檔案、索引
DELETE /customer/external/1
DELETE /customer

image-20201206223245179

在 ElasticSearch 中, 不提供洗掉型別的方法

4.6 bulk 批量 API

必須發送 POST 請求,在 PostMan 中無法模擬請求,這里需要用到 kibana

POST /customer/external/_bulkcustomer 索引下的 external 型別中批量執行

# 一個大括號代表一個操作,兩行為一個動作
{"index":{"_id": "1"}}	# 索引一個檔案,檔案的id為1
{"name": "John Doe"}	# 檔案的內容
{"index":{"_id": "2"}}
{"name": "John Doe"}

image-20201208160711936

took :執行所花費的時間 errors : 是否有錯誤
items :獨立統計每條命令的執行結果,如果中間有某條命令執行失敗,后面的命令也不會受到影響,且命令執行失敗的時候,不會跟MySQL一樣,回滾

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/234192.html

標籤:其他

上一篇:ElasticSearch 介紹、Docker安裝以及基本檢索

下一篇:小紅書資料采集教程,從0到1 APP采集,Airtest

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more