目錄
開篇
適合場景
重要考慮
腳本引擎歷史
腳本引擎應用
DSL語法大全
腳本引擎案例
結尾
開篇
分而治之是大資料計算的基本思路,特分享一款天然的分布式全文搜索引擎-Elastic Search,而如何歸并,是分而治之的重點難題,在HA集群節點架構中,各個節點主備分片如何分配,各分片搜索結果如何得出最終結果…

適合場景
當千萬乃至更大資料量,需要像傳統DBMS關系型資料庫一樣,實作在海量資料中作模糊搜索,全文搜索,又需要有一定程度的檢索效率,突破傳統DBMS性能瓶頸,那么ES很適合與關系型資料庫形成互補,ES在搜索領域擁有強悍的性能,而傳統DBMS關系型資料庫分庫分表組合查詢相當麻煩,而ES組合靈活-自動路由(開發者無需在業務層作過多干涉),當然,在大資料量復雜查詢的話,深度分頁需要優化下,簡單的查詢幾十億問題不大,若超大則可上集群,再可上ES-ClickHouse.
重要考慮
雖然傳統DBMS關系型資料庫表中資料,可通過一系列方案-結合實際業務作資料同步至ES(資料建模),但當大批量資料同步到ES單節點,或從節點往集群遷移copy資料,基于logstash亦或是基于ES-Transport批量提交資料,資料需要實時更新亦或離線初始化,還有就是聚合的性能以及一些高級屬性,比如copy to,script腳步引擎應用,mapping設計之動態模版映射動態索引或為指定索引匹配預制動態模版等等…
腳本引擎歷史
一、Elasticsearch Script History-分布式全文搜索-腳本引擎歷史
在ES早期的版本中,使用MVEL腳本,但為解決安全隱患問題,于是Groovy腳本誕生,
隨之出現的安全漏洞跟記憶體泄露問題,于是在ES5.0版本之際,painless腳本官宣,距今也有數年之久,painless腳本浮現在開發者眼前,
腳本引擎應用
二、Elasticsearch Script ApplyCenarios-分布式全文搜索-腳本引擎應用場景
我們都很熟悉的認知到Elasticsearch全文搜索引擎,在其各版本系列中提供了豐富的dsl語法-增刪改查-這里以6.x版本系列-6.8.6為例,
在80%以上的業務場景中作增刪改查游刃有余,但應用于相對復雜的業務場景:
多欄位自定義更新、自定義reindex、自定義陣列欄位動態添加...
https://www.elastic.co/guide/en/elasticsearch/painless/6.8/painless-regexes.html
當然基于腳本引擎手動開發插件也是可以實作的,
https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-scripting-engine.html
從painless腳本的衍生意義理解是"無痛"無漏洞的,但尤其需要注意的地方-不能以root賬戶啟動es,不要公開es路徑至其他用戶,
從官方Script使用的介紹來看,首要就是性能問題,其次就是使用業務場景,ebay在性能優化實踐英文版中也有體現,
https://www.ebayinc.com/stories/blogs/tech/elasticsearch-performance-tuning-practice-at-ebay/
這里也mark下中文版,
https://www.infoq.cn/article/elasticsearch-performance-tuning-practice-at-ebay
其中,80%以上的業務場景:參考小編匯總Elasticsearch+Kibana+Dsl-Crud大全
DSL語法大全
#節點資訊
GET _cat/nodes?v
GET _cat/master
#各節點機器存盤資訊
GET _cat/allocation?v
#索引資訊
GET _cat/indices?v
GET /_cat/count
GET /_cat/count/yd-2021
GET _cat/indices/yd-hlht-test-2022
#分片資訊
GET _cat/shards?v
GET _cat/shards/yd-hlht-test-2022
#查看所有分片的恢復狀況-該命令查看initializing分片的恢復進度
GET _cat/recovery/
GET _cat/recovery/yd-hlht-test-2022
GET _cluster/health
GET _cluster/nodes/hot_threads
#查看分片未分配原因
GET /_cat/shards?h=index,shard,prirep,state,unassigned.*,unassigned.reason | grep UNASSIGNED
#查看具體分片未分配原因
GET _cluster/allocation/explain
{
"index":"yd-hlht-test-2022",
"shard":0,
"primary":false
}
#注冊快照存盤庫-倉庫共享
PUT _snapshot/my_backup
{
"type": "fs",
"settings": {
"location": "/home/user/yxd179/es/backup"
}
}
#查看倉庫資訊
GET /_snapshot/my_backup?pretty
#查看快照存盤庫保存結果
GET _snapshot
#創建快照,這個會備份所有打開的索引到my_backup倉庫下并命名為snapshot_yd的快照里,這個呼叫會立刻回傳,然后快斬訓在后臺運行,若是希望在腳本中一直等待到完成,可通過添加 wait_for_completion 標記實作,這個會阻塞呼叫直到快照完成(如果是大型快照,會花很長時間才回傳),其中只會備份索引809iJpOmSI2ZmJrUqKRR0Q資訊
PUT /_snapshot/my_backup/snapshot_yd?wait_for_completion=true
{
"indices": "809iJpOmSI2ZmJrUqKRR0Q",
"ignore_unavailable": true,
"include_global_state": false,
"metadata": {
"taken_by": "phr",
"taken_because": "backup before upgrading"
}
}
#查看快照
GET /_snapshot/my_backup/snapshot_yd
#查看所有快照
GET /_snapshot/my_backup/_all
#洗掉快照
DELETE /_snapshot/my_backup/snapshot_yd
#監控快照創建或恢復程序
GET /_snapshot/my_backup/snapshot_yd/_status
#恢復快照
POST /_snapshot/my_backup/snapshot_yd/_restore
#動態模板
PUT /_template/yxd179_tpl
{
"index_patterns": [
"yxd179-2021*"
],
"settings": {
"number_of_shards": 1,
"number_of_replicas": 1
},
"mappings": {
"yd": {
"dynamic_templates": [
{
"strings": {
"match_mapping_type": "string",
"mapping": {
"type": "text",
"index": true,
"copy_to": "full_context",
"analyzer": "ik_max_word",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
}
}
],
"properties": {
"full_context": {
"type": "text",
"analyzer": "ik_max_word",
"fielddata": true,
"store": true
}
}
}
}
}
?
#副本分片分配設定
PUT /yxd179-2021/_settings
{
"number_of_replicas": "1"
}
#分頁查詢
GET /yxd179-2021/yd/_search
{
"from": 0,
"size": 30
}
?
#根據ID查詢
GET /yxd179-2021/yd/647461503271768064
?
#bool query dsl查詢
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"bool": {
"should": [
{
"match": {
"regNumber": "20203030651"
}
}
]
}
},
{
"term": {
"status": "1"
}
}
]
}
},
"sort": [
{
"createTime": {
"order": "desc"
}
}
],
"from": 0,
"size": 10
}
?
#允許ES最大滾動數目分配設定
PUT /yxd179-2021/_settings
{
"index": {
"max_result_window": 13000000
}
}
?
#查看欄位分詞分析程序
POST /yxd179-2021/_analyze
{
"field": "regNumber",
"text": "國械標準20203030651號"
}
?
#模糊查詢匹配
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"bool": {
"should": [
{
"wildcard": {
"regNumber.keyword": "*20203030651*"
}
}
]
}
},
{
"term": {
"status": "1"
}
}
]
}
},
"sort": [
{
"createTime": {
"order": "desc"
}
}
],
"from": 0,
"size": 10
}
?
#對指定欄位設定分詞器查詢
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"hdsd0001004": {
"query": "1828551417",
"analyzer": "char_analyzer"
}
}
}
]
}
},
"from": 0,
"size": 30
}
?
#模糊查詢匹配
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"wildcard": {
"hdsd0001002.keyword": "*yxd179*"
}
}
]
}
},
"from": 0,
"size": 30
}
?
#關閉索引:
POST yxd179-2021/_close
?
#打開索引:
POST yxd179-2021/_open
?
#對指定欄位設定分詞器
PUT /yxd179-2021/_mapping/yd
{
"properties": {
"hdsd0001004": {
"type": "text",
"analyzer": "char_analyzer"
}
}
}
?
#查看mapping結構體資訊
GET yxd179-2021/_mapping
?
#設定分詞分析器
PUT yxd179-2021/_settings
{
"analysis": {
"analyzer": {
"char_analyzer": {
"tokenizer": "char_tokenizer",
"filter": "lowercase"
}
},
"tokenizer": {
"char_tokenizer": {
"type": "pattern",
"pattern": "|"
}
}
}
}
?
#minimum_should_match
GET /yxd179-2021/yd/_search
{
"query": {
"query_string": {
"query": "182855141y7",
"type": "phrase",
"operator": "AND",
"minimum_should_match": "100%",
"fields": [
"hdsd0001004"
]
}
}
}
?
#顯示欄位
GET /yxd179-2021/yd/_search
{
"_source": {
"include": [
"id",
"productId"
]
},
"query": {
"bool": {
"must": [
{
"terms": {
"productId": [
636654265306419462
]
}
}
]
}
},
"from": 0,
"size": 30
}
?
#高亮查詢
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"bool": {
"should": []
}
},
{
"term": {
"status": "1"
}
},
{
"term":{
"id":636662671736099971
}
}
]
}
},
"sort": [
{
"id": {
"order": "asc"
}
}
],
"highlight": {
"pre_tags": [
"<span class='title-key'>"
],
"post_tags": [
"</span>"
],
"fields": {
"commonName": {
"type": "plain"
}
}
},
"from": 0,
"size": 10
}
?
#read_only_allow_delete
PUT /yxd179-2021/_settings
{
"index":{
"blocks":{
"read_only_allow_delete":"false"
}
}
}
?
#查詢模板
GET /_template
?
GET /yxd179-2021*/yd/_search
{
"from": 0,
"size": 30
}
?
#單個欄位bool查詢
GET /yxd179-2021/yd/_search
{
"query": {
"bool": {
"must": [
{
"term": {
"id": "636651493706133509"
}
}
]
}
},
"from": 0,
"size": 30
}
?
#批量
POST /_bulk
{"index":{"_index":"yxd179-2021","_type":"yd","_id":"65965969996688"}}
{"id":"65965969996688","HDSD0001002":"sdff","HDSD0001008":"fsdf","HDSD0001006":"000000000000000000","create_time":"2021-07-29","cancel_flag":0}
{"index":{"_index":"yxd179-2021","_type":"yd","_id":"66049829996688"}}
{"id":"66049829996688","HDSD0001002":"sdgsdg","HDSD0001008":"fsdfsdf","HDSD0001006":"000000000000000000","create_time":"2021-07-29","cancel_flag":1}
更多dsl語法大全,請見->Elasticsearch進階篇@記kibana執行dsl腳本實戰程序
腳本引擎案例
三、Elasticsearch Script ActualCombat-分布式全文搜索-腳本引擎實戰
這里僅以Update-By-Query為例:

其中,lang指定腳本引擎:painless,source中為script腳本片段,params為腳本引數值,
之所以通過params傳遞,可突破ES對腳本編譯限制,雖然也可以通過下面操作來修改該決議上限的配置:
PUT /_cluster/settings
{
"transient": {
"script.max_compilations_per_minute": 40
}
}
重要:對于大批量資料,ES都需要單獨的編譯決議,當進行bulk update時,若是每一個腳本都實時編譯的話,可想而知很快就會達到上限,知其然知其所以然,對于ES中都只會在第一次進行決議這個腳本,之后便無需再次決議,當腳本中有常數變數時,ES會實時編譯腳本,故結合script中的param功能,設法將腳本中的變數通過param傳遞進去,從而可以從根本上解決腳本編譯決議限制的問題,
接下來,我們看下在Java中怎么樣基于6.8.6版本構建tcp client執行painless腳本引擎?

補充:對updateByQuery API的呼叫從獲取索引快照開始,索引使用內部版本控制找到任何檔案,
試想當一個檔案在快照的時間和索引請求程序之間發生變化時,會發生版本沖突,當版本匹配時,updateByQuery更新檔案并增加版本號,上述為了防止版本沖突導致updateByQuery中止,還可以設abortOnVersionConflict(false),之所以這么做,是有可能它試圖獲取在線映射更改,而版本沖突意味著在相同時間開始updateByQuery和試圖更新檔案的沖突檔案,該更新將獲取在線映射更新,updateByQuery也可以通過指定pipeline來使用ingest節點,其中UpdateByQueryRequestBuilder API可支持過濾更新的檔案,限制要更新的檔案總數,并使用腳本更新檔案,即時刷入磁盤,重試次數等,
Retry: 當客戶端A、B幾乎同時獲取同一個檔案, 一并獲得_version版本資訊, 假設此時_version=1,
接著,客戶端A修改檔案中的部分內容, 將修改寫入索引,而Elasticsearch在寫入索引時, 檢查客戶端A提交的檔案的版本資訊(這里仍然是1) 和 現存的檔案的版本資訊(這里也是1), 發現相同后, 執行寫入操作, 并修改版本號_version=2,然后客戶端B也修改檔案中的部分內容, 其操作寫回索引的速度稍慢,此時同樣執行寫入程序,ES發現客戶端B提交的檔案的版本為1, 而現存檔案的版本為2,即發生沖突,此次partial update將失敗-重試,
并發控制策略:partial update并發控制策略-樂觀鎖
結尾
小試牛刀案例:如何通過腳本引擎指定多個欄位update?
方式No.1:
ctx._source.putAll(params)
方式No.2:
for (k in params.keySet()){if (!k.equals('ctx')){ctx._source.put(k, params.get(k))
末尾:后續Java框架體系,資料庫技術體系,大資料體系進階案例實戰都會同時更新,微信公眾號同步,旨在分享的初衷,歡迎提出寶貴建議^_^

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/423225.html
標籤:其他
