目錄
- 一、管理方式
- 二、結構維護
- 三、資料調度
- 1、同步方案
- 2、中斷和恢復
- 四、重繪策略
- 五、深度分頁
- 六、參考原始碼
Index用不好,麻煩事不會少;
一、管理方式
ElasticSearch作為最常用的搜索引擎組件,在系統架構中發揮極其重要的能力,可以極大的提升資料的加載和檢索效率;但不可否認的是,在長期的應用實踐中,也發現很多不好處理的流程和場景;

從直觀感覺上說,業務中對索引的使用主要涉及如圖的幾個流程,其核心也就是索引的結構維護與資料的流動管理兩個模塊;
如果資料結構比較簡單且體量小,那么使用起來可能很順手;如果資料主體復雜且會動態擴展,并且體量偏大,那么就很容易踩中一些比較坑的點;
比如:索引中欄位一旦有誤,調整的流程十分復雜;資料流向索引中的方式,需要根據場景靈活選擇;以及資料查詢時的深度分頁問題;下面將圍繞這些問題來總結下應對策略;
順帶補充一句,其實很多組件在應用的時候都有不太符合預期的地方,所以在集成時可以考慮撰寫自定義的管理程式,來解決使用時可能存在的問題;
二、結構維護
對于ES索引的結構維護,資料主體如果相對簡單的話,可以考慮手動管理,但實際上使用索引時,通常主體結構都比較復雜,欄位個數超過三五十都很常見,所以基于流程化的管理很有必要;

結構映射:將需要構建索引的主體結構,在欄位庫中統一維護,值得注意的是欄位名稱和型別,欄位可以與關系型資料庫的查詢一致,但是不同組件型別的描述不一樣,尤其對ES來說,如果欄位型別不合理,會影響搜索的使用;
索引結構:在實際的業務場景中,欄位的資訊是會動態變化的,這就會給索引結構的維護帶來很多麻煩,欄位的增減都好管理,但是如果涉及型別的變動,則存在索引重建的程序,會導致資料多次重新調度,這也是風險較高的操作;
程式維護:這種結構維護的機制,其核心目的是把整個流程進行程式化管理,避免人工進行干預,以此來確保索引結構的穩定擴展;
不得不提的一個經驗教訓,曾經在管理業務日志的索引結構時,出現過一次誤刪動作,好在可以重新構建和資料備份恢復,但是依舊給心里留下了幾厘米的陰影,此后也將維護流程徹底程式化,避免失誤動作發生;
三、資料調度
1、同步方案
資料的調度管理,其本質就是將資料從一個容器向另一個容器搬運或者拷貝,其核心操作就是讀和寫兩個動作,但是為了讓流程具備容錯和穩定性,通常需要做策略和方案的設計;

同步雙寫:對資料的實時性要求極高,通常在一個事務中完成資料的雙寫動作,保證資料層面的強一致性;
異步解耦:在完成資料庫的寫動作之后,基于MQ訊息解耦索引的寫入,流程存在輕微的延遲,如果消費失敗會導致資料缺失;
定時任務:通過任務調度的方式,以指定的時間周期執行新增資料的同步機制,存在明顯的時效問題;
組件同步:采用合適的同步組件,比如官方提供的組件或者一些第三方開源的組件,在原理上與任務同步類似;
資料同步的選型方案有多種,如何選擇完全看具體的場景,在過往的使用程序中,對于核心業務會采用同步雙寫,對于內部的活動類業務會采用異步的方式,對于業務日志會采用任務調度,對于系統的監控或執行日志則多是依賴同步組件;
2、中斷和恢復
無論采用何種方式將資料同步到索引中,都不得不面對一個靈魂問題,如果流程突然例外中斷,恢復后如何保證索引資料不丟失?這個問題適應于很多復雜的流程;

容錯性是衡量一個復雜流程的核心指標,比如在索引資料同步的程序,需要短暫性的暫停,或者流程被迫中斷時,都應該具備恢復后自動修復索引中資料缺失的能力;
ES實踐中一個非常經典的問題,修改索引的結構時需要進行索引重建,此時要將當前索引遷入臨時索引中,在完成索引結構調整之后,需要從臨時索引中遷回資料,在此程序中,可以對服務互動的索引名稱動態調整;

當然也可以直接使用臨時索引作為互動索引,避免一次遷移動作,這種動態的識別需要在服務中嵌入,在整個reindex程序中要避免手動干預,個人還是更相信程式的安全性和準確性;
四、重繪策略
在向ES索引中寫資料時,存在三種不同的資料重繪機制,查看6.8版本的設定中,引數refresh_interval設定的是1s時間,即執行寫入動作1秒后資料才可以被搜索到,避免頻繁寫入消耗過多的資源;
NONE:默認的重繪策略,請求提交之后不會等待資料重繪,降低資源消耗但資料實時性低;
IMMEDIATE:請求提交后立即重繪索引,資料的實時性很高但是資源消耗過大,API檔案中建議測驗使用;
WAIT_UNTIL:請求提交之后會等待索引重繪完成才會結束,相對來說是一種比較平衡的策略;
重繪機制對于索引的資料維護來說,主要在增刪改的動作中,對即時查詢有直接的影響,至于如何選擇還是要結合具體的場景,尤其與同步方案關聯密切,也可以在索引互動中動態維護策略,來應對不時之需;
五、深度分頁
對于資料查詢來說,幾乎都存在分頁的需求,在常見的應用中,不斷下拉的功能都是存在最大的極限值;
ES中常用From/Size進行分頁查詢,但是存在一個限制,在索引的設定中存在max_result_window分頁深度的限制,6.8版本默認值是10000條,即10000之后的資料無法使用From/Size翻頁;
先從實際應用場景來分析,大多數的翻頁需求最多也就前10頁左右,所以從這個角度考慮,ES的翻頁限制在合理區間,在實踐中也存在對部分索引調高的情況,暫未出現明顯問題;
再從技術角度來思考一下,如果翻頁的引數過大意味著更多的資料過濾,那計算資源的占用也會升高,ES引擎的強大在于搜索能力,檢索出符合要求的資料即可;

不管是ES還是其它類似的分布式存盤組件,甚至是MySQL分庫分表模式,其本質都是資料分布在不同服務節點的不同資料片上;常規的執行原理都是給請求分配一個主節點,協調各個節點執行相同的查詢,并完成結果匯總和回應,深度分頁時計算資源的占用自然非常高;
如果一定需要深度分頁,在6.8的版本中提供了Scroll或Search-After兩種其他的方式,用法參考相關檔案即可,
六、參考原始碼
編程檔案:
https://gitee.com/cicadasmile/butte-java-note
應用倉庫:
https://gitee.com/cicadasmile/butte-flyer-parent
Gitee主頁: https://gitee.com/cicadasmile/butte-java-note
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/527751.html
標籤:Java
