ES重建索引(reindex)性能優化建議-有解無憂

Reindex官方檔案
https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-reindex.html

Reindex簡介
5.X版本后新增Reindex。Reindex可以直接在Elasticsearch集群里面對資料進行重建，如果你的mapping因為修改而需要重建，又或者索引設定修改需要重建的時候，借助Reindex可以很方便的異步進行重建，并且支持跨集群間的資料遷移。比如按天創建的索引可以定期重建合并到以月為單位的索引里面去。當然索引里面要啟用_source。

執行Reindex慢的原因分析
reindex的核心做跨索引、跨集群的資料遷移。
慢的原因及優化思路無非包括：

1）批量大小值可能太小。
需要結合堆記憶體、執行緒池調整大小；
2）reindex的底層是scroll實作，借助scroll并行優化方式，提升效率；
3）跨索引、跨集群的核心是寫入資料，考慮寫入優化角度提升效率。
Reindex提高效率的做法
提高批量寫入大小值
默認情況下，_reindex使用1000進行批量操作，您可以在source中調整batch_size。

POST _reindex
{
  "source": {
    "index": "source",
    "size": 5000
  },
  "dest": {
    "index": "dest",
    "routing": "=cat"
  }
}
批量大小設定的依據：

（1）使用批量索引請求以獲得最佳性能。
批量大小取決于資料、分析和集群配置，但一個好的起點是每批處理5-15 MB。
注意，這是物理大小。檔案數量不是度量批量大小的好指標。例如，如果每批索引1000個檔案，:
1）每個1kb的1000個檔案是1mb。
2）每個100kb的1000個檔案是100 MB。
這些是完全不同的體積大小。
（2）逐步遞增檔案容量大小的方式調優。
1）從大約5-15 MB的大容量開始，慢慢增加，直到你看不到性能的提升。然后開始增加批量寫入的并發性(多執行緒等等)。
2）使用kibana、cerebro或iostat、top和ps等工具監視節點，以查看資源何時開始出現瓶頸。如果您開始接收EsRejectedExecutionException，您的集群就不能再跟上了:至少有一個資源達到了容量。要么減少并發性，或者提供更多有限的資源(例如從機械硬碟切換到ssd固態硬碟)，要么添加更多節點。
借助scroll的sliced提升寫入效率
Reindex支持Sliced Scroll以并行化重建索引程序。這種并行化可以提高效率，并提供一種方便的方法將請求分解為更小的部分。

sliced原理（from medcl）
1）用過Scroll介面吧，很慢？如果你資料量很大，用Scroll遍歷資料那確實是接受不了，現在Scroll介面可以并發來進行資料遍歷了。
2）每個Scroll請求，可以分成多個Slice請求，可以理解為切片，各Slice獨立并行，利用Scroll重建或者遍歷要快很多倍。

slicing使用舉例
slicing的設定分為兩種方式：手動設定分片、自動設定分片。
手動設定分片參見官網。
自動設定分片如下：

POST _reindex?slices=5&refresh
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}
slices大小設定注意事項：
1）slices大小的設定可以手動指定，或者設定slices設定為auto，auto的含義是：針對單索引，slices大小=分片數；針對多索引，slices=分片的最小值。
2）當slices的數量等于索引中的分片數量時，查詢性能最高效。slices大小大于分片數，非但不會提升效率，反而會增加開銷。
3）如果這個slices數字很大(例如500)，建議選擇一個較低的數字，因為過大的slices 會影響性能。

ES副本數設定為0
如果要進行大量批量匯入，請考慮通過設定index.number_of_replicas來禁用副本：0。
主要原因在于：復制檔案時，將整個檔案發送到副本節點，并逐字重復索引程序。這意味著每個副本都將執行分析，索引和潛在合并程序。
相反，如果您使用零副本進行索引，然后在提取完成時啟用副本，則恢復程序本質上是逐位元組的網路傳輸。這比復制索引程序更有效。

PUT /my_logs/_settings
{
    "number_of_replicas": 0
}
增加refresh間隔或干脆禁用掉
如果你的搜索結果不需要接近實時的準確性，考慮先不要急于索引重繪refresh。默認值是1s，在做reindex時可以將每個索引的refresh_interval到30s或禁用（-1）。
如果正在進行大量資料匯入，reindex就是此場景，先將此值設定為-1來禁用重繪。完成后再重置回需要的值!
設定方法：

PUT /index_name/_settings
{ "refresh_interval": -1 }

還原方法：

PUT /index_name/_settings
{ "refresh_interval": "30s" }

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/33051.html

標籤：搜索引擎技術

上一篇：溝通交流

下一篇：求AI明星臉素材