主頁 >  其他 > 【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究

【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究

2023-05-07 08:23:20 其他

作者:京東科技 王長春

業務問題

小編作業中負責業務的一個服務端系統,使用了 Elasticsearch 服務做資料存盤,業務運營人員反饋,用戶在使用該產品時發現,用戶后臺統計的訂單筆數和匯出的訂單筆數不一致

交易訂單筆數不對,出現差錯訂單了?這一聽極為震撼!出現這樣的問題,在金融科技公司里面是絕對不允許發生的,得馬上定位問題并解決!

線上反饋業務資料查詢和匯出資料不一致

小編馬上聯系業務和相關人員,通過梳理上游系統的呼叫關系,發現業務系統使用到的是我這邊的 ES 的存盤服務,然后對線上情況進行復現,基本了解問題的現象:

  1. 用戶操作后臺里的訂單總筆數:商戶頁面的"訂單總筆數","訂單總筆數"使用的是小編 ES 存盤服務中 ES 的統計聚合功能,其中訂單總筆數是使用了 cardinality 操作,并且使用的是 orderId(訂單編號)進行統計去重,
  2. 匯出功能里的訂單總筆數:匯出功能使用的是 ES 存盤服務中的 ES 條件查詢功能,匯出功能是進行分頁查詢的,

問題定位

這兩個查詢數量不一致,首先看查詢條件是否一致呢?

經過一番排查,業務系統在呼叫查詢訂單總數和匯出訂單總數的這兩個查詢條件是一致的,也就是請求到我這邊 ES 服務時,統計聚合的查詢和分頁匯出的查詢條件是一致的,但是為什么會在 ES 里面查詢的結果是不一致的呢?難道 ES 里面的資料不全?統計聚合或分頁匯出的其中有一個不準了?

為了具體排查哪個操作可能存在問題,于是通過相同條件下查詢資料庫的總數和 ES 里面的資料進行對比,發現相同條件下,資料庫里面的資料和 ES 條件查詢的總數是一致的, 同時業務的 orerId 欄位是沒有重復,所以可以確定的是:通過 orderId 進行統計聚合去重的操作是有問題的,

資料庫查詢數量

運營后臺查詢數量

資料庫查詢:資料庫是做分庫分表,此處資料庫查詢使用的是公司內的資料部銀河大表——公司資料部會 T+1日從業務從庫資料庫中抽取 T 日的增量資料放在建立的"大表"中, 方便各業務進行資料使用,

運營后臺查詢:運營后臺查詢是直接查詢 ES 存盤服務,

資料部大表數量 = MySQL 資料庫分庫分表表里數量 = 運營控制臺查詢數量 = ES 存盤檔案數量

問題定位:
ES 存盤服務對外給業務提供的: 通過 orderId 進行統計聚合去重(cardinality)的功能應該是有問題的,

ES 的 cardinality 原理探究

上面說過,小編負責的 ES 存盤服務對外給業務提供了通過指定業務欄位進行統計聚合去重的功能,統計聚合去重使用的是 ES 的 cardinality 功能,通過業務的查詢的條件,使用 ES 的聚合功能 cardinality 操作,映射到 ES 層的操作命令如下代碼所示,

執行業務的查詢條件操作,從 ES 的管理端后臺里面查詢竟然復現了和線上生產一樣的結果,聚合統計的是 21514,條件查詢的是 21427!!!

可以確定的就是這個 cardinality 操作,導致了兩個查詢的資料不一致,如下圖所示:

GET datastore_big_es_1_index/datastore_big_es_1_type/_search
{
  "size": 3,
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "v021.raw": "selfhelp"
          }
        },
        {
          "match": {
            "v012.raw": "1001"
          }
        },
        {
          "match": {
            "typeId": "00029"
          }
        },
        {
          "range": {
            "createdDate": {
              "gte": "2021-02-01",
              "lt": "2021-03-01"
            }
          }
        },
        {
          "bool": {
            "should": [
              {
                "match": {
                  "v031.raw": "113692300"
                }
              }
            ]
          }
        }
      ]
    }
  },
  "aggs": {
    "distinct_orderId": {
      "cardinality": {
        "field": "v033.raw"
      }
    }
  }
}


ES集群控制臺cardinality操作

為什么 cardinality 操作會出現這樣的結果呢?

小編開始陷入了想當然的陷阱—— 以為這就是一個簡簡單單的統計去重的功能,ES 做的多好,幫你去重并統計數量了,然后事實并不是,通過 Elasticsearch 對 cardinality 官方檔案解釋,終于找到了原因,

可以參考Elasticsearch 2.x 版本官方檔案對 cardinality的解釋:cardinality

其中對 cardinality 演算法核心解釋是:

ES檔案中對cardinality演算法介紹

可以總結如下:

  1. cardinality 并不是像關系型資料庫 MySQL 一樣精確去重的,cardinality做的是一個近似值,是 ES 幫你"估算"出的,這個估算使用的HyperLogLog++(HLL)演算法,在速度上非常快,遍歷一次即可統計去重,具體可看檔案中推薦的論文,
  2. ES 做cardinality估算,是可以設定估算精確度,即設定引數  precision_threshold 引數,但是這個引數在 0-40000, 這個值越大意味著精度越高,同時意味著損失更多的記憶體,是以記憶體空間換精度,
  3. 在小資料量下,ES 的這個"估算"精度是非常高的,幾乎可以說是等于實際數量,

ES 中 cardinality 引數驗證

下面對 ES 的 cardinality 的precision_threshold引數進行驗證:

1、大資料量下,設定最高精度及其以上,仍然會存在誤差:

大資料量下,設定percision_threshold高精度值驗證

2、小資料量下,設定最高精度,可以和實際數量保持一致:

小資料量下,設定percision_threshold高精度驗證

那么線上的為什么聚合統計的是 21514,條件查詢的是 21427?

線上代碼運行和ES集群設定都沒有主動設定過 precision_threshold 引數,那么可以知道,這個應該是 ES 集群設定的默認值,線上 ES 集群版本為 5.4x  因此找到 5.4 版本的官方檔案,發現 5.4 版本中設定的是默認值 precision_threshold=3000, 在此條件下查詢的統計聚合出來的值是 21514,

另外 ES 官方對 cardinality 操作中的precision_threshold引數也做了研究,研究了官方檔案中precision_threshold設定cardinality查詢失敗率查詢資料量級的關系,可作為我們在業務開發中進行參考,如下圖所示:
官方檔案中precision_threshold設定和cardinality查詢失敗率的關系研究

Elasticsearch 5.4版本官方檔案對cardinality中precision_threshold引數的研究檔案:precision_threshold

總結與方案

通過對 cardinality 的原理探究, 需要明白的是 : 我們使用 cardinality 是需要區分使用場景的,

  1. 對于精確統計的業務場景,是不建議使用的,例如:訂單數的統計(統計結果會引起歧義)的場景下,不建議使用,
  2. 對于非精確統計的業務場景,那么可以說是很有用了,尤其是在大資料量的場景下,在保持一定的準確性下,同時能提供高性能,例如:監控指標資料,大盤比例計算等場景,在非精確統計下,是有很大用處,

基于小編的這個業務場景,對商戶訂單進行統計,是屬于精確統計場景,那 cardinality 操作就不適合了,又因為業務的 orderId 是不會重復的,理論上在我們 ES 集群中每個記錄的 orderId 都是唯一的,因此可以不用進行去重,而可以直接使用 ES 的 count 操作,將訂單數統計匯總出,對應 Elasticsearch 開發包中 COUNT API 如下:

org.springframework.data.elasticsearch.core.ElasticsearchTemplate
#count(org.springframework.data.elasticsearch.core.query.SearchQuery, java.lang.Class<T>)


public <T> long count(SearchQuery searchQuery, Class<T> clazz) {
    QueryBuilder elasticsearchQuery = searchQuery.getQuery();
    QueryBuilder elasticsearchFilter = searchQuery.getFilter();
    return elasticsearchFilter == null ? this.doCount(this.prepareCount(searchQuery, clazz), elasticsearchQuery) : this.doCount(this.prepareSearch(searchQuery, clazz), elasticsearchQuery, elasticsearchFilter);
}


最后歡迎大家點贊、收藏、評論,轉發!??????

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551828.html

標籤:其他

上一篇:淺談聯網汽車安全漏洞

下一篇:返回列表

標籤雲
其他(158578) Python(38118) JavaScript(25404) Java(18023) C(15222) 區塊鏈(8262) C#(7972) AI(7469) 爪哇(7425) MySQL(7165) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5335) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4565) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1965) Web開發(1951) HtmlCss(1932) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究

    小編作業中負責業務的一個服務端系統,使用了 Elasticsearch 服務做資料存盤,業務運營人員反饋,用戶在使用該產品時發現,用戶后臺統計的訂單筆數和匯出的訂單筆數不一致!對此進行排查并進行總結 ......

    uj5u.com 2023-05-07 08:23:20 more
  • 淺談聯網汽車安全漏洞

    ?“智能網聯汽車存在內生共性問題,即軟硬體的漏洞后門,基于此進行的網路攻擊可以直接帶來勒索、盜竊、大規模車輛惡意操控風險,還有資料泄露等網路安全事件。如果內生的漏洞后門問題不解決,系統自身難保,很難談系統安全之上的資料安全、應用安全。” ——中國工程院院士鄔江興 隨著汽車智能化、網聯化技術發展,汽車 ......

    uj5u.com 2023-05-07 08:23:02 more
  • Vulnhub之Funbox 4靶機詳細測驗程序(提權成功)

    Funbox 4 靶機資訊 名稱:Funbox: CTF URL: https://www.vulnhub.com/entry/funbox-ctf,546/ 識別靶機IP地址 將靶機匯入 VirtualBox。配置其網卡為主機模式配置。啟動 Kali Linux 和靶機。 內置 netdiscov ......

    uj5u.com 2023-05-07 08:22:52 more
  • 【介面自動化測驗】月薪12k必會技術,從0到1學習介面自動化測驗,6個

    ?導讀:在所有的開發測驗中,介面測驗是必不可少的一項。有效且覆寫完整的介面測驗,不僅能保障新功能的開發質量,還能讓開發在修改功能邏輯的時候有回歸的能力,同時也是能優雅地進行重構的前提。撰寫介面測驗要遵守哪些原則?測驗代碼的結構應該是什么樣的?介面測驗有哪些實踐技巧?本文分享作者在介面測驗上的實踐總結 ......

    uj5u.com 2023-05-07 08:22:44 more
  • 用Radare2模擬shellcode運行

    本文將探討如何在x86_64的Ubuntu系統上模擬32位ARM shellcode。由于大多數筆記本電腦和作業站還沒有運行ARM,我們這里需要一種其他方法在系統上執行非原生的指令。 ......

    uj5u.com 2023-05-07 08:22:31 more
  • 使用Aidlux,輕松落地電力巡檢AI應用

    本專案參考AidLux AI 實戰訓練營內容,3-4個課時落地AI應用 電力線路是電力系統的重要組成部分, 它的安全可靠運行直接關系到一個國家經濟的穩定發展。 電力線路一旦出現故障,則有可能影響到成片區域的供電安全, 嚴重的甚至造成不可估量的損失。 因此, 預防電力線路故障預防歷來是電力系統的一項重 ......

    uj5u.com 2023-05-07 08:22:15 more
  • 8年測驗開發,寫給1-3年功能測驗的幾點建議,滿滿硬貨指導

    從15年畢業到現在也從業八年了,普通本科畢業,現在一家互聯網公司擔任測驗部門總監,摸爬打滾,坑坑洼洼也經歷了不少。思緒很久決定還是寫下這篇,希望對后進的小伙子少走一點彎路。 很多人把職場想得太美好,其實不然。如果你沒有規劃好,你就會難免遇到各種各樣的問題:作業不開心;沒有前進的動力;作業不是自己想像 ......

    uj5u.com 2023-05-07 08:21:57 more
  • 分布式場景下,如何對外提供易變的服務,打造可靠的注冊中心?

    摘要:本文講了關于服務發現的很多干貨內容,核心內容為服務發現組件的選擇、網關的介紹、 客戶端側如何發給已發現的服務。 本文分享自華為云社區《分布式場景下,如何對外提供易變的服務,打造可靠的注冊中心?》,作者:breakDawn。 隨著云原生的概念越來越火,服務的架構應該如何發展和演進,成為很多程式員 ......

    uj5u.com 2023-05-07 08:21:27 more
  • 當前區塊鏈研究領域的前沿技術和研究方向

    本文分享自天翼云開發者社區《當前區塊鏈研究領域的前沿技術和研究方向》 作者:施****慶 區塊鏈在過去幾年中引起了巨大的關注,這得益于它們的分散性、透明性、匿名性和不可篡改性,這些特點使得區塊鏈技術可以應用于許多領域。目前,區塊鏈技術已被應用于金融、醫療、供應鏈等多個領域,而且也有很多研究人員正在致 ......

    uj5u.com 2023-05-07 08:21:20 more
  • Istio資料面新模式:Ambient Mesh技術決議

    摘要:Ambient Mesh以一種更符合大規模落地要求的形態出現,克服了大多數Sidecar模式的固有缺陷,讓用戶無需再感知網格相關組件,真正將網格下沉為基礎設施。 本文分享自華為云社區《華為云云原生團隊:Istio資料面新模式 Ambient Mesh技術決議》,作者: 云容器大未來。 如果說在 ......

    uj5u.com 2023-05-07 08:21:11 more