主頁 > 軟體設計 > 減少80%存盤-風控名單服務重構剖析

減少80%存盤-風控名單服務重構剖析

2023-03-08 08:39:27 軟體設計

引言

小小的 Redis 大大的不簡單,本文將結合風控名單服務在使用 Redis 存盤資料時的資料結構設計及優化,并詳細分析 redis 底層實作對資料結構選型的重要性,

背景

先來交代下使用場景,在風控場景下,名單服務每時每刻都需要承受海量資料查詢,

名單檢索內容涉及維度非常廣:用戶業務標識(UID)、手機號、身份證號、設備號、IMEI(International Mobile Equipment Identity, 國際移動設備識別碼)、Wifi Mac、IP 等等,用戶的一次業務請求,在風控的中會擴散到多個名單維度,同時還需要在 RT(Response-time) 上滿足業務場景訴求,

這就導致名單服務的構建需要承受住如下挑戰:

  • 海量資料存盤:維度多,存盤內容尚可(是否命中),按照 X 個用戶,Y 個維度,Z 個業務線(隔離),量級非常大
  • 大流量、高并發:業務場景下任何存在風險敞口的點都需要評估過風控,每天決策峰值 TPS 過萬
  • 極低耗時:留給名單服務的時間不多了,如果整體業務系統給風控決策的耗時是 200 ms,名單服務必須要在 30 ~ 50 ms 就得得到結果,否則將極大影響后續規則引擎的運算執行進度

如上系統要求其實在大資料系統架構下都是適用的,只是名單服務要的更極致而已,

在上一篇 《風控核心子域——名單服務構建及挑戰》 文章中已經介紹了名單服務設計,選用了 Redis 作為存盤,目前也只能是 Redis 能滿足名單服務場景的高性能訴求,同時也介紹了選擇用 Redis 中遇到的資料例外及高可用設計架構,忘了或者感興趣的朋友可以再回顧一遍,

名單資料的存盤結構選用的是 Hash 存盤,結構如下:

在此我提出幾個疑問(不知道讀者看完后是否也有~):

  • 為何使用 Hash? 使用 set key-value 結構可以么?
  • 過期時間如何維護?set key-val 可以直接基于 expire 設定, hash 結構內過期的資料是如何洗掉的?
  • 當前設計架構,對 Redis 的記憶體消耗大概在什么水位?可預見的未來能夠滿足業務的增長需求么?

如果你也有這些疑問,那么本篇文章將為你解惑,希望能有識訓,

Redis 是如何存盤資料的?


工欲善其事必先利其器,我們先將常用的 Redis 結構底層實作摸透,才能在使用上游刃有余,由于本文在用的 redis 結構只會涉及到 stringhash,筆者僅分析這兩種,其它的讀者們感興趣可以自行搜索,

字串存盤

string 是 redis 中最常用的存盤結構,redis 實作是是基于 C 語言,此處的字串并不是直接使用 c 中的字串,而是自己實作了一套 “SDS”(簡單動態字串),

struct sdshdr(
    //記錄 buf 陣列中已使用位元組的數量
    //等于 SDS 保存字串的長度
    int len;
    //記錄 buf 陣列中未使用位元組的數量
    int free;
    //位元組陣列,用于保存字串
    char buf[];
}

redis 的底層存盤會使用三種方式來存盤資料:**int****raw****embstr**

int 型別

存盤值:整形,且可以用 long 型別來表示的,舉例如下:

redis> OBJECT ENCODING number
"int"

raw 型別

存盤值:字串值,且字串長度 > 39 位元組的,舉例如下:

redis> SET story "Long, long, long ago there lived a king ..."
OK

redis> STRLEN story
(integer) 43

redis> OBJECT ENCODING story
"raw"

embstr 型別

存盤值:字串值,且字串長度 <= 39 位元組的,

embstr 編碼的字串物件在執行命令時, 產生的效果和 raw 編碼的字串物件執行命令時產生的效果是相同的, 但使用 embstr 編碼的字串物件來保存短字串值有以下好處:

  1. embstr 編碼將創建字串物件所需的記憶體分配次數從 raw 編碼的兩次降低為一次
  2. 釋放 embstr 編碼的字串物件只需要呼叫一次記憶體釋放函式, 而釋放 raw 編碼的字串物件需要呼叫兩次記憶體釋放函式,
  3. 因為 embstr 編碼的字串物件的所有資料都保存在一塊連續的記憶體里面, 所以這種編碼的字串物件比起 raw 編碼的字串物件能夠更好地利用快取帶來的優勢

舉例如下:

redis> SET msg "hello"
OK

redis> OBJECT ENCODING msg
"embstr"

總結如下(redis version > 3.2):

編碼 占用記憶體
可以用 long 型別保存的整數, int 定長 8 位元組
可以用 long double 型別保存的浮點數, embstr 或者 raw 動態擴容的,每次擴容 1 倍,超過 1M 時,每次只擴容 1M,
字串值, 或者因為長度太大而沒辦法用 long 型別表示的整數, 又或者因為長度太大而沒辦法用 long double 型別表示的浮點數, embstr 或者 raw 用來存盤大于 44 個位元組的字串,

Hash 存盤

哈希物件的編碼可以是 ziplist 或者 hashtable ,

ziplist 型別

ziplist 編碼的哈希物件使用壓縮串列作為底層實作, 每當有新的鍵值對要加入到哈希物件時, 程式會先將保存了鍵的壓縮串列節點推入到壓縮串列表尾, 然后再將保存了值的壓縮串列節點推入到壓縮串列表尾, 因此:

  • 保存了同一鍵值對的兩個節點總是緊挨在一起, 保存鍵的節點在前, 保存值的節點在后;
  • 先添加到哈希物件中的鍵值對會被放在壓縮串列的表頭方向, 而后來添加到哈希物件中的鍵值對會被放在壓縮串列的表尾方向,

舉例如下:

redis> HSET profile name "Tom"
(integer) 1

redis> HSET profile age 25
(integer) 1

redis> HSET profile career "Programmer"
(integer) 1


hashtable 型別

哈希物件中的每個鍵值對都使用一個字典鍵值對來保存:

  • 字典的每個鍵都是一個字串物件, 物件中保存了鍵值對的鍵;
  • 字典的每個值都是一個字串物件, 物件中保存了鍵值對的值,

如果上述例子的底層存盤方式是 hashtable,那么物件結構會如圖所示:

總結如下(redis version < 3.2,新版本的優化了使用 quicklist,更新的版本使用 listpack,道理一樣,此處以 ziplist 總結):

編碼 占用記憶體

| 哈希物件保存的所有鍵值對的鍵和值的字串長度都小于 64 位元組;
哈希物件保存的鍵值對數量小于 512 個; | ziplist | 本質是一個字串;尋值需要遍歷字串;缺點是耗費更多的 cpu 來查詢(如果值很少,可以忽略不計) |
| 不滿足上述 ziplist 條件的值 | hashtable | 類似 java HashMap 實作;空間換時間;需要多花費本身存盤的 25%記憶體 |

注意:ziplist 兩個條件的上限值是可以修改的, 具體請看組態檔 redis.conf 中關于 hash-max-ziplist-value 選項和 hash-max-ziplist-entries 選項的說明,

兩種資料結構,按照解釋,當 value 數量控制在 512 時,性能和單純的使用 hashtable 基本一致,value 數量在不超過 1024 時,性能只有極小的降低,然而記憶體的占用 ziplist 比 hashtable 降低了 80% 左右,

名單服務改造

通過如上的分析,我們得出兩個重要結論:

  • key 或者 val 使用編碼是 int 型別時(8 個位元組),要比編碼使用 string 即 raw|embstr 要省很多空間
  • 使用 ziplist 存盤,要比使用 key-value 節省巨大的空間

分析一下名單服務支撐的業務資料量,假設有 5 億個用戶(可能非活躍,就假設全量),每個用戶衍生出 10 個名單維度(手機號、身份證、設備等等),每個維度再衍生出 10 個沙盒隔離環境(業務線、渠道等等),那么總的資料量級在: 500 億左右

分桶

500 億個值如果都存放在 hash 結構中,需要分散到不同的桶(bucket)中,每個桶最大不超過 512 個(這個可以自行配置,最好不超 1024 個,不然損失了查詢性能,配置過大后需要實際壓測檢驗),從而避免 hash 的編碼從 ziplist 切換至 hashtable,

bucket 數量 = 500 億 / 512 = 97,656,250,即需要這么多桶來承載,如果是 1024 個,則桶的量可縮小一倍,但是意義不大,

hash 演算法選擇

需要將這么多維度的資料通過 hash 演算法,均勻、離散的分攤到這些個 bucket 內,必須選擇業內比較有名且碰撞率不高的優秀演算法,可以選擇 crc32(key) % bucketNum,得到該存在哪個 bucket 內,此時再使用 hash 演算法(需要考慮前后兩次 hash 的碰撞率,建議選擇與分桶演算法不一致)或者直接使用 Java 物件的 hashcode 作為 field 即可,整體效果如圖:

新老資料比對


我將用三種資料作比對,分別是:字串直插、老的名單服務資料、新的資料結構

字串直插

key = deviceHash-${名單型別}-${設備指紋}-${沙盒隔離標識}
val = 過期時間戳

模擬在同一個設備指紋下有 10 個業務域隔離,即需要插入 10 條資料

## 插入 10 條資料,此處省略剩余 9 條
127.0.0.1:6379> set deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724-100000 1678157018608
OK

## 單條占用記憶體大小(位元組)
127.0.0.1:6379> memory usage deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724-100000
(integer) 136

## 編碼型別
127.0.0.1:6379> debug object deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724-100000
Value at:0xffffb9a7c0c0 refcount:1 encoding:int serializedlength:14 lru:439622 lru_seconds_idle:745

整體占用記憶體(位元組) = 136 * 10 = 1360

老名單服務資料結構

key = deviceHash-${名單型別}-${設備指紋}
field = ${沙盒隔離標識}
val = 過期時間戳

模擬在同一個設備指紋下有 10 個業務域隔離,即需要插入 10 條資料

## 插入 10 條資料,此處省略剩余 9 條
127.0.0.1:6379> hset deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724 100000 1678157018608
(integer) 1

## 單條占用記憶體大小(位元組)
memory usage deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724
(integer) 296

## 編碼型別
127.0.0.1:6379> debug object deviceHash-3-a313633418103bf58fe65b56bef28884e0ada768d20c94d69fc49ad618d92724
Value at:0xffffb9a7c0d0 refcount:1 encoding:ziplist serializedlength:75 lru:439622 lru_seconds_idle:1168

整體占用記憶體(位元組) = 296
注:此處 hash 的 field 和 val 都為超 64 位元組,滿足 ziplist 要求,

新名單服務資料結構

key = bucket_${取余}
field = hash_long_method(deviceHash-${名單型別}-${設備指紋}-${沙盒隔離標識})
val = 過期時間戳

模擬在同一個設備指紋下有 10 個業務域隔離,即需要插入 10 條資料

## 插入 10 條資料,此處省略剩余 9 條
127.0.0.1:6379> hset bucket_11 206652428 1678157018608
(integer) 1

## 單條占用記憶體大小(位元組)
127.0.0.1:6379> memory usage bucket_11
(integer) 248

## 編碼型別
127.0.0.1:6379> debug object bucket_11
Value at:0xffffb9a7c050 refcount:1 encoding:ziplist serializedlength:76 lru:439622 lru_seconds_idle:1214

整體占用記憶體(位元組) = 248(此處實際節省的是原始字串作直接作為 key 所帶來的消耗)

可見,如上按照 500 億資料計算的話,去除 10 個沙盒隔離維度,則老方案需要 50 億個 hash 結構來存盤,新方案只需要不到 1 億個 結構來存盤,節省的記憶體還是很客觀的,

由于名單服務比較特殊,fieldval 都不大,假設業務上存盤的值超 64 位元組或者 filed 個數超 512,轉變為 hashtable 的話,則新方案節省的就是巨量的記憶體,

總結

新的資料設計結構規避了如下幾個問題:

  • 使用 Hash 是有代價的,底層如果是 hashtable 實作的話,會多用 25% 記憶體空間,畢竟空間換時間嘛
  • key 最好不用原始的字串,更有勝者,長短不一,導致記憶體碎片,占用空間情況更加嚴重
  • 部分開發者喜歡原始字串加 MD5 后得到 32 位字符,解決了記憶體碎片問題,但是相比于編碼是 int 型別,emstr 更占用空間,畢竟前者只需固定 8 個位元組
  • 如上 value 我們只存盤了時間戳,即是 long 型別整數,沒有什么好優化的,假設業務中需要存盤的是 字串,序列化 JSON 串等,應采用高效的 byte[] 壓縮演算法,如 Protocol Buffers 等等

同時,在實施程序中也要注意一些問題:

  • hash 演算法終歸是有碰撞率的,在一些不容許錯誤的(比如金融、風控)等場景下,需要一定的取舍
  • 才有 hash 結構存盤資料,失去了 redis 天然的支持 expire 功能,需要自主維護資料的生命周期,比如在值中追加生命時間戳,整體的高可用也需要保證

往期精彩

  • 風控規則引擎構建及挑戰
  • 風控決策引擎——決策流路徑規劃
  • 風控決策引擎——決策流構建實戰

歡迎關注公眾號:咕咕雞技術專欄
個人技術博客:https://jifuwei.github.io/ >

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/546135.html

標籤:其他

上一篇:java代碼自動生成帶swagger3注解

下一篇:VUE+.NET應用系統的國際化-整體設計思路

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more