主頁 > 軟體設計 > 面試題詳解:如何用Redis實作分布式鎖?

面試題詳解:如何用Redis實作分布式鎖?

2022-03-17 07:06:03 軟體設計

說一道常見面試題:

使用Redis分布式鎖的詳細方案是什么?

一個很簡單的答案就是去使用 Redission 客戶端,Redission 中的鎖方案就是 Redis 分布式鎖的比較完美的詳細方案,

那么,Redission 中的鎖方案為什么會比較完美呢?

正好,我用 Redis 做分布式鎖經驗十分豐富,在實際作業中,也探索過許多種使用 Redis 做分布式鎖的方案,經過了無數血淚教訓,

所以,在談及 Redission 鎖為什么比較完美之前,先給大家看看我曾經使用 Redis 做分布式鎖遇到過的問題,

我曾經用 Redis 做分布式鎖想去解決一個用戶搶優惠券的問題,這個業務需求是這樣的:當用戶領完一張優惠券后,優惠券的數量必須相應減一,如果優惠券搶光了,就不允許用戶再搶了,

在實作時,先從資料庫中先讀出優惠券的數量進行判斷,當優惠券大于 0,就進行允許領取優惠券,然后,再將優惠券數量減一后,寫回資料庫,

當時由于請求數量比較多,所以,我們使用了三臺服務器去做分流,

這時候會出現一個問題:

如果其中一臺服務器上的 A 應用獲取到了優惠券的數量之后,由于處理相關業務邏輯,未及時更新資料庫的優惠券數量;在 A 應用處理業務邏輯的時候,另一臺服務器上的 B 應用更新了優惠券數量,那么,等 A 應用去更新資料庫中優惠券數量時,就會把 B 應用更新的優惠券數量覆寫掉,

看到這里,可能有人比較奇怪,為什么這里不直接使用 SQL:

update 優惠券表 set 優惠券數量 = 優惠券數量 - 1 where 優惠券id = xxx

原因是這樣做,在沒有分布式鎖協調下,優惠券數量可能直接會出現負數,因為當優惠券數量為 1 的時候,如果兩個用戶通過兩臺服務器同時發起搶優惠券的請求,都滿足優惠券大于 0 的條件,然后都執行這條 SQL 陳述句,結果優惠券數量直接變成 -1 了,

還有人說可以用樂觀鎖,比如使用如下 SQL:

update 優惠券表 set 優惠券數量 = 優惠券數量 - 1 where 優惠券id = xxx and version = xx

這種方式就在一定幾率下,很可能出現資料一直更新不上,導致長時間重試的情況,

所以,經過綜合考慮,我們就采用了 Redis 分布式鎖,通過互斥的方式,以防止多個客戶端去同時更新優惠券數量的方案,

當時,我們首先想到的就是使用 Redis 的 setnx 命令,setnx 命令其實就是 set if not exists 的簡寫,

當 key 設定值成功后,則回傳 1,否則就回傳 0,所以,這里 setnx 設定成功可以表示成獲取到鎖,如果失敗,則說明已經有鎖,可以被視作獲取鎖失敗,

setnx lock true

如果想要釋放鎖,執行 del 指令,把 key 洗掉即可,

del lock

利用這個特性,我們就可以讓系統在執行優惠券邏輯之前,先去 Redis 中執行 setnx 指令,再根據指令執行結果,去判斷是否獲取到鎖,如果獲取到了,就繼續執行業務,執行完再使用 del 指令去釋放鎖,如果沒有獲取到,就等待一定時間,重新再去獲取鎖,

乍一看,這一切沒什么問題,使用 setnx 指令確實起到了想要的互斥效果,

但是,這是建立在所有運行環境都是正常的情況下的,一旦運行環境出現了例外,問題就出現了,

想一下,持有鎖的應用突然崩潰了,或者所在的服務器宕機了,會出現什么情況?

這會造成死鎖——持有鎖的應用無法釋放鎖,其他應用根本也沒有機會再去獲取鎖了,這會造成巨大的線上事故,我們要改進方案,解決這個問題,

怎么解決呢?咱們可以看到,造成死鎖的根源是,一旦持有鎖的應用出現問題,就不會去釋放鎖,從這個方向思考,可以在 Redis 上給 key 一個過期時間,

這樣的話,即使出現問題,key 也會在一段時間后釋放,是不是就解決了這個問題呢?實際上,大家也確實是這么做的,

不過,由于 setnx 這個指令本身無法設定超時時間,所以一般會采用兩種辦法來做這件事:

1、采用 lua 腳本,在使用 setnx 指令之后,再使用 expire 命令去給 key 設定過期時間,

if redis.call("SETNX", "lock", "true") == 1 then
  local expireResult = redis.call("expire", "lock", "10")
  if expireResult == 1 then
      return "success"
  else
      return "expire failed"
  end
else
  return "setnx not null"
end

2、直接使用 set(key,value,NX,EX,timeout) 指令,同時設定鎖和超時時間,

redis.call("SET", "lock", "true", "NX", "PX", "10000")

以上兩種方法,使用哪種方式都可以,

釋放鎖的腳本兩種方式都一樣,直接呼叫 Redis 的 del 指令即可,

到目前為止,我們的鎖既起到了互斥效果,又不會因為某些持有鎖的系統出現問題,導致死鎖了,這樣就完美了嗎?

假設有這樣一種情況,如果一個持有鎖的應用,其持有的時間超過了我們設定的超時時間會怎樣呢?會出現兩種情況:

  1. 發現系統在 Redis 中設定的 key 還存在
  2. 發現系統在 Redis 中設定的 key 不存在

出現第一種情況比較正常,因為你畢竟執行任務超時了,key 被正常清除也是符合邏輯的,

但是最可怕的是第二種情況,發現設定的 key 還存在,這說明什么?說明當前存在的 key,是另外的應用設定的,

這時候如果持有鎖超時的應用呼叫 del 指令去洗掉鎖時,就會把別人設定的鎖誤洗掉,這會直接導致系統業務出現問題,

所以,為了解決這個問題,我們需要繼續對 Redis 腳本進行改動……毀滅吧,累了……

首先,我們要讓應用在獲取鎖的時候,去設定一個只有應用自己知道的獨一無二的值,

通過這個唯一值,系統在釋放鎖的時候,就能識別出這鎖是不是自己設定的,如果是自己設定的,就釋放鎖,也就是洗掉 key;如果不是,則什么都不做,

腳本如下:

if redis.call("SETNX", "lock", ARGV[1]) == 1 then
	local expireResult = redis.call("expire", "lock", "10")
	if expireResult == 1 then
    	return "success"
	else
    	return "expire failed"
	end
else
  return "setnx not null"
end

或者

redis.call("SET", "lock", ARGV[1], "NX", "PX", "10000")

這里,ARGV[1] 是一個可傳入的引數變數,可以傳入唯一值,比如一個只有自己知道的 UUID 的值,或者通過雪球演算法,生成只有自己持有的唯一 ID,

釋放鎖的腳本改成這樣:

if redis.call("get", "lock") == ARGV[1] 
  then 
	    return redis.call("del", "lock") 
  else 
	    return 0 
end

可以看到,從業務角度,無論如何,我們的分布式鎖已經可以滿足真正的業務需求了,能互斥,不死鎖,不會誤洗掉別人的鎖,只有自己上的鎖,自己可以釋放,

一切都是那么美好!!!

可惜,還有個隱患,我們并未排除,這個隱患就是 Redis 自身,

要知道,lua 腳本都是用在 Redis 的單例上的,一旦 Redis 本身出現了問題,我們的分布式鎖就沒法用了,分布式鎖沒法用,對業務的正常運行會造成重大影響,這是我們無法接受的,

所以,我們需要把 Redis 搞成高可用的,一般來講,解決 Redis 高可用的問題,都是使用主從集群,

但是搞主從集群,又會引入新的問題,主要問題在于,Redis 的主從資料同步有延遲,這種延遲會產生一個邊界條件:當主機上的 Redis 已經被人建好了鎖,但是鎖資料還未同步到從機時,主機宕了,隨后,從機提升為主機,此時從機上是沒有以前主機設定好的鎖資料的——鎖丟了……丟了……了……

到這里,終于可以介紹 Redission(開源 Redis 客戶端)了,我們來看看它怎么是實作 Redis 分布式鎖的,

Redission 實作分布式鎖的思想很簡單,無論是主從集群還是 Redis Cluster 集群,它會對集群中的每個 Redis,挨個去執行設定 Redis 鎖的腳本,也就是集群中的每個 Redis 都會包含設定好的鎖資料,

我們通過一個例子來介紹一下,

假設 Redis 集群有 5 臺機器,同時根據評估,鎖的超時時間設定成 10 秒比較合適,

第 1 步,咱們先算出集群總的等待時間,集群總的等待時間是 5 秒(鎖的超時時間 10 秒 / 2),

第 2 步,用 5 秒除以 5 臺機器數量,結果是 1 秒,這個 1 秒是連接每臺 Redis 可接受的等待時間,

第 3 步,依次連接 5 臺 Redis,并執行 lua 腳本設定鎖,然后再做判斷:

  • 如果在 5 秒之內,5 臺機器都有執行結果,并且半數以上(也就是 3 臺)機器設定鎖成功,則認為設定鎖成功;少于半數機器設定鎖成功,則認為失敗,
  • 如果超過 5 秒,不管幾臺機器設定鎖成功,都認為設定鎖失敗,比如,前 4 臺設定成功一共花了 3 秒,但是最后 1 臺機器用了 2 秒也沒結果,總的等待時間已經超過了 5 秒,即使半數以上成功,這也算作失敗,

再額外多說一句,在很多業務邏輯里,其實對鎖的超時時間是沒有需求的,

比如,凌晨批量執行處理的任務,可能需要分布式鎖保證任務不會被重復執行,此時,任務要執行多長時間是不明確的,如果設定分布式鎖的超時時間在這里,并沒有太大意義,但是,不設定超時時間,又會引發死鎖問題,

所以,解決這種問題的通用辦法是,每個持有鎖的客戶端都啟動一個后臺執行緒,通過執行特定的 lua 腳本,去不斷地重繪 Redis 中的 key 超時時間,使得在任務執行完成前,key 不會被清除掉,

腳本如下:

if redis.call("get", "lock") == ARGV[1] 
  then 
    return redis.call("expire", "lock", "10")
	else 
    return 0 
end

其中,ARGV[1] 是可傳入的引數變數,表示持有鎖的系統的唯一值,也就是只有持有鎖的客戶端才能重繪 key 的超時時間,

到此為止,一個完整的分布式鎖才算實作完畢,總結實作方案如下:

  1. 使用 set 命令設定鎖標記,必須有超時時間,以便客戶端崩潰,也可以釋放鎖;
  2. 對于不需要超時時間的,需要自己實作一個能不斷重繪鎖超時時間的執行緒;
  3. 每個獲取鎖的客戶端,在 Redis 中設定的 value 必須是獨一無二的,以便識別出是由哪個客戶端設定的鎖;
  4. 分布式集群中,直接每臺機器設定一樣的超時時間和鎖標記;
  5. 為了保證集群設定的鎖不會因為網路問題導致某些已經設定的鎖出現超時的情況,必須合理設定網路等待時間和鎖超時時間,

這個分布式鎖滿足如下四個條件:

  1. 任意時刻只能有一個客戶端持有鎖;
  2. 不能發生死鎖,有一個客戶端持有鎖期間出現了問題沒有解鎖,也能保證后面別的客戶端繼續去持有鎖;
  3. 加鎖和解鎖必須是同一個客戶端,客戶端自己加的鎖只能自己去解;
  4. 只要大多數 Redis 節點正常,客戶端就能正常使用鎖,

當然,在 Redission 中的腳本,為了保證鎖的可重入,又對 lua 腳本做了一定的修改,現在把完整的 lua 腳本貼在下面,

獲取鎖的 lua 腳本:

if (redis.call('exists', KEYS[1]) == 0) then
  redis.call('hincrby', KEYS[1], ARGV[2], 1);
  redis.call('pexpire', KEYS[1], ARGV[1]);
  return nil;
end;

if (redis.call('hexists', KEYS[1], ARGV[2]) == 1) then
  redis.call('hincrby', KEYS[1], ARGV[2], 1);
  redis.call('pexpire', KEYS[1], ARGV[1]);
  return nil;
end;

return redis.call('pttl', KEYS[1]);

對應的重繪鎖超時時間的腳本:

if (redis.call('hexists', KEYS[1], ARGV[2]) == 1) then 
	redis.call('pexpire', KEYS[1], ARGV[1]); 
  return 1; 
end;  
return 0;

對應的釋放鎖的腳本:

if (redis.call('hexists', KEYS[1], ARGV[3]) == 0) then
	return nil;
end;

local counter = redis.call('hincrby', KEYS[1], ARGV[3], -1); 

if (counter > 0) then
	redis.call('pexpire', KEYS[1], ARGV[2]);
return 0;
else
	redis.call('del', KEYS[1]);
	redis.call('publish', KEYS[2], ARGV[1]);
return 1;
end;
return nil;

到現在為止,使用 Redis 作為分布式鎖的詳細方案就寫完了,

我既寫了一步一坑的坎坷經歷,也寫明了各個問題和解決問題的細節,希望大家看完能有所識訓,

最后再給大家提個醒,使用 Redis 集群做分布式鎖,有一定的爭議性,還需要大家在實際用的時候,根據現實情況,做出更好的選擇和取舍,


你好,我是四猿外,

一家上市公司的技術總監,管理的技術團隊一百余人,

我原創了不少文章,把其中的一些精華文章做了個匯總整理,搞了一份PDF——《爬坡》,其中包括了15篇技術文章(學習編程技巧、架構師、MQ、分布式)和 13 篇非技術文章(主要是程式員職場),

這份檔案的質量咋樣?我就不多自吹了,很多人看完說”受益匪淺“,

想獲取《爬坡》,可以掃下圖的碼,關注我的公眾號「四猿外」,在后臺回復:爬坡

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/445379.html

標籤:其他

上一篇:創建型:一. 單例模式

下一篇:異地多活的資料一致性簡單設計

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more