應該沒人比我更細了吧：帶你深入剖析Redis分布式鎖！-有解無憂

什么是分布式鎖

說到Redis，我們第一想到的功能就是可以快取資料，除此之外，Redis因為單行程、性能高的特點，它還經常被用于做分布式鎖，

鎖我們都知道，在程式中的作用就是同步工具，保證共享資源在同一時刻只能被一個執行緒訪問，Java中的鎖我們都很熟悉了，像synchronized 、Lock都是我們經常使用的，但是Java的鎖只能保證單機的時候有效，分布式集群環境就無能為力了，這個時候我們就需要用到分布式鎖，

分布式鎖，顧名思義，就是分布式專案開發中用到的鎖，可以用來控制分布式系統之間同步訪問共享資源，一般來說，分布式鎖需要滿足的特性有這么幾點：

1、互斥性：在任何時刻，對于同一條資料，只有一臺應用可以獲取到分布式鎖；

2、高可用性：在分布式場景下，一小部分服務器宕機不影響正常使用，這種情況就需要將提供分布式鎖的服務以集群的方式部署；

3、防止鎖超時：如果客戶端沒有主動釋放鎖，服務器會在一段時間之后自動釋放鎖，防止客戶端宕機或者網路不可達時產生死鎖；

4、獨占性：加鎖解鎖必須由同一臺服務器進行，也就是鎖的持有者才可以釋放鎖，不能出現你加的鎖，別人給你解鎖了；

業界里可以實作分布式鎖效果的工具很多，但操作無非這么幾個：加鎖、解鎖、防止鎖超時，

既然本文說的是Redis分布式鎖，那我們理所當然就以Redis的知識點來延伸，

實作鎖的命令

先介紹下Redis的幾個命令，

1、SETNX，用法是SETNX key value

SETNX是『 SET if Not eXists』(如果不存在，則 SET)的簡寫，設定成功就回傳1，否則回傳0，

可以看出，當把key為lock的值設定為"Java"后，再設定成別的值就會失敗，看上去很簡單，也好像獨占了鎖，但有個致命的問題，就是key沒有過期時間，這樣一來，除非手動洗掉key或者獲取鎖后設定過期時間，不然其他執行緒永遠拿不到鎖，

既然這樣，我們給key加個過期時間總可以吧，直接讓執行緒獲取鎖的時候執行兩步操作：

SETNX Key 1
EXPIRE Key Seconds

這個方案也有問題，因為獲取鎖和設定過期時間分成兩步了，不是原子性操作，有可能獲取鎖成功但設定時間失敗，那樣不就白干了嗎，

不過也不用急，這種事情Redis官方早為我們考慮到了，所以就引出了下面這個命令

2、SETEX，用法SETEX key seconds value

將值 value 關聯到 key ，并將 key 的生存時間設為 seconds (以秒為單位)，如果 key 已經存在，SETEX 命令將覆寫舊值，

這個命令類似于以下兩個命令：

SET key value
EXPIRE key seconds  # 設定生存時間

這兩步動作是原子性的，會在同一時間完成，

3、PSETEX ，用法PSETEX key milliseconds value

這個命令和SETEX命令相似，但它以毫秒為單位設定 key 的生存時間，而不是像SETEX命令那樣，以秒為單位，

不過，從Redis 2.6.12 版本開始，SET命令可以通過引數來實作和SETNX、SETEX、PSETEX 三個命令相同的效果，

就比如這條命令

SET key value NX EX seconds

加上NX、EX引數后，效果就相當于SETEX，這也是Redis獲取鎖寫法里面最常見的，

怎么釋放鎖

釋放鎖的命令就簡單了，直接洗掉key就行，但我們前面說了，因為分布式鎖必須由鎖的持有者自己釋放，所以我們必須先確保當前釋放鎖的執行緒是持有者，沒問題了再洗掉，這樣一來，就變成兩個步驟了，似乎又違背了原子性了，怎么辦呢？

不慌，我們可以用lua腳本把兩步操作做拼裝，就好像這樣：

if redis.call("get",KEYS[1]) == ARGV[1]
then
    return redis.call("del",KEYS[1])
else
    return 0
end

KEYS[1]是當前key的名稱，ARGV[1]可以是當前執行緒的ID(或者其他不固定的值，能識別所屬執行緒即可)，這樣就可以防止持有過期鎖的執行緒，或者其他執行緒誤刪現有鎖的情況出現，

代碼實作

知道了原理后，我們就可以手寫代碼來實作Redis分布式鎖的功能了，因為本文的目的主要是為了講解原理，不是為了教大家怎么寫分布式鎖，所以我就用偽代碼實作了，

首先是redis鎖的工具類，包含了加鎖和解鎖的基礎方法：

public class RedisLockUtil {

    private String LOCK_KEY = "redis_lock";

    // key的持有時間，5ms
    private long EXPIRE_TIME = 5;

    // 等待超時時間，1s
    private long TIME_OUT = 1000;

    // redis命令引數，相當于nx和px的命令合集
    private SetParams params = SetParams.setParams().nx().px(EXPIRE_TIME);

    // redis連接池，連的是本地的redis客戶端
    JedisPool jedisPool = new JedisPool("127.0.0.1", 6379);

    /**
     * 加鎖
     *
     * @param id
     *            執行緒的id，或者其他可識別當前執行緒且不重復的欄位
     * @return
     */
    public boolean lock(String id) {
        Long start = System.currentTimeMillis();
        Jedis jedis = jedisPool.getResource();
        try {
            for (;;) {
                // SET命令回傳OK ，則證明獲取鎖成功
                String lock = jedis.set(LOCK_KEY, id, params);
                if ("OK".equals(lock)) {
                    return true;
                }
                // 否則回圈等待，在TIME_OUT時間內仍未獲取到鎖，則獲取失敗
                long l = System.currentTimeMillis() - start;
                if (l >= TIME_OUT) {
                    return false;
                }
                try {
                    // 休眠一會，不然反復執行回圈會一直失敗
                    Thread.sleep(100);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
        } finally {
            jedis.close();
        }
    }

    /**
     * 解鎖
     *
     * @param id
     *            執行緒的id，或者其他可識別當前執行緒且不重復的欄位
     * @return
     */
    public boolean unlock(String id) {
        Jedis jedis = jedisPool.getResource();
        // 洗掉key的lua腳本
        String script = "if redis.call('get',KEYS[1]) == ARGV[1] then" + "   return redis.call('del',KEYS[1]) " + "else"
            + "   return 0 " + "end";
        try {
            String result =
                jedis.eval(script, Collections.singletonList(LOCK_KEY), Collections.singletonList(id)).toString();
            return "1".equals(result);
        } finally {
            jedis.close();
        }
    }
}

具體的代碼作用注釋已經寫得很清楚了，然后我們就可以寫一個demo類來測驗一下效果：

public class RedisLockTest {
    private static RedisLockUtil demo = new RedisLockUtil();
    private static Integer NUM = 101;

    public static void main(String[] args) {
        for (int i = 0; i < 100; i++) {
            new Thread(() -> {
                String id = Thread.currentThread().getId() + "";
                boolean isLock = demo.lock(id);
                try {
                 // 拿到鎖的話，就對共享引數減一
                    if (isLock) {
                        NUM--;
                        System.out.println(NUM);
                    }
                } finally {
                 // 釋放鎖一定要注意放在finally
                    demo.unlock(id);
                }
            }).start();
        }
    }
}

我們創建100個執行緒來模擬并發的情況，執行后的結果是這樣的：

可以看出，鎖的效果達到了，執行緒安全是可以保證的，

當然，上面的代碼只是簡單的實作了效果，功能肯定是不完整的，一個健全的分布式鎖要考慮的方面還有很多，實際設計起來不是那么容易的，

我們的目的只是為了學習和了解原理，手寫一個工業級的分布式鎖工具不現實，也沒必要，類似的開源工具一大堆（Redisson），原理都差不多，而且早已經過業界同行的檢驗，直接拿來用就行，

雖然功能是實作了，但其實從設計上來說，這樣的分布式鎖存在著很大的缺陷，這也是本篇文章想重點探討的內容，

分布式鎖的缺陷

一、客戶端長時間阻塞導致鎖失效問題

客戶端1得到了鎖，因為網路問題或者GC等原因導致長時間阻塞，然后業務程式還沒執行完鎖就過期了，這時候客戶端2也能正常拿到鎖，可能會導致執行緒安全的問題，

那么該如何防止這樣的例外呢？我們先不說解決方案，介紹完其他的缺陷后再來討論，

二、redis服務器時鐘漂移問題

如果redis服務器的機器時鐘發生了向前跳躍，就會導致這個key過早超時失效，比如說客戶端1拿到鎖后，key的過期時間是12:02分，但redis服務器本身的時鐘比客戶端快了2分鐘，導致key在12:00的時候就失效了，這時候，如果客戶端1還沒有釋放鎖的話，就可能導致多個客戶端同時持有同一把鎖的問題，

三、單點實體安全問題

如果redis是單master模式的，當這臺機宕機的時候，那么所有的客戶端都獲取不到鎖了，為了提高可用性，可能就會給這個master加一個slave，但是因為redis的主從同步是異步進行的，可能會出現客戶端1設定完鎖后，master掛掉，slave提升為master，因為異步復制的特性，客戶端1設定的鎖丟失了，這時候客戶端2設定鎖也能夠成功，導致客戶端1和客戶端2同時擁有鎖，

為了解決Redis單點問題，redis的作者提出了RedLock演算法，

RedLock演算法

該演算法的實作前提在于Redis必須是多節點部署的，可以有效防止單點故障，具體的實作思路是這樣的：

1、獲取當前時間戳（ms）；

2、先設定key的有效時長（TTL），超出這個時間就會自動釋放，然后client（客戶端）嘗試使用相同的key和value對所有redis實體進行設定，每次鏈接redis實體時設定一個比TTL短很多的超時時間，這是為了不要過長時間等待已經關閉的redis服務，并且試著獲取下一個redis實體，

比如：TTL（也就是過期時間）為5s，那獲取鎖的超時時間就可以設定成50ms，所以如果50ms內無法獲取鎖，就放棄獲取這個鎖，從而嘗試獲取下個鎖；

3、client通過獲取所有能獲取的鎖后的時間減去第一步的時間，還有redis服務器的時鐘漂移誤差，然后這個時間差要小于TTL時間并且成功設定鎖的實體數>= N/2 + 1（N為Redis實體的數量），那么加鎖成功

比如TTL是5s，連接redis獲取所有鎖用了2s，然后再減去時鐘漂移（假設誤差是1s左右），那么鎖的真正有效時長就只有2s了；

4、如果客戶端由于某些原因獲取鎖失敗，便會開始解鎖所有redis實體，

根據這樣的演算法，我們假設有5個Redis實體的話，那么client只要獲取其中3臺以上的鎖就算是成功了，用流程圖演示大概就像這樣：

好了，演算法也介紹完了，從設計上看，毫無疑問，RedLock演算法的思想主要是為了有效防止Redis單點故障的問題，而且在設計TTL的時候也考慮到了服務器時鐘漂移的誤差，讓分布式鎖的安全性提高了不少，

但事實真的是這樣嗎？反正我個人的話感覺效果一般般，

首先第一點，我們可以看到，在RedLock演算法中，鎖的有效時間會減去連接Redis實體的時長，如果這個程序因為網路問題導致耗時太長的話，那么最終留給鎖的有效時長就會大大減少，客戶端訪問共享資源的時間很短，很可能程式處理的程序中鎖就到期了，而且，鎖的有效時間還需要減去服務器的時鐘漂移，但是應該減多少合適呢，要是這個值設定不好，很容易出現問題，

然后第二點，這樣的演算法雖然考慮到用多節點來防止Redis單點故障的問題，但但如果有節點發生崩潰重啟的話，還是有可能出現多個客戶端同時獲取鎖的情況，

假設一共有5個Redis節點：A、B、C、D、E，客戶端1和2分別加鎖

客戶端1成功鎖住了A，B，C，獲取鎖成功（但D和E沒有鎖住），
節點C的master掛了，然后鎖還沒同步到slave，slave升級為master后丟失了客戶端1加的鎖，
客戶端2這個時候獲取鎖，鎖住了C，D，E，獲取鎖成功，

這樣，客戶端1和客戶端2就同時拿到了鎖，程式安全的隱患依然存在，除此之外，如果這些節點里面某個節點發生了時間漂移的話，也有可能導致鎖的安全問題，

所以說，雖然通過多實體的部署提高了可用性和可靠性，但RedLock并沒有完全解決Redis單點故障存在的隱患，也沒有解決時鐘漂移以及客戶端長時間阻塞而導致的鎖超時失效存在的問題，鎖的安全性隱患依然存在，

結論

有人可能要進一步問了，那該怎么做才能保證鎖的絕對安全呢？

對此我只能說，魚和熊掌不可兼得，我們之所以用Redis作為分布式鎖的工具，很大程度上是因為Redis本身效率高且單行程的特點，即使在高并發的情況下也能很好的保證性能，但很多時候，性能和安全不能完全兼顧，如果你一定要保證鎖的安全性的話，可以用其他的中間件如db、zookeeper來做控制，這些工具能很好的保證鎖的安全，但性能方面只能說是差強人意，否則大家早就用上了，

一般來說，用Redis控制共享資源并且還要求資料安全要求較高的話，最終的保底方案是對業務資料做冪等控制，這樣一來，即使出現多個客戶端獲得鎖的情況也不會影響資料的一致性，當然，也不是所有的場景都適合這么做，具體怎么取舍就需要各位看官自己處理啦，畢竟，沒有完美的技術，只有適合的才是最好的，

寫在最后

歡迎大家關注我的公眾號【風平浪靜如碼】，海量Java相關文章，學習資料都會在里面更新，整理的資料也會放在里面，

覺得寫的還不錯的就點個贊，加個關注唄！點關注，不迷路，持續更新！！！

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/247276.html

標籤：Java

上一篇：MP（MyBatis-Plus）的自動填充功能

下一篇：淺談大型網站之負載均衡架構