這不會又是一個Go的BUG吧？-有解無憂

hello，大家好呀，我是小樓，

最近我又雙叒叕寫了個BUG，一個線上服務死鎖了，不過幸虧是個新服務，沒有什么大影響，

出問題的是Go的讀寫鎖，如果你是寫Java的，不必劃走，更要看看本文，本文的重點在于Java和Go的讀寫鎖對比，甚至看完后你會有一個隱隱的感覺：Go的讀寫鎖是不是有BUG？

故障回放

背景簡單抽象一下：一個server服務（Go語言實作），提供了一個http介面，另有一個client服務來呼叫這個介面，整體架構非常簡單，甚至都不用畫架構圖你也能夠理解，

這兩個服務上線運行了一段時間都沒什么問題，突然有一天client呼叫這個server的介面全都超時了，

碰到這種問題，第一時間去查看日志和監控，client端全是超時日志，server端日志沒有例外，甚至連請求的監控都沒有上報，仿佛client端的請求沒有到達server端一樣，

于是去server服務器上手動請求了一下介面，結果卡主不動，這下排除了client，一定是server端出了問題，

這種卡死的問題其實很好查，直接用pprof看協程卡在哪里基本就能得出結論（和Java的jstack類似的工具），但這個服務沒有開啟pprof，只能改了代碼打開pprof重新發布，等待下次問題復現，

好在運氣不錯，2天后問題就出來了，用pprof看下程式卡在了哪里：

原來卡在了一個判斷集群或服務是否是小流量的地方，該介面會接受一個集群名或服務名的引數，然后判斷該集群或服務是否是小流量集群，進而做一系列事，至于做了啥不重要，小流量集群是配置在配置中心中，

我把這段代碼摘出來（圖中是走的判斷集群分支，下面代碼以更簡單的服務分支講解，底層一致），為了避免空洞，這里我先簡單講解一下程式的邏輯：

這樣圈出重點，你可能一眼就看出問題了，讀鎖加了兩次，第二次沒有必要，屬于手誤了，確實，洗掉第二個加讀鎖的代碼就沒問題了，如果事情到這就結束了，那這篇文章也沒有必要寫了，下面我們分析下為什么會死鎖，

看到這個結果，我第一反應是Go的鎖的重入性問題，

熟悉Java的同學對鎖的重入并不陌生，以防有讀者不明白鎖的重入性，我用一句話來概括：

可重入鎖就是可以重復進入的鎖，也叫遞回鎖，

Java中有一個ReentrantLock，比如這樣，重復加鎖是沒有問題的：

但Go里面的鎖是不可重入的：

這個坑我也踩過，這是Go的實作問題，只要你愿意，用Java也能實作不可重入鎖，但Java中大多數使用的還是可重入鎖，因為用起來比較方便，

至于Go為什么不實作一個可重入的鎖，可以參考煎魚大佬的這篇文章《Go 為什么不支持可重入鎖？》，其原因總結起來就是Go的設計者覺得重入鎖是個不好的設計，所以沒有采納，不過我覺得這篇文章的評論更精彩：

說到這，你可能會說，上面出問題的明明是讀寫鎖（sync.RWMutex），讀寫鎖的特點是什么？

既然讀鎖之間是不互斥，也就是可加兩次讀鎖，那么讀鎖必然是可重入的，我們寫個demo測驗下：

果然如我們所想，順便看一下加讀鎖的邏輯：

看我框出的代碼，如果有寫鎖在等待，讀鎖需要等寫鎖！

這是什么邏輯？

如果一個協程已經拿到了讀鎖，另一個協程嘗試加寫鎖，這時應該加不了，沒什么問題，如果這個讀鎖的協程再去拿讀鎖，需要等寫鎖，這就死鎖了啊！

為了驗證，我構造了一個demo：

這段代碼按①、②、③順序執行，第②段寫鎖需要等第①個讀鎖釋放，第③段讀鎖需要等第②段寫鎖釋放，最終就是一個死鎖的邏輯，

仔細想，這里面最有爭議的要屬已經拿到讀鎖再次進入讀鎖需要等寫鎖這個邏輯，

Java中是這樣的嗎？寫個demo試試：

Java一點事都沒有，這是為啥？遇事不決，看原始碼！但Java的原始碼太長，又不是本文重點，所以就只說幾點重要的結論：

Java的ReentrantReadWriteLock支持鎖降級，但不能升級，即獲取了寫鎖的執行緒，可以繼續獲取讀鎖，但獲取讀鎖的執行緒無法再獲取寫鎖；
ReentrantReadWriteLock實作了公平和非公平兩種鎖，公平鎖的情況下，獲取讀鎖、寫鎖前需要看同步佇列中是否先執行緒在我之前排隊；非公平鎖的情況下：寫鎖可以直接搶占鎖，但是讀鎖獲取有一個讓步條件，如果當前同步佇列head.next是一個寫鎖在等待，并且自己不是重入的，就要讓步等待，

在Java的實作下，如果一個執行緒持有了讀鎖，寫鎖自然是需要等待的，但是持有讀鎖的執行緒也可以再次重入該讀鎖，

我們發現Java和Go的讀寫鎖實作不一致，這個不一致也就是導致我們寫出BUG的原因，