再見！公司的爛系統……-有解無憂

作者：zhanlijun
來源：www.cnblogs.com/LBSer/p/6195309.html

1 為什么要拆分？

先看一段對話，

從上面對話可以看出拆分的理由：

1） 應用間耦合嚴重，系統內各個應用之間不通，同樣一個功能在各個應用中都有實作，后果就是改一處功能，需要同時改系統中的所有應用，這種情況多存在于歷史較長的系統，因各種原因，系統內的各個應用都形成了自己的業務小倍訓；

2） 業務擴展性差，資料模型從設計之初就只支持某一類的業務，來了新型別的業務后又得重新寫代碼實作，結果就是專案延期，大大影響業務的接入速度；

3） 代碼老舊，難以維護，各種隨意的if else、寫死邏輯散落在應用的各個角落，處處是坑，開發維護起來戰戰兢兢；

4） 系統擴展性差，系統支撐現有業務已是顫顫巍巍，不論是應用還是DB都已經無法承受業務快速發展帶來的壓力；

5） 新坑越挖越多，惡性回圈，不改變的話，最終的結果就是把系統做死了，

2 拆前準備什么?

2.1 多維度把握業務復雜度

一個老生常談的問題，系統與業務的關系？

我們最期望的理想情況是第一種關系（車輛與人），業務覺得不合適，可以馬上換一輛新的，但現實的情況是更像心臟起搏器與人之間的關系，不是說換就能換，一個系統接的業務越多，耦合越緊密，如果在沒有真正把握住業務復雜度之前貿然行動，最終的結局就是把心臟帶飛，

如何把握住業務復雜度？需要多維度的思考、實踐，

一個是技術層面，通過與pd以及開發的討論，熟悉現有各個應用的領域模型，以及優缺點，這種討論只能讓人有個大概，更多的細節如代碼、架構等需要通過做需求、改造、優化這些實踐來掌握，

各個應用熟悉之后，需要從系統層面來構思，我們想打造平臺型的產品，那么最重要也是最難的一點就是功能集中管控，打破各個應用的業務小倍訓，統一收攏，這個決心更多的是開發、產品、業務方、各個團隊之間達成的共識，“按照業務或者客戶需求組織資源”，

此外也要與業務方保持功能溝通、計劃溝通，確保應用拆分出來后符合使用需求、擴展需求，獲取他們的支持，

2.2 定義邊界，原則：高內聚，低耦合，單一職責！

業務復雜度把握后，需要開始定義各個應用的服務邊界，怎么才算是好的邊界？像葫蘆娃兄弟一樣的應用就是好的！

舉個例子，葫蘆娃兄弟（應用）間的技能是相互獨立的，遵循單一職責原則，比如水娃只能噴水，火娃只會噴火，隱形娃不會噴水噴火但能隱身，更為關鍵的是，葫蘆娃兄弟最終可以合體為金剛葫蘆娃，即這些應用雖然功能彼此獨立，但又相互打通，最后合體在一起就成了我們的平臺，

這里很多人會有疑惑，拆分粒度怎么控制？很難有一個明確的結論，只能說是結合業務場景、目標、進度的一個折中，但總體的原則是先從一個大的服務邊界開始，不要太細，因為隨著架構、業務的演進，應用自然而然會再次拆分，讓正確的事情自然發生才最合理，

2.3 確定拆分后的應用目標

一旦系統的宏觀應用拆分圖出來后，就要落實到某一具體的應用拆分上了，

首先要確定的就是某一應用拆分后的目標，拆分優化是沒有底的，可能越做越深，越做越沒結果，繼而又影響自己和團隊的士氣，比如說可以定這期的目標就是將db、應用分拆出去，資料模型的重新設計可以在第二期，

2.4 確定當前要拆分應用的架構狀態、代碼情況、依賴狀況，并推演可能的各種例外，

動手前的思考成本遠遠低于動手后遇到問題的解決成本，應用拆分最怕的是中途說“他*的，這塊不能動，原來當時這樣設計是有原因的，得想別的路子！”這時的壓力可想而知，整個節奏不符合預期后，很可能會接二連三遇到同樣的問題，這時不僅同事們士氣下降，自己也會喪失信心，繼而可能導致拆分失敗，

2.5 給自己留個錦囊，“有備無患”，

錦囊就四個字“有備無患”，可以貼在桌面或者手機上，在以后具體實施程序中，多思考下“方案是否有多種可以選擇？復雜問題能否拆解？實際操作時是否有預案？”，應用拆分在具體實踐程序中比拼得就是細致二字，多一份方案，多一份預案，不僅能提升成功概率，更給自己信心，

2.6 放松心情，緩解壓力

收拾下心情，開干！

3 實踐

3.1 db拆分實踐

DB拆分在整個應用拆分環節里最復雜，分為垂直拆分和水平拆分兩種場景，我們都遇到了，垂直拆分是將庫里的各個表拆分到合適的資料庫中，比如一個庫中既有訊息表，又有人員組織結構表，那么將這兩個表拆分到獨立的資料庫中更合適，

水平拆分：以訊息表為例好了，單表突破了千萬行記錄，查詢效率較低，這時候就要將其分庫分表，

3.1.1 主鍵id接入全域id發生器

DB拆分的第一件事情就是使用全域id發生器來生成各個表的主鍵id，為什么？

舉個例子，假如我們有一張表，兩個欄位id和token，id是自增主鍵生成，要以token維度來分庫分表，這時繼續使用自增主鍵會出現問題，

正向遷移擴容中，通過自增的主鍵，到了新的分庫分表里一定是唯一的，但是，我們要考慮遷移失敗的場景，如下圖所示，新的表里假設已經插入了一條新的記錄，主鍵id也是2，這個時候假設開始回滾，需要將兩張表的資料合并成一張表（逆向回流），就會產生主鍵沖突！

因此在遷移之前，先要用全域唯一id發生器生成的id來替代主鍵自增id，這里有幾種全域唯一id生成方法可以選擇，

1）snowflake（非全域遞增）

https://github.com/twitter/snowflake

2） mysql新建一張表用來專門生成全域唯一id（利用auto_increment功能）（全域遞增）；

3）有人說只有一張表怎么保證高可用？那兩張表好了（在兩個不同db），一張表產生奇數，一張表產生偶數，或者是n張表，每張表的負責的步長區間不同（非全域遞增）

4）……

我們使用的是阿里巴巴內部的tddl-sequence（mysql+記憶體），保證全域唯一但非遞增，在使用上遇到一些坑：

1）對按主鍵id排序的sql要提前改造，因為id已經不保證遞增，可能會出現亂序場景，這時候可以改造為按gmt_create排序；

2）報主鍵沖突問題，這里往往是代碼改造不徹底或者改錯造成的，比如忘記給某一insert sql的id添加#{}，導致繼續使用自增，從而造成沖突；

3.1.2 建新表&遷移資料&binlog同步

1）新表字符集建議是utf8mb4，支持表情符，新表建好后索引不要漏掉，否則可能會導致慢sql！從經驗來看索引被漏掉時有發生，建議事先列計劃的時候將這些要點記下，后面逐條檢查；

2）使用全量同步工具或者自己寫job來進行全量遷移；全量資料遷移務必要在業務低峰期時操作，并根據系統情況調整并發數；

3）增量同步，全量遷移完成后可使用binlog增量同步工具來追資料，比如阿里內部使用精衛，其它企業可能有自己的增量系統，或者使用阿里開源的cannal/otter：

https://github.com/alibaba/canal?spm=5176.100239.blogcont11356.10.5eNr98

https://github.com/alibaba/otter/wiki/QuickStart?spm=5176.100239.blogcont11356.21.UYMQ17

增量同步起始獲取的binlog位點必須在全量遷移之前，否則會丟資料，比如我中午12點整開始全量同步，13點整全量遷移完畢，那么增量同步的binlog的位點一定要選在12點之前，

位點在前會不會導致重復記錄？不會！線上的MySQL binlog是row 模式，如一個delete陳述句洗掉了100條記錄，binlog記錄的不是一條delete的邏輯sql，而是會有100條binlog記錄，insert陳述句插入一條記錄，如果主鍵沖突，插入不進去，

3.1.3 聯表查詢sql改造

現在主鍵已經接入全域唯一id，新的庫表、索引已經建立，且資料也在實時追平，現在可以開始切庫了嗎？no！

考慮以下非常簡單的聯表查詢sql，如果將B表拆分到另一個庫里的話，這個sql怎么辦？畢竟跨庫聯表查詢是不支持的！

因此，在切庫之前，需要將系統中上百個聯表查詢的sql改造完畢，

如何改造呢？

1） 業務避免

業務上松耦合后技術才能松耦合，繼而避免聯表sql，但短期內不現實，需要時間沉淀；

2） 全域表

每個應用的庫里都冗余一份表，缺點：等于沒有拆分，而且很多場景不現實，表結構變更麻煩；

3） 冗余欄位

就像訂單表一樣，冗余商品id欄位，但是我們需要冗余的欄位太多，而且要考慮欄位變更后資料更新問題；

4） 記憶體拼接

4.1）通過RPC呼叫來獲取另一張表的資料，然后再記憶體拼接，1）適合job類的sql，或改造后RPC查詢量較少的sql；2）不適合大資料量的實時查詢sql，假設10000個ID，分頁RPC查詢，每次查100個，需要5ms，共需要500ms，rt太高，

4.2）本地快取另一張表的資料

適合資料變化不大、資料量查詢大、介面性能穩定性要求高的sql，

3.1.4切庫方案設計與實作（兩種方案）

以上步驟準備完成后，就開始進入真正的切庫環節，這里提供兩種方案，我們在不同的場景下都有使用，

a）DB停寫方案

優點：快，成本低；

缺點：

1）如果要回滾得聯系DBA執行線上停寫操作，風險高，因為有可能在業務高峰期回滾；

2）只有一處地方校驗，出問題的概率高，回滾的概率高

舉個例子，如果面對的是比較復雜的業務遷移，那么很可能發生如下情況導致回滾：

sql聯表查詢改造不完全；

sql聯表查詢改錯&性能問題；

索引漏加導致性能問題；

字符集問題

此外，binlog逆向回流很可能發生字符集問題（utf8mb4到gbk），導致回流失敗，這些binlog同步工具為了保證強最終一致性，一旦某條記錄回流失敗，就卡住不同步，繼而導致新老表的資料不同步，繼而無法回滾！

b）雙寫方案

第2步“打開雙寫開關，先寫老表A再寫新表B”，這時候確保寫B表時try catch住，例外要用很明確的標識打出來，方便排查問題，第2步雙寫持續短暫時間后（比如半分鐘后），可以關閉binlog同步任務，

優點：

1）將復雜任務分解為一系列可測小任務，步步為贏；

2）線上不停服，回滾容易；

3）字符集問題影響小

缺點：

1）流程步驟多，周期長；

2）雙寫造成RT增加

3.1.5 開關要寫好

不管什么切庫方案，開關少不了，這里開關的初始值一定要設定為null！

如果隨便設定一個默認值，比如”讀老表A“，假設我們已經進行到讀新表B的環節了，這時重啟了應用，在應用啟動的一瞬間，最新的“讀新表B”的開關推送等可能沒有推送過來，這個時候就可能使用默認值，繼而造成臟資料！

3.2 拆分后一致性怎么保證？

以前很多表都在一個資料庫內，使用事務非常方便，現在拆分出去了，如何保證一致性？

1）分布式事務

性能較差，幾乎不考慮，

2）訊息機制補償

3）定時任務補償

用得較多，實作最終一致，分為加資料補償，刪資料補償兩種，

3.3 應用拆分后穩定性怎么保證？

一句話：懷疑第三方，防備使用方，做好自己！

1）懷疑第三方

a）防御式編程，制定好各種降級策略；

比如快取主備、推拉結合、本地快取……

b）遵循快速失敗原則，一定要設定超時時間，并例外捕獲；

c）強依賴轉弱依賴，旁支邏輯異步化

我們對某一個核心應用的旁支邏輯異步化后，回應時間幾乎縮短了1/3，且后面中間件、其它應用等都出現過抖動情況，而核心鏈路一切正常；

d）適當保護第三方，慎重選擇重試機制

2）防備使用方

a）設計一個好的介面，避免誤用

遵循介面最少暴露原則；很多同學搭建完新應用后會隨手暴露很多介面，而這些介面由于沒人使用而缺乏維護，很容易給以后挖坑，聽到過不只一次對話，”你怎么用我這個介面啊，當時隨便寫的，性能很差的“；
不要讓使用方做介面可以做的事情；比如你只暴露一個getMsgById介面，別人如果想批量呼叫的話，可能就直接for回圈rpc呼叫，如果提供getMsgListByIdList介面就不會出現這種情況了，
避免長時間執行的介面；特別是一些老系統，一個介面背后對應的可能是for回圈select DB的場景，
…

b）容量限制

按應用優先級進行流控；不僅有總流量限流，還要區分應用，比如核心應用的配額肯定比非核心應用配額高；
業務容量控制，有些時候不僅僅是系統層面的限制，業務層面也需要限制，舉個例子，對saas化的一些系統來說，”你這個租戶最多1w人使用“，

3）做好自己

a）單一職責

b）及時清理歷史坑

例：例如我們改造時候發現一年前留下的坑，去掉后整個集群cpu使用率下降1/3

c） 運維SOP化

說實話，線上出現問題，如果沒有預案，再怎么處理都會超時，曾經遇到過一次DB故障導致臟資料問題，最終只能硬著頭皮寫代碼來清理臟資料，但是時間很長，只能眼睜睜看著故障不斷升級，經歷過這個事情后，我們馬上設想出現臟資料的各種場景，然后上線了三個清理臟資料的job，以防其它不可預知的產生臟資料的故障場景，以后只要遇到出現臟資料的故障，直接觸發這三個清理job，先恢復再排查，

d）資源使用可預測

應用的cpu、記憶體、網路、磁盤心中有數
- 正則匹配耗cpu
- 耗性能的job優化、降級、下線（回圈呼叫rpc或sql）
- 慢sql優化、降級、限流
- tair/redis、db呼叫量要可預測
- 例：tair、db

舉個例子: 某一個介面類似于秒殺功能，qps非常高（如下圖所示），請求先到tair，如果找不到會回源到DB，當請求突增時候，甚至會觸發tair/redis這層快取的限流，此外由于快取在一開始是沒資料的，請求會穿透到db，從而擊垮db，

這里的核心問題就是tair/redis這層資源的使用不可預測，因為依賴于介面的qps，怎么讓請求變得可預測呢？

如果我們再增加一層本地快取（guava，比如超時時間設定為1秒），保證單機對一個key只有一個請求回源，那樣對tair/redis這層資源的使用就可以預知了，假設有500臺client，對一個key來說，一瞬間最多500個請求穿透到Tair/redis，以此類推到db，

再舉個例子：

比如client有500臺，對某key一瞬間最多有500個請求穿透到db，如果key有10個，那么請求最多可能有5000個到db，恰好這些sql的RT有些高，怎么保護DB的資源？

可以通過一個定時程式不斷將資料從db刷到快取，這里就將不可控的5000個qps的db訪問變為可控的個位數qps的db訪問，

4 總結

1）做好準備面對壓力！

2）復雜問題要拆解為多步驟，每一步可測驗可回滾！

這是應用拆分程序中的最有價值的實踐經驗！

**3）墨菲定律：你所擔心的事情一定會發生，而且會很快發生，所以準備好你的SOP****（標準化解決方案）！

某個周五和組里同事吃飯時討論到某一個功能存在風險，約定在下周解決，結果周一剛上班該功能就出現故障了，以前講小概率不可能發生，但是概率再小也是有值的，比如p=0.00001%，互聯網環境下，請求量足夠大，小概率事件就真發生了，

4）借假修真

這個詞看上去有點玄乎，顧名思義，就是在借者一些事情，來提升另外一種能力，前者稱為假，后者稱為真，在任何一個單位，對核心系統進行大規模拆分改造的機會很少，因此一旦你承擔起責任，就毫不猶豫地全力以赴吧！不要被程序的曲折所嚇倒，心智的磨礪，才是本真，

另外，關注公眾號Java技術堆疊，在后臺回復：面試，可以獲取我整理的 Java 系列面試題和答案，非常齊全，
近期熱文推薦：

1.Java 15 正式發布， 14 個新特性，重繪你的認知！！

2.終于靠開源專案弄到 IntelliJ IDEA 激活碼了，真香！

3.我用 Java 8 寫了一段邏輯，同事直呼看不懂，你試試看，，

4.吊打 Tomcat ，Undertow 性能很炸！！

5.《Java開發手冊（嵩山版）》最新發布，速速下載！

覺得不錯，別忘了隨手點贊+轉發哦！

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/261600.html

標籤：Java

上一篇：C語言中字符指標陣列與字符陣列的區別（實體決議）

下一篇：JUnit5學習之二：Assumptions類