快取中間件-快取架構的實作(下)
前言
快取架構,說白了就是利用各種手段,來實作快取,從而降低服務器,乃至資料庫的壓力,
這里把之前提出的快取架構的技術分類放出來:
- 瀏覽器快取
- Cookie
- LocalStorage
- SessionStorage
- CDN快取
- 負載層快取
- Nginx快取模塊
- Squid快取服務器
- Lua擴展
- 應用層快取
- Etag
- ThreadLocal
- Guava
- 外部快取
- Redis
- 資料庫快取
- MySql快取
前面的《快取中間件-快取架構的實作(上)》已經簡單說明了瀏覽器快取,CDN快取,負載層快取,這次將會繼續闡述應用層快取,外部快取,資料庫快取,
應用層快取
應用層的快取,往往用戶的請求最終達到了應用服務器,但是未達到資料庫,其涉及應用服務器的具體開發,
Etag
之所以將Etag技術放在應用層快取,是因為用戶的請求必定達到應用層,
Etag的意思就是,如果連續兩次請求的請求內容是一致的,那么兩次回應也應該是一致的,那么第一次請求的回應,就可以充當第二次請求的回應,
當然實際業務中,也存在兩次請求一致,但是回應不一致(如都是查詢銀行余額,但是并不一樣,可能兩次操作中間,工資到賬了),這就涉及到快取的資料一致性問題,后面會提到,這里不再深入,
那么應用服務器怎么判斷兩次請求一致呢,它可以通過兩次請求的hash,進行對比判斷,其中涉及HTTP協議,如304狀態碼,請求協議頭If-None-Match欄位,回應協議頭Etag欄位,
請求流程
服務端已經做好了對應的開發與設定(如Spring的ShallowEtagHeaderFilter()),
第一次請求
- 客戶端發出請求RequestA
- 服務端接收到客戶端的請求RequestA,進行以下處理:
- 在應用中,根據請求RequestA計算對應的MD5值
- 在回傳回應ResponseA的協議頭中的Etag欄位設定前面計算出來的MD5值
- 回傳對應頁面
- 客戶端接收到回應ResponseA,在瀏覽器中展示,并在瀏覽器中快取ResponseA
第二次請求
- 客戶端再次發出請求RequestB,并且RequestB與RequestA請求內容相同(如都是請求同一個頁面等)
- 服務端接收到客戶端的請求RequestB,進行以下處理:
- 根據請求計算的新ETag,并判斷是否與請求RequestB協議頭中的If-None-Match欄位對應的值(就是之前ResponseA的ETag欄位的值)一致
- 如果沒有超限, 在Response中設定協議狀態為304,向客戶端回傳對應ReponseB
- 根據請求計算的新ETag,并判斷是否與請求RequestB協議頭中的If-None-Match欄位對應的值(就是之前ResponseA的ETag欄位的值)一致
- 客戶端接收到回應ReponseB,確認其協議狀態為304,則直接使用之前快取的回應ResponseA,作為請求RequestB的回傳回應
上述其實是功能邏輯,如果按照代碼邏輯,其實應該這樣說:
客戶端
- 客戶端準備發送請求
- 瀏覽器檢測該頁面是否有對應的ETag欄位的值
- 如果有對應的值,就置入請求的協議頭
- 準備妥當后,瀏覽器想服務器發送請求
服務端
- 根據請求的協議頭,判斷是否具備Last-Modified/If-None-Match欄位
- 如果有對應欄位,進行以下判斷
- 根據請求計算的新ETag,并判斷是否與請求協議頭中的If-None-Match欄位對應的值(就是之前ResponseA的ETag欄位的值一致
- 如果沒有超限,在Response中設定協議狀態為304,向客戶端回傳對應Reponse
- 根據請求計算的新ETag,并判斷是否與請求協議頭中的If-None-Match欄位對應的值(就是之前ResponseA的ETag欄位的值一致
- 如果上述2中任一條件未滿足,則執行以下邏輯:
- 在應用中,根據請求RequestA計算對應的MD5值,保存在應用中
- 回傳對應頁面
- 在回傳回應ResponseA的協議頭中的Etag欄位設定前面計算出來的MD5值
準確地說,這應該是HTTP協議提供的快取方案,而不僅僅只是ETag,因為ETag僅僅與HTTP協議的五大條件請求首部中的If-None-Match與If-Match兩個首部相關,除此之外,還有If-Modified-Since,If-Unmodified-Since,If-Range三個條件請求首部,如果以后有機會專門寫一篇有關HTTP協議的博客,迫切的小伙伴,也可以翻閱《HTTP權威指南》一書的第七章(尤其是7.8),
優勢
- 降低資料庫訪問壓力,如果ETag成功,則直接回傳狀態碼304,沒有資料庫操作,
- 降低應用服務器壓力,如果ETag成功,則直接回傳狀態碼304,無需業務操作等,如日志,
- 降低帶寬壓力,根據統計表明,一般請求回應模型中,回應的報文大小遠大于請求的保溫大小,那么如果回傳回應的主體為空,只有304狀態碼等協議頭,則可以大大降低系統帶寬壓力,
缺點
- 技術學習投入,如果想要較好利用 ,需要熟悉HTTP協議的快取設計(包括理念,架構,步驟等)
- 需要對現有的業務體系,進行一定的調整
- 資料重繪問題的處理,確保資料的“新鮮度”
- 應用系統的計算資源占用,有人提出ETag的MD5計算帶來了對應的應用系統的CPU占用問題,這個需要說一下:
- 這取決于具體請求本身是否有比MD5計算更大的CPU占用問題,
- 合理的快取架構設計一般不會有這樣的問題(如靜態資源等CPU占用少的請求,根本就在前面的瀏覽器,CDN,負載均衡層處理掉了)
實際應用
實際應用部分,主要有兩點需要提及,
- 由于If-None-Match的部分缺點,有需要的小伙伴最好引入Last-Modified-Since搭配使用
- 實際開發方面,Spring提供了ShallowEtagHeaderFilter(),也可以自行擴展
PS:部分人認為只需要Last-Modified-Since即可,但是僅使用Last-Modified-Since存在以下問題:
- 1s周期內的變化,無法處理(因為Last-Modified-Since記錄的最小時間單位為秒)
- 部分資料雖然發生了變化,但其實我們所需要的內容并沒有變化(如周期性的重寫等)
- 部分應用系統的系統時間存在沖突(即集群內的應用服務器實體的絕對系統時間存在秒級差別,至于集群的時間統一相關的問題,日后有機會專門寫一篇博客(感覺自己立下了無數flag)),
ThreadLocal
ThreadLocal是什么,我就不在此解釋了,不了解的小伙伴,可以這樣理解:ThreadLocal就是一個類中的靜態Map,其key就是執行執行緒(呼叫類實體的執行緒)的name,而value就是呼叫位置設定的值,
優勢
- (核心)避免介面定義污染,如應用系統中(同一JVM中)存在A->B->C這樣的操作鏈路,但只有A和C用到了特定引數(如用戶資訊),那么為了能夠呼叫C,B也必須引入該特定引數(如用戶引數),即使B沒有用到該特定引數,這就造成了介面定義的污染(詳見執行緒級快取ThreadLocalCache)
- 資料快取,由于ThreadLocal是通過堆疊封閉的理念實作了執行緒安全,所以其在一些場景下有著特定的使用,
缺點
- ThreadLocal快取設計與學習,及原有系統的改動
- (核心)由于可能涉及多執行緒與呼叫鏈上多個呼叫節點,所以設計與問題排查會有較大的難度
實際應用
在我之前接收的IOT專案中,終端系統通過傳感器資料讀取程式與傳感器配置,獲得原始資料(包括原始監測值,以及配置表中對應配置(如硬體標識,報警閾值等)),但是原始資料采集后,會進行資料清洗,資料報警評估,資料保存等多個操作,但是其中的資料清洗并不涉及硬體標識,與報警閾值等,所以采用ThreadLocal來保存對應資料(硬體配置),避免方法介面的污染,當然,后來由于該流程并不都是有前后順序要求,所以添加了事件監聽,進行異步解耦,降低系統復雜度,
GuavaCache
Guava代表著應用級快取,更準確說是單JVM實體快取,在原單機系統時,我們往往并不是采用Redis這樣的分布式快取(除非是希望利用其資料處理,如GEO處理,集合處理等),而是采用GuavaCache或自定義快取(自定義快取的設計,后面會有一篇專門的博客),
優勢
- 資源占用小,畢竟只是運行于單機的一種快取工具
- 實作了一種簡便的快取管理工具,滿足了大多數單機系統對快取的需求
劣勢
- 功能沒有分布式快取中間件完善(尤其是自定義的快取工具)
- 如果是采用Guava這樣的第三方快取工具,需要對工具的一定學習成本
- 如果是自定義實作(為了更為精簡,定制化),往往性能的提高對技術水平有著一定的需求(如SoftReference的利用等)
- 對原有應用的改變
外部快取
外部快取的一個重要代表,就是Redis,Memcache這樣的分布式快取中間件,當然外部快取,你要把檔案系統等劃分進來,也不是不行,只要可以滿足對快取的定義即可,
這里以Redis為例,
Redis
Redis作為當下最為流行的分布式快取中間件,其應用可以說是非常廣泛的,也是我非常喜歡使用的一種分布式快取中間件,其是一個開源的,C語言撰寫的,基于記憶體,支持持久化的日志型,KV型的網路程式,
優點
- 使用簡單,Redis的單機使用不要太簡單,即使是新人,也可以在很短的時間內上手,并在實際開發中應用(當然,如果專案中已經有了相關配置,并提供了相關Util就更方便了)
- 性能強悍,即使是單機的Redis,也可以在一個普通性能的服務器上,提供每秒十萬級的讀寫能力(當然影響的情況很多,詳見redis的BenchMark)
- 功能強大,Redis提供了GEO的相關操作(計算兩點距離等),集合相關操作(交集,并集等),流相關操作(類似訊息佇列)
- 應用場景多,如Session服務器(分布式Session的優秀解決方案),計數器(Incr),分布式鎖等
缺點
- 需要部署Redis服務器,并且為了確保可用性,往往需要進行集群部署
- 精通較難,
- 功能方面,功能強大的Redis,其內部實作還是有不少東西的,包括其持久化機制,記憶體管理
- 理論方面,如Redis記憶體管理方面,涉及LRU,LFU演算法,以及其自定義簡化版的實作,又或者其哨兵機制涉及的Raft分布式選舉演算法等
- 部署方面,單機部署,以及多種集群部署(生產級部署,可以看我之前的博客-Redis安裝(單機及各類集群,阿里云))
實際應用
在我之前接手過的某綜合系統(涵蓋社交,在線教育,直播等),其Session服務器是通過Redis進行支撐的,通過將<SessionId,Session>的方式,存盤在Redis,而SeesionId會保存在用戶的Cookie中(至于某些小伙伴擔心的Cookie禁用問題,這就涉及Cookie的知識內容了,Cookie會保存在URL中)
再舉一個例子(Redis的應用場景太多了),之前負責的IOT專案中,其中控系統的報警模塊有這么一個需求:同一個終端的同一個傳感器在30min中,只報警一次,避免報警刷屏的現象,而中控系統已經采用了Redis(中控系統是可以集群部署,確保可用性,避免性能瓶頸),所以利用Redis的集合特性與expire特性,進行了對應的快取設計,這個在之后會專門寫一篇博客,進行闡述,
資料庫快取
這里說的資料庫,是指Mysql,Oracle這樣的資料庫,而不是Redis這樣的,
這里就以Mysql舉例,這個大家應該是最熟悉的,
Mysql
Mysql快取機制,就是快取sql文本,及其對應的快取結果,通過KV形式保存到Mysql服務器記憶體中,之后Mysql服務器,再次遇到同樣的sql陳述句,就會從快取中直接回傳結果,而不需要再進行sql決議,優化,執行,
可能某些人擔心,如果資料改變了,而請求的陳述句是select * from xxx,那不就一直拿到舊資料了嘛,放心,mysql有這方面的處理,當對應表的資料有所修改,那么使用了這個表的資料的快取就全部失效,所以對于經常變動的資料表,快取并沒有太大價值,
優勢
- 提升性能,同樣的陳述句,第一次執行可能需要1s,而第二次執行往往只需要幾毫秒,
- 避免索引時間,因為是通過請求的sql,直接從快取中獲取對應結果,所以沒有進行索引查詢操作,
- 降低資料庫磁盤操作,雖然請求到達了資料庫,但如果沒有進行硬碟操作(尋道,讀取資料等),那么該次資料庫操作對資料庫的資源消耗就小了許多(因為在資料庫中最消耗時間的就是索引操作與硬碟操作)
- 降低資料庫資源消耗,提高查詢時間,因為其避免了資料庫獲得sql后的所有操作,取而代之的是從快取獲取資料(一個KV讀取操作,資源消耗可以幾乎可以忽略了)
缺點
- mysql快取的應用,及配置需要足夠的專業知識(一般的后端并不會非常深入這個層次,往往需要專門的DBA進行處理)
- mysql快取的判斷規則不夠智能,提高了查詢快取的使用門檻,降低了其效率
- mysql快取的檢查與清理需要占用一定資源
- mysql快取的記憶體管理不夠完善,會產生一定記憶體碎片(貌似mysql并不是直接采用資料庫的記憶體,就像JVM一樣,如果有不同意見的,可以私信或@我,畢竟我并不擅長資料庫,雖然剛接手的作業是進行資料庫中間件開發,囧)
擴展
- 較為深入的mysql查詢快取解釋,詳見MySQL查詢快取的優缺點
- 引數設定,詳見mysql 快取
實際應用
在我之前接收的IOT專案中,無論是終端系統,還是中控系統,往往都存在大資料量的資料查詢,單次的資料查詢往往涉及萬級,十萬級資料的查詢,并且可能頻繁查詢(就是多次重繪頁面資料),
一方面,我通過批量寫入(降低資料庫連接的占用頻次),降低資料庫對應資料表的修改頻次(從原來的幾秒一次,變為一分鐘一次),另一方面,進行資料庫快取相關配置,確保在一分鐘內的資料庫不需要進行索引操作與硬碟操作,直接回傳記憶體內的結果,從而有效提高了前端頁面資料展示效果,
當然后續,我為了針對這一特定業務場景與需求,對業務稍做了調整,從而大大提高了資料查詢效果,大幅降低應用系統資源消耗(這個我會專門寫一篇博客,甚至專門開一個系列,用來描寫這種粒度的特定業務場景的方案設計),
布隆過濾器
之前有人私信我,認為布隆過濾器應該歸類于快取架構的一部分,
我開始認為這有一定道理,因為布隆過濾器確實涉及資料的快取,它需要以往資料的記錄,來實作,但是后來我想了想,布隆過濾器并不應該劃分為快取中,因為布隆過濾器是基于快取的,應用快取的,就像你可以說Redis快取屬于快取架構的一部分,但是你不可以說呼叫快取的應用服務器屬于快取,所以最終,我并沒有將布隆過濾器劃分為快取的一部分,而是將它作為一種非常有意思的過濾器,一種限流方式,一種安全手段等,
不過作為擴展,這里簡單說一下布隆過濾器,說白了,就是利用Hash的散列映射特性,進行資料過濾,如我在應用中設定一個陣列Array(其所有值都為0),其長度為固定的10W,我針對每個用戶計算一個hash值,并將這個hasn值對10W進行取余操作,獲得index值(如1000),我將Array中第index位置的value設定為1,這樣放在生產環境后,如果有一個用戶,其計算出來的index在Array中對應位置的值為0,則說明這個用戶在系統中不存在(當然,如果是1,也并不能就說明其就是系統的用戶,畢竟存在哈希沖突與取余沖突,不過概率較低),通過這樣的手段,有效避免無效請求等,
后續可能會專門寫一篇有關布隆過濾器的博客,
總結
以上就是快取架構相關的知識了,當然,這些知識都是粒度比較大的,雖然我舉了一些實際例子,但是需要大家針對具體應用場景,進行調整應用,另外,這些知識都是比較通用的,可能在特定業務場景下,還有一些方案沒有列在這里,最后,沒有最好的技術,只有最合適的技術,這里的許多技術都需要一定的業務規模(資料量,請求數,并發量等),采用比較好的性價比,需要大家仔細考慮,
如果有什么問題或者想法,可以私信或@我,
愿與諸君共進步,
參考
- 《HTTP權威指南》
- Redis安裝(單機及各類集群,阿里云))
- 執行緒級快取ThreadLocalCache
- mysql 快取
- MySQL查詢快取的優缺點
- redis的BenchMark
- .etc
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/22666.html
標籤:架構設計
下一篇:微服務到底改變了什么,你知道嗎?
