主頁 > 資料庫 > Redis如何實作多可用區?

Redis如何實作多可用區?

2022-07-14 10:02:20 資料庫

在如今的業務場景下,高可用性要求越來越高,核心業務跨可用區已然成為標配,騰訊云資料庫高級工程師劉家文結合騰訊云資料庫的內核實戰經驗,給大家分享Redis是如何實作多可用區,內容包含Redis主從版、集群版原生架構,騰訊云Redis集群模式主從版、多AZ架構實作以及多AZ關鍵技術點,具體可分為以下四個部分:

第一部分:介紹Redis的原生架構,包含主從版及集群版;

第二部分:介紹騰訊云Redis架構,為了解決主從架構存在的問題,騰訊云使用了集群模式的主從版,其次為了更好的適應云上的Redis架構,引入了Proxy;

第三部分:分析原生Redis為何不能實作多AZ架構的高可用以及騰訊云是如何實作多可用區;

第四部分:分享實作多可用區的幾個關鍵技術點,包含節點部署、就近接入及節點的選主機制,

點擊觀看視頻

Redis原生架構

file

Redis的原生架構包含主從版及集群版,主從版是由一個master,多個slave組成,主從的高可用一般采用哨兵模式,哨兵模式在節點故障后,能自動把相應的節點進行下線處理,但是哨兵模式無法補節點,為了配合補從,需要管控組件進行協助,因此一般會將監控組件和管控組件配合完成主從版的一個高可用,無論是哪種方式,主從版的可用性依賴外部的仲裁組件,存在恢復時間長及組件本身的高可用問題,其次主從版還會導致雙寫的問題及提主有損的功能缺陷,

file

Redis的集群版中的每一個節點相互獨立,節點之間通過Gossip協議來進行通信,每一個節點都保存了集群中所有節點的一個資訊,集群版的資料基于slot進行分片管理,slot總共有16384個,節點的 slot并不是固定的,可以通過搬遷key的方案來完成slot的遷移,有了slot的搬遷功能,集群版可以實作資料均衡及分片的動態調整

Redis集群版內部集成了Gossip協議,通過Gossip協議能完成節點的自動發現和自動成災的功能,自動發現是指一個節點要加入到集群中,只需要加入集群中的任何一個節點,加入后,新節點的資訊會通過Gossip推廣到集群中的所有的節點,同理,當一個節點故障后,所有節點都會把故障資訊發送給集群其它節點,通過一定的判死邏輯,它會讓這個節點進行自動下線,這個也就是Redis集群版的自動容災功能

為了說明單可用區是如何部署的,我們需要進一步了解Redis集群版的自動容災,自動容災總共分為兩個步驟,第一個就是我們的判死邏輯,當超過一半的主節點認為該節點故障,集群就會認為這個節點已經故障,此時從節點會發起投票,超過一半的主節點授權該節點為主節點時,它會將角色變為主節點,同時廣播角色資訊,

file

根據上面這兩點分析,不難發現Redis集群版有兩個部署要求,一個是主從不能同機,當主從同機的機器故障后,整個分片就相當于已經故障了,集群也就變為一個不可用的狀態,其次是我們的節點數不能超過分片數的一半,這里要注意的是節點數,而不是只限制主節點數,

上圖的右邊部分是錯誤部署方式,在集群節點狀態沒有變化的情況下,是能夠滿足高可用的,但集群的主從發生切換后,一個機器上的主節點已經超過大多數,而這個大多數機器故障后,集群無法自動恢復,因此三分三從的集群版,要滿足高可用總共需要六臺機器,

騰訊云Redis架構

file

為了解決雙主的問題及支持無損提主的操作,騰訊云上使用了集群模式的主從版,實作集群模式的主從版,先要解決三個問題:

第一個是集群模式需要至少3個投票(仲裁)節點的問題,由于主從版本只有一個Master,為了達到3個仲裁節點,我們引入了兩個Arbiter節點,Arbiter只有投票權,不存盤資料,通過這個改造后,就能夠滿足了集群版的高可用,

第二個是多DB問題,由于騰訊云上引入了Proxy,減少了對多DB管理的復雜,因此可以放開單DB限制,

最后一個是需要啟用跨slot訪問,在主從版中,所有的slot都在一個節點上面,不存在跨節點問題,因此可以取消跨slot限制,

解決完這幾個主要問題后,集群模式可以達到完全兼容主從版,同時擁有集群版的自動容災、無損提主及可以在業務支持的情況下,無縫升級為集群版,

file

由于Client版本比較多,為了兼容不同的Client,騰訊云引入了Proxy,Proxy除了屏蔽Client的差異外,也屏蔽的后端Redis的版本差異,業務可以使用主從版的Client去使用后端的集群版,Proxy也補齊了Redis缺少的流量隔離及支持更豐富的指標監控,還能將多個連接的請求轉換為pipeline請求轉發到后端,提升Redis的性能,

Redis的多AZ架構

file

部署高可用的多可用區架構,需要至少滿足兩個條件:

主從不能部署到同一個可用區

一個可用區的節點數不能超過分片數的一半

如果我們部署一個三分片的實體,那應該需要個6個可用區才能真正保證它的高可用,即使可用區充足,它也會有性能的抖動,訪問本可用區,性能和單可用區相同,但如果跨可用區訪問,至少出現2ms延遲,因此原生的Redis是不適合多可用區的部署,為了實作高可用的部署,我們需要更深入的分析它的問題所在,這種場景的高可用不滿足主要是由于主節點漂移,而投票權和主節點又是系結關系,當投票權在不同可用區間切換后,導致超過大多數投票節點在該可用區,此時該可用區故障后就會出現集群無法恢復的情況,

file

從上面分析可以看出,高可用的問題是由于投票權發生漂移導致的,假如能把投票權固定在某些節點上面,這樣投票權就可以不再漂移,當然這里無法將投票權固定在從或者主節點上,對于多可用區,最好的方式就是引入了一個ZoneArbiter節點,它只位元組點的判死及選主,不存盤任何資料,這樣投票權就從存盤節點中分離出來,在投票權分離后,即使資料節點的Master可以位于一個可用區,從位于不同的可用區也能滿足高可用,業務在主可用區中訪問和單可用區訪問性能是相同的,

多AZ的關鍵技術

保證高可用后,接下來介紹多可用區的三個關鍵的點:高可用如何部署、性能如何達到最優、可用區故障后保證集群自動恢復,

file

節點部署同樣需要滿足兩個點:第一是主從不能同可用區,這個比較容易滿足,只要有2個可用區即可,第二點是至少三個ZoneArbiter節點位于不同的可用區,第二個條件需要三個可用區,如果沒有三個可用區的地域也可以將ZoneArbiter部署于就近的地域,因為資料節點和仲裁節點是分離的,位于其它可用區的節點只會出現判死及提主有毫秒級延遲,對性能和高可用不會有任何影響,

file

分析完部署后,再來看下資料的存盤鏈路,存盤鏈路分為讀和寫鏈路,寫鏈路是從client到LB,再到Proxy,最后將資料寫入到相應的Master,在讀的時候,開啟就近讀的特性后,鏈路從client到LB,再到Proxy,最后選擇一個就近的節點讀取資料,就近路徑選擇包含LB的就近選擇及Proxy的就近選擇,LB要根據Client的地址選擇相對應的Proxy,如果是讀,Proxy要跟據自身所在可用區資訊選擇同可用區的節點進行讀訪問,如果是寫,Proxy需要訪問主可用區的Master節點,能實作就近訪問,最關鍵的一個點就是要LB及Proxy要存盤相關后端的可用區資訊,有這些資訊后,就能實作就近的路由選擇,

file

單可用區和多可用區故障的最大區別是:首先多可用區的某一節點故障后,主節點有可能切到其它可用區會導致性能波動,其次對于多可用區的實體,整個可用區故障后,需要投票的節點比單可用區的節點多,在多節點故障的場景測驗中,128分片,63節點同時故障,99%以上都無法正常恢復集群,而無法恢復的關鍵就是Redis的選主機制導致,因此我們需要更深入的理解Redis的選主機制,

file

首先看下選主機制的授權機制,當主節點收到一個failover資訊后,核對自身節點為Master,然后檢查投票的這個節點集群的epoch是不是最新的,并且在這個epoch,并沒有投票任何的節點,為了防止一個節點的多個從節點重復發起投票,這里在30s內不允許重復發起,最后再核對這個slot的歸屬權是否屬于發起failover的這個節點,如果都沒有問題,那么就會投票給該節點,

綜上,允許該主節點投票的條件是:

  • 發起投票的節點的集群資訊是最新的;
  • 一個epoch只能授權一個節點;
  • 30s內同一分片只能授權一次;
  • slot的歸屬權正確,

file

看完主節點的授權機制后,再看下從節點發起投票的機制,發起投票的流程是先核對1分鐘內沒有發起過投票,再核對該節點資料是否有效(不能和主斷開160s),從節點是有效的,就開始計算發起投票的時間,當投票時間到后,將集群的epoch+1,然后再發起failover,如果主節點的授權超過分片數的一半,則自身提為主節點,并廣播節點資訊,這里從節點投票有兩個關鍵的點,一分鐘只能重試一次投票,最大重試160s,從節點最多可以投票3次,當超過一半的master授權提主,提主成功,否則超時,

file

在某一主節點故障后,集群的選主盡量在同可用區中選擇,一個分片不同從節點之間的選主時間由節點的offset排名及的500ms的隨機時間決定,在寫少讀多情況下,offset排名大多時間是相同的,在單可用區場景下,隨機選擇一個節點本身無任何影響,但多可用區就會出現性能的抖動,因此這個就需要在排名中引入同可用區的排名,而同可用區的排名就需要要每個節點都知道所有節點的可用區資訊,在Gossip中剛好有一個預留欄位,我們將可用區資訊存盤在這個預留欄位中,然后將這個節點的可用區資訊會廣播到所有節點中,這樣每個節點都有所有節點的可用區資訊,在投票的時候我們按照offset和可用區資訊排名綜合考慮來保證同可用區優先提主,

file

一個節點的選主分析完后,我們來分析下多節點故障的投票時機,多個節點發起投票時,會隨機選擇500毫秒內的一個時間點,然后發起投票,假如集群有100個主節點,500毫秒發起完投票,每個節點投票時間是5毫秒,5毫秒肯定是不夠一個投票周期,在之前的多節點故障投票成功率測驗結果也就證明了這種情況幾乎不能成功,

投票不能成功的關機是集群不同節點投票是隨機發起導致的,既然隨機存在沖突,最直接的解決辦法就是按順序來投票,按順序投票可以簡單分為兩種,一種是依賴外部的控制,引入外部依賴就需要保證它的高可用,一般情況下,存盤鏈路的高可用最好不要依賴外部組件,否則會導致整體的可用性受外部組件加存盤節點的高可用的影響,那再考慮下集群內部實作順序投票,集群內部實作順序投票也有兩種方式,一個是仲裁節點按順序來授權,但是這種方式很容易打破一個epoch投一個從節點的原則,打破后可能會導致投票結果不符合預期,還有一種解決辦法是由從節點來順序發起投票,

從節點要保證順序發起投票,那就需要每個節點的排名是保證相同的,而節點ID在生命周期中是唯一的,且每個節點都有其它節點的ID資訊,因此這里選擇節點ID的排名是比較好的一種方案,每個從節點ID發起投票前,首先核對自己的節點ID是不是第一名,如果是就發起投票,如果不是就等待500ms,這個500ms是為了防止隊頭投票失敗的場景,按這種方式優化后,投票都可以成功,由于本身是分布式的,這里還是存在著小概率失敗,在失敗后就需要外部監控,強行提主,保證集群的盡快恢復,

專家答疑

1.通過sentinel連接redis也會出現雙寫么?

答:雙寫是對存量的連接來說的,如果存量的連接沒有斷開,它會寫入到之前的master節點,而新的連接會寫入到新的master節點,此時就是雙寫,而集群模式出現雙寫最多15s(判死時間),因為15s后發現自身已經脫離大多數,會將節點切換為集群Fail,此時寫入及讀取出錯,而規避了雙寫的問題,

2. 固定節點投票,這幾個節點會不會成為單點

答:單點是不可規避的,比如1主1從,主掛了,那么從提主后,這個節點就是單點,出現單點是需要我們進行補從操作,而這里仲裁節點出現故障,補充一個節點即可,只要保證大多數仲裁節點正常作業即可,由于仲裁和資料訪問是分離的,故障及補節點對資料訪問無任何影響,

3. 整個可用區故障和可用區內節點故障failover的處理策略是什么?

答:不管是整個可用區故障還是單機故障導致的多節點故障,都應該采用順序投票來完成,減少沖突,而如果同可用區有從節點,該節點應該優先提主,

4.想問下寫請求,要同步等從復制完嗎?

答:Redis不是強同步,Redis強同步需要使用wait命令來完成,

5.最大支持多少redis分片呢,節點多了使用gossip有會不會有性能問題?

答:最好不要超過500個,超過500個節點會出現ping導致的性能抖動,此時只能通過調大cluster_node_timeout來降低性能抖動

6.多區主節點,寫同步如何實作?

答:可能想問的是全球多活實體,多活實體一般需要資料先落盤,然后再同步給其它節點,同步的時候要保證從節點先收到資料后,才能發送給多活的其它節點,還需要解決資料同步環路,資料沖突等問題,

7.當前選主邏輯和raft選主有大的區別嗎?

答:相同的點都需要滿足大多數授權,都有一個隨機選擇時間,不同的點Redis是主節點有投票權(針對多分片情況),而raft可認為是所有節點(針對單分片情況),Raft資料寫入要超一半節點成功才回傳成,Redis使用弱同步機制(可以使用wait強勢主從同步完回傳),寫完主節點立即回傳,在主故障后,需要資料越新的節點優先提主(資料偏移值由Gossip通知給其它節點),但不保證它一定成功,

關于作者

劉家文,騰訊云資料庫高級工程師,先后負責Linux內核及redis相關研發作業,目前主要負責騰訊云資料庫Redis的開發和架構設計,對Redis高可用,內核開發有著豐富的經驗,

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/499156.html

標籤:其它

上一篇:Lepton 無損壓縮原理及性能分析

下一篇:騰訊云資料庫公有云市場穩居TOP 2!

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more