什么是雙活資料中心 ?
首先我們要知道雙活就是Active-Active,故名思義就是兩邊都是活動在線提供服務的,是相對于傳統的主備模式Active-Standby模式的,一個真正的雙活方案是應該涵蓋基礎設施、中間件、應用程式各個層次的,
雙資料中心同時對外提供業務生產服務的雙活模式,兩個資料中心是對等的、不分主從、并可同時部署業務,可極大的提高資源的利用率和系統的作業效率、性能,讓客戶從容災系統的**中獲得最大的價值,
- a.兩個生產中心部署相同的業務系統,結合網路層、主機層或應用的負載均衡技術,實作業務系統在兩個資料中心并行作業和負載分擔,
- b.兩個生產中心部署不同的業務系統,互相實時災備接管,
資料中心雙活又分為:同城雙活、異地雙活,
傳統主備模式的缺點
出于災備(Disaster Recovery)的目的,一般都會建設2個(或多個)資料中心,一個是主資料中心用于承擔用戶的業務,一個是備份資料中心用于備份主資料中心的資料、配置、業務等,
主備資料中心之間一般有熱備、冷備、雙活三種備份方式,
熱備的情況下,只有主資料中心承擔用戶的業務,此時備資料中心對主資料中心進行實時的備份,當主資料中心掛掉以后,備資料中心可以自動接管主資料中心的業務,用戶的業務不會中斷,所以也感覺不到資料中心的切換,
冷備的情況下,也是只有主資料中心承擔業務,但是備用資料中心不會對主資料中心進行實時備份,這時可能是周期性的進行備份或者干脆不進行備份,如果主資料中心掛掉了,用戶的業務就會中斷,
雙活是覺得備用資料中心只做備份太浪費了,所以讓主備兩個資料中心都同時承擔用戶的業務,此時,主備兩個資料中心互為備份,并且進行實時備份,一般來說,主資料中心的負載可能會多一些,比如分擔60~70%的業務,備資料中心只分擔40%~30%的業務,
傳統主備模式是一個業務只在一個資料中心運行,企業結合災備等級需求和業務需求,在備份中心部署了大量的備份服務器,但備份中心僅為該業務提供災備服務,只有當災難發生、生產資料中心癱瘓時,災備中心的業務系統才啟動這些服務器,造成備份中心服務器資源浪費,廣域網鏈路也無法得到充分的利用,
雙活資料中心優點
- 充分利用資源,避免了一個資料中心常年處于閑置狀態而造成浪費,通過資源整合,“雙活”資料中心的服務能力是雙倍的,
- 雙活資料中心如果斷了一個資料中心,另外一個資料中心還在運行,對用戶來說是不可感知的,
而一個災備中心的模式,如果生產資料中心癱瘓,需要半個小時、甚至兩個小時、甚至更長時間才能啟動災備中心,在啟動災備中心的時間里,用戶交易會嚴重受損,
雙活資料中心的最大優勢是有效利用資源,災備中心建設的投資巨大及每年運維成本極高,如果資源處于閑置狀態,資源是相當浪費的,有了虛擬化,能夠把閑置的資源整合,服務能力會提高一倍,銀行系統中很多資源都是彈性需求,如基金、貴金屬交易、電子支付、和網銀交易,在交易火爆時一天交易量可能達到全年交易量總和,故銀行系統容量規劃時是充分考慮到交易峰值的,但這樣在正常時間就有很大的交易浪費,以淘寶“雙十一”活動為例,交易量在幾分鐘內就可能達到全年交易量的總和,需要系統服務能力提高十倍,這時雙活資料中心和靈活快速的資源調度就充分發揮出了作用,云計算技術,讓IT系統有了資源整合的能力,讓系統有了充分的彈性,隨時可以調度十臺機器來提高服務能力,來保證交易的突發需求,以及各種突發因素造成的交易量猛增,
有了云計算技術,不代表投入會更少,但是資源利用率會更高,系統但抗沖擊能力會更強,自由調度能力會更強,
自動化是“雙活”與“云計算”必不可少的前提條件
云計算需要自動化手段來幫助系統維護人員進行自動的資源調配,比如,通過虛擬化技術虛擬出了上萬臺虛擬機器,白天需要50臺機器給網銀系統提供web服務,晚上網銀交易少了,貴金屬交易多了,這50臺機器要調配到另一個系統上,這五十臺不可能一個人一臺臺調配,那可能配一晚上都配不完,就需要自動化的軟體來自動調整資源分配,

異地“雙活”難度大
當然,部署“雙活”資料中心的難度也非常大,尤其是異地“雙活”,涉及到資料同步效率問題,如果資料同步效率達不到要求,在災難發生時就會造成一段時間的交易丟失,在異地“雙活”的模式中,兩地資料中心同時接納交易,技術難度很大,需要更改眾多底層程式,
雙活資料中心的建設三個條件
雙活資料中心的建設首先要滿足三個條件,第一個是應用雙活,也就是說資料庫一定要實作雙活,第二個是網路要雙活,業務網路要保證能夠同時聯通兩個資料中心,第三個是資料要雙活,兩邊的資料要能夠實作被獨立使用,
雙活資料中心解決方案缺點
雖然雙活容災解決方案對于集中式管理的資料中心更大限度的保證了業務生產的在線性及有效的防御了災難性事件恢復業務生產的能力,但是雙活資料中心的容災方案還是存在一定的不足之處,理想與現實總存在一定的距離,
1.腦裂現象
雙活資料中心方案實作了站點級的冗余的容災解決方案,但是受限于當前的技術等因素,在建設程序中解決了企業當前面臨的業務連續性問題,同時也產生了新的問題,就是雙活解決方案普遍存在的腦裂現象,在意外事件發生時,若監測技術不到位、系統平臺不健康、兩資料中網路波動性中斷等因素的發生,使得兩個資料中心一體化的業務系統會分裂成兩個獨立的資料中心,使用戶很難取舍那一個是唯一的生產資料,那一個是將要廢掉的非生產資料,這就是早年veritas VVR解決方案退出災備舞臺的原因之一,
2.非“零丟失”,不具備軟錯誤的保障
雙活容災解決方案的優勢強調在健康的運行平臺下,大型災難事件發生是的“零”資料丟失,但是若雙活平臺本身不健康或者遭遇邏輯故障時,并不能保障資料零丟失,這種故障發生的資料恢復或漸變式災難發生的情況下,還需借助備份系統的資料恢復手段或方法,因此,雙活容災方案大多數情況下不具備解決軟錯誤的保障,而恰恰這種事件發生的概率遠遠超過站點級的災難及硬體故障事件,在2012年時,某省政府部門的業務系統已建設容災系統,但是在業務系統進行升級時出錯,導致業務宕機一周多時間,而這期間的大部分時間是查找依據恢復資料,
3.需容忍高可靠性及性能的下降
雙活容災解決方案雖然提升了站點級的冗余保護,但是,在實際中確除低了整體業務平臺的可靠性及性能,在可靠性方案,雙活容災解決方案就是把本地的雙機雙柜的硬體冗余方案跨站點建設,無論是傳統的集群系統、虛擬化主機平臺Vmware,還是Oracle RAC等,跨站點建設都會無形中在業務平臺中增添幾分不穩定的因素,我想從現在流行的一體機解決方案更能說明這方面的問題,即系統越簡單越穩定,在性能方案,站點間的監測、業務會話的同步確認等的網路延遲數,加上資料同步雙寫的光纖延遲,都或多或少的影響了整體業務處理的性能,距離越遠影響越明顯,如果距離較近,也會失去建設雙活容災資料中心的意義,
4.運營維護并不簡單
雙活容災解決方案災難切換方面變的較為簡單,但在實際的維護方面并不簡單,除了要求企業用戶提升自己的維護能力,還需雙活容災解決方案提供商的售后服務能力,
a.企業自身人員的維護能力必須加強,才具備能力維護跨站點的雙活系統,也就是需企業用戶自身人維護人員必須從維護設備的能力轉變為具備維護雙活系統架構的能力,才能維穩系統的正常運行,讓雙活系統實作該有的效果,
b.提供商的服務能力也直接影響雙活容災系統部署后的效果,在已有的案例中,我們經常看到提供商的800電話,除了收集日志還是收集日志,除了正在后臺診斷還是后臺診斷,經常讓一個小小問題需有好多層、次的溝通才能解決,這樣的方式如何保障雙活容災系統的穩定?如保達到用戶對雙活系統在線性要求的期望?
5.性價比并不會太高
我們經常會聽到雙活容災方案可以讓生產中心和容災中心都“活”起來,有效的利用資源,面臨災難性事件時,最大化業務系統的在線性,解除原有災備系統有災無備等等的不足之處,但是,當我們認真考慮建設雙活容災系統時發現,如果自身IT人員的維護能力不足,很難達到我們期望的效果,在現實案例中,很多用戶一次性的費用建設的系統,后續的維保經費很難申請,這種情況很難有效的保障我們的資訊系統的健康運行,寧夏銀行就是在沒有后續維保經費支撐的情況下,硬體出故障,自身IT人員修復程序中出現人為錯誤而引起的重大事故,因此,建設雙活容災系統的同時,必須要保障后續的維護經費,使得雙活容災系統向高大上偏移,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/88161.html
標籤:其他
上一篇:學習防疫思路
