摘要:在“一切皆服務”的戰略下,華為云基于積累的綜合治理經驗,提出并實踐了“確定性運維”方案,
本文分享自華為云社區《華為云確定性運維,為政務云平臺穩定可靠運行保駕護航》,作者: SRE確定性運維 ,
當人們要辦護照,希望戶政APP 是可用的;當人們要取公積金,希望網上行政大廳是可用的;當人們要掃場所碼,希望健康碼APP 是可用的……
近年來, 數字化經濟下, 云上業務規模的快速增長與深入云化改造, 讓系統的復雜度不斷提升, 對云上的運維也提出了新的挑戰,6 月23 日,國務院印發《國務院關于加強數字政府建設的指導意見》(下面簡稱《指導意見》),指出“持續優化利企便民數字化服務,提升公共服務能力,”電子政務已經與我們生活的方方面面緊密聯系在了一起,持續穩定地提供服務是政務系統的目標,也是面臨的挑戰,各廠家的云平臺早就引入了微服務、云原生技術,也早就用上了DevOps 開始模式,業務規模也在快速增長,
面對這些挑戰,在“一切皆服務”的戰略下,華為云基于積累的綜合治理經驗,提出并實踐了“確定性運維”方案,繼在公有云平臺取得了很好的應用效果后,希望也能幫助政府用好云、管好云,增強政務云平臺的穩定可靠性,滿足政府對一站式服務和業務全流程貫通的需求,
什么是“確定性運維”
穩定可靠是平臺的生產力與核心競爭力,華為云首先通過高質量的產品開發,嚴謹的運維流程和制度來降低故障的概率,在持續挑戰零故障的同時,采用一定的技術手段對可能發生的故障,將間隔、影響范圍及故障恢復時間做到可防、可控、可治,把云化帶來的“不確定性”通過運維變成“確定性”,
基于開發團隊與運維團隊高度協同的合作模式,通過設計和落地高可用架構的產品來提升云平臺的可靠性、可恢復性以及縮小故障影響范圍,并采用動態清零的風控方法阻斷風險,為給客戶提供低成本、高質量、高效率的運維服務,華為云重點投入并開發了高度智能的運維服務平臺,
其中,高可用架構目的是做到現網少出事(變更自動化、灰度發布、故障自愈、冗余設計、安全生產)、故障恢復快(容災雙活、過載流控、服務依賴管理、應急預案與演練,變更回退)、不出惡性事件(基于站點的架構、隨機分片、區域隔離、可用區獨立),
動態清零風控是用AI 能力實作風險冒泡,并及時清除;持續提升監控、定界與快速恢復能力;構建混沌工程等主動運維能力;用資料智能支撐持續的自我改進,
高度智能的運維框架依托資料中臺,結合先進的演算法,實作智能告警、智能故障定界、自動恢復等,

“確定性運維”模式的應用
《指導意見》指出“到2025年,與政府治理能力現代化相適應的數字政府頂層設計更加完善、統籌協調機制更加健全”,“堅持整體協同,強化系統觀念,加強系統集成,全面提升數字政府集約化建設水平,統籌推進技術融合、業務融合、資料融合……”,
政務云作為保障城市穩定運行的數字底座和基石,其承載的民生應用也越來越多,每個應用的架構穩定性能力、彈性能力、監控能力各不相同,如何加強一個“城市”的統籌能力,提升整體數字化、智能化水平?
華為云“確定性運維”實踐中有一個“直營與加盟”的運作模式,目的是為了“一體化”管理云上200多個云服務應用,對運維流程、工具、人力進行治理,做到一套管理體系、一套技術標準、一個統一的平臺,最終實作高質量的運維結果,其原則有四條:
1、運維指揮中心和產品技術能力中心解耦;
2、“直營店”:部分業務由運維中心直接管理和構建能力;
3、“加盟店”:部分業務由伙伴團隊管理和構建能力,遵循運維中心“行管”;
4、“統一平臺”:所有業務逐步納管到統一運維平臺上進行監控,
在管理政務云上大量應用的時候,可以參考以下方式:
1、組建運維中心,梳理分工,區分“直營”或“加盟”,針對負責關鍵應用技術運維的團隊,完成對關鍵應用的“直營”,重點組建可用性技術團隊統一構建關鍵能力和標準,組建運維管理團隊對所有應用的穩定性、賬號安全等進行管理;
2、梳理運維流程體系,梳理可用性架構標準和運維平臺對接標準,全網統一推行;
3、構建統一的智能運維平臺,逐步完成應用統一納管、統一監控、統一大屏展示;
4、例行召集運維經理聯席會,對“加盟”團隊的運維質量和能力建設加強管理,
“確定性運維”成熟度模型的應用
為了幫助云上應用提升運維能力,“確定性運維”有一套成熟度模型幫助云上應用對自身能力進行評估,并擬定能力提升目標,比如“基本運維”能力向“標準化運維”進階,然后再進一步向“SRE 轉型”,進而再提升到“初步確定性”,運維能力提升不僅是運維團隊的作業,還需要拉通產研等周邊團隊共同運作,是一個“一把手”工程,基于實踐經驗,第一級到第二級通常要三個月,第二級升級到第三級至少半年以上,第三級到第四級則需要一年以上,第四級到第五級則是更加復雜而細致的作業,需要一個長期的投入,
在應用向“確定性”進階的程序中,可以先針對具體的能力項進行評估,靈活選擇待優化的專案,基于實踐經驗,目前政務云處于應用大量上云的程序中,在第一階段應優先完善“上線管理”,“監控設計”能力,并同步梳理“應急恢復能力”;此外,還需同步完善ITSM等運維工具,提升運維的標準化和效率,基于第一階段,下一階段可以逐步著手改善產品的可用性架構,同步構建“混沌工程”,如此可盡可能地提升效率,
云上運維在實踐中能夠發揮價值,背后也離不開工具、運作機制的支撐,隨著政務應用上云,需要將一切風險因素考慮在內,華為云確定性運維解決方案基于在公有云平臺的實戰演練經驗,構建了一套完整的面向政務云云上應用的一體化運維服務,以此來保障政務云云上應用的持續穩定可靠運行,
未來,華為云將持續關注政府側的數字化應用需求,與行業伙伴共同探討運維能力升級路徑與方法,共同構建“確定性”的運維世界,以匠心打磨極致服務,努力解決政府在用云、管云中的“疑難雜癥”,為政務云平臺穩定可靠運行保駕護航,
點擊關注,第一時間了解華為云新鮮技術~
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/514257.html
標籤:其他
