背景
騰訊云容器服務TKE從2016年提供服務至今,已服務成千上萬企業構建其容器化平臺, 一方面,騰訊云容器團隊在提供容器服務時積累并完善了一套萬級K8s集群的etcd管理平臺,用于支撐騰訊云容器產品穩定運行,該平臺同時也支撐了騰訊內部業務如云監控,api網關,歡樂游戲等,另一方面,我們積極參與etcd社區,將我們大規模實踐程序中遇到的問題和解決方案,反饋和貢獻給社區,是社區2020年最活躍的貢獻團隊之一,
容器團隊在多次客戶訪談中了解到,很多客戶不想自己運維etcd,期望能夠使用騰訊云容器服務內部etcd平臺的能力和經驗, 因此我們推出了騰訊云原生etcd服務,
騰訊云原生etcd服務介紹
etcd是什么
etcd是一個分布式、高可靠的鍵值存盤,可以容忍集群中部分節點故障,只要有一半以上節點存活即可對外提供服務,主要用于元資料存盤,服務發現,分布式選舉等場景,如Kubernetes,CoreDNS等,基于etcd提供的Watch機制,可以很方便的實作發布訂閱等功能,

為什么要推出etcd服務
容器團隊在拜訪客戶時了解到,很多客戶由于對etcd了解程度不夠,導致在實際使用和運維程序中出現過很多問題, 例如有些客戶使用了v3的api寫資料卻使用了v2的api進行資料備份,還有些客戶因為集群恢復時引數指定的有問題導致集群無法正常重建,從而影響業務恢復,更有甚者,因為自動壓縮引數配置的有問題而頻繁的使用defrag進行碎片整理,還有很多業務因為使用姿勢的問題導致etcd性能嚴重下降,頻繁leader選舉,間接造成業務不可用,資料丟失等,
此外,用戶自建etcd往往還需要自己再維護一套etcd監控告警系統和備份恢復機制,增加了運維負擔,自建etcd集群容易疏忽監控和備份機制,往往出了問題之后才后知后覺,雖然目前業界已經有了很多基于K8s的etcd管理方案,一定程度上減輕了運維負擔,如etcd-operator(目前已不再維護),基于helm部署的etcd等,但這些專案在可用性和易用性上并沒有保障,出了問題之后往往更難恢復,
騰訊云容器團隊目前線上運維了上萬套K8s集群,后端使用了上千套etcd集群作為支撐存盤,在保障etcd穩定運營的程序中,我們遇到過很多問題,也因此積累了大量的實踐經驗,并范訓出了一套自動化etcd管理平臺:包含完善的監控告警,備份恢復和容災機制,強大的巡檢能力能夠幫助我們進行熱點資料分析,混沌工程幫助我們主動發現一些隱藏的bug,可控的變更和升級機制能夠讓我們針對問題版本進行快速升級,
目前我們已經在騰訊內部為多個業務團隊提供etcd服務,保障業務快速上線和穩定運營, 為服務更多客戶,我們推出了云原生etcd產品服務,將我們內部的能力提供出來,衷心期望能夠幫您解決etcd的運維負擔,
騰訊云原生etcd服務介紹
騰訊云容器團隊提供的云原生etcd服務可以幫助您:
- 一鍵部署經騰訊內部大規模驗證的高可靠高性能etcd集群,支持跨可用區容災能力、專業團隊為您提供最優化的性能配置,
- 集成云原生監控能力,提供完善的監控和告警機制
- 提供etcd日常運維管理能力:
- 備份恢復:支持自動備份和手動備份、災難情況可以選擇從備份恢復集群
- 配置升降、集群擴縮容:借助騰訊云上計算存盤資源,您可以方便快速調整etcd集群配置和節點個數
- etcd版本升級:幫助您快速安全地跟進社區bugfix版本更新,版本上線前會經過內部大規模場景驗證,避免因etcd自身bug造成隱患,
一鍵部署etcd集群

集成云原生監控
除原生指標外,集成云原生監控還同時支持擴展的巡檢指標,如資料一致性巡檢,集群健康探測,業務寫QPS巡檢等,

etcd集群管理


騰訊云原生etcd服務產品優勢
易用使用的托管部署
您可以在騰訊云容器服務控制臺一鍵創建高可靠,高性能etcd集群, 即可在幾分鐘內啟動一個可投入生產的etcd集群,底層資源基于K8s部署,通過operator進行管理,支持將節點打散到不同的可用區,在3個可用區的情況下,單可用區掛掉不影響集群正常服務,節點掛掉之后可以快速自愈,最大程度降低不可用時間,資料持久化存盤于騰訊云云硬碟,具備多副本的容災能力,您不需要過多關注etcd的各項復雜引數,我們會根據您的集群配置,自動適配到合適的引數配置,

安全的資料訪問
支持開啟https雙向認證及鑒權,資料訪問更加安全,支持通過安全組來限制訪問來源,
完善的資料備份/恢復
您可以在控制臺創建集群時或集群創建完成后設定etcd的備份策略,支持定時的將資料備份到騰訊云物件存盤COS服務,您也可以手動來觸發備份,在集群資料例外需要回滾的情況下,可以通過COS備份來恢復集群,
全面的監控告警
無縫對接騰訊云原生監控服務(托管prometheus服務),默認提供您需要關注的各項性能指標和可用性指標,您也可以自行聚合需要的監控指標和面板,幫助您更好的監控etcd集群狀態,
熱點資料分析
除默認的監控能力外,我們額外提供了熱點資料分析和慢查詢分析能力,可以幫助您更好的分析例外請求來源,及時發現問題并進行優化,
完善的保障機制
云原生etcd服務的高可靠性讓您可以放心將資料放在云端,無需擔心資料丟失,也簡化了傳統運維作業中為保障資料高可靠帶來的額外作業量和額外的 IT 投入成本,
可靠的版本驗證和更新機制
版本上線前會經過完善的內部測驗和大規模驗證,通過混沌工程進行故障演練,保證版本的穩定性,
全流程的運維服務
您無需關心云原生etcd服務的安裝、部署、版本更新及故障處理,容器團隊為您免除后顧之憂,
內測邀請
我們誠摯邀請您參與騰訊云原生etcd服務的內測, 您可以通過以下鏈接提交內測申請:https://cloud.tencent.com/apply/p/deks64tn14b
附錄:
《三年之久的 etcd3 資料不一致 bug 分析》
《萬級K8s集群背后etcd穩定性及性能優化實踐》
【騰訊云原生】云說新品、云研新術、云游新活、云賞資訊,掃碼關注同名公眾號,及時獲取更多干貨!!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/60985.html
標籤:其他
上一篇:0421. Maximum XOR of Two Numbers in an Array (M)
下一篇:使用Python預測缺失值

