實體解讀丨關于GaussDB ETCD服務例外-有解無憂

摘要：本文通過對ETCD服務例外問題分析，代碼展示解決方案，

本文分享自華為云社區《【實體狀態】GaussDB ETCD服務例外》，作者：酷哥，

首先確認是否是虛擬機、網路故障

虛擬機故障導致ETCD服務例外告警

問題現象

管控面上報etcd服務例外告警，虛擬機發生重啟，熱遷移、冷遷移，HA等動作，

問題分析及界定

在告警資訊中找到實體ID、節點ID、虛擬機ID，在管控面查看虛擬機狀態是否正常，能否正常登錄，

如果虛擬機例外無法登錄，聯系IaaS技術支持修復虛擬機，

檢查虛擬機是否發生過重啟，熱遷移、冷遷移、HA等動作，例如記憶體、網卡等問題引起熱遷移，

處理步驟

聯系IaaS技術支持修復虛擬機，確認虛擬機故障原因，例如記憶體、網卡等問題引起熱遷移，

網路故障導致ETCD服務例外告警

問題現象

管控面上報etcd服務例外告警，虛擬機無法登錄或ping通其他節點IP, 或者監控顯示網路有例外，

問題分析及界定

在該節點上ping其他節點IP，測驗是否ping通，

如果ping不通，執行步驟（1）（2），檢查該節點網路、IP配置、防火墻配置等，

如果ping通，執行步驟（3）確認告警時間點網路是否斷開，

（1）檢查IP是否正常：

ifconfig查看etcd使用的IP是否存在，如果不存在，排查IP配置丟失原因，常見原因是虛擬機重啟后IP沒有重新配置，導致丟失，

（2）檢查防火墻是否正常

在Ruby用戶下查看etcd的IP和埠： ps ux | grep etcd

在root用戶下iptables -L命令檢查防火墻是否限制了IP和埠，如果有限制，去掉防火墻限制，

(3) 查看etcd日志

進入Ruby用戶

cd $GAUSSLOG/cm/etcd

查看對應時間點的etcd_xxx.log日志，如果有如下日志，可能是etcd節點間網路斷開, 或者對端的etcd行程down，導致本端etcd連接斷開，

排查網路原因或對端的etcd行程是否重啟，網路原因可能是網路斷開，網卡故障，也有可能是虛擬機故障，

grpc: Server.processUnaryRPC failed to write status: connection error: desc = "transport is closing"

rafthttp: lost the TCP streaming connection with peer c797ab3a61e2ea55 (stream MsgApp v2 reader)

etcdserver: failed to reach the peerURL(https:// X.X.X.X:X) of member c797ab3a61e2ea55 (Get "https://X.X.X.X:X/version": dial tcp X.X.X.X:X: i/o timeout)

rafthttp: health check for peer c797ab3a61e2ea55 could not connect: dial tcp X.X.X.X:X: i/o timeout (prober "ROUND_TRIPPER_RAFT_MESSAGE")

處理步驟

處理步驟同上，已說明，

負載過重導致ETCD服務例外警告

問題現象

管控面上報etcd服務例外告警, 磁盤IO/CPU/記憶體很高.

問題分析及界定

進入Ruby用戶

cd $GAUSSLOG/cm/etcd

查看對應時間點的etcd_xxx.log日志，告警時間點有如下日志，說明etcd節點負載過重, 磁盤IO、CPU等壓力大，

2021-04-09 10:57:40.112936 W | wal: sync duration of 2.00201804s, expected less than 1s ===通常這個表示磁盤IO壓力大，

2021-04-09 10:57:40.112993 W | etcdserver: failed to send out heartbeat on time (exceeded the 1s timeout for 2.124414ms, to c8eccd97bed22939)

2021-04-09 10:57:40.112999 W | etcdserver: server is likely overloaded

2021-04-09 10:57:43.126444 W | etcdserver: read-only range request "key:\"/Ruby/ignoreNodeNumKey\" " with result "error:context canceled" took too long (1.999877971s) to execute

cd $GAUSSLOG/cm/cm_agent

搜索對應時間點的cm_agent-xxx.log, 如果有如下日志，表示當時磁盤io比較高， io util 100 表示磁盤io 達到100%

2021-04-09 11:06:24.047 tid=15822 LOG: device vdb1, tot_ticks 889640579, cputime 1798651342, io util 100