故障現象:集群gcadmin狀態查看正常,但集群任務執行突然效率極低,比平時慢幾百倍甚至大部分任務基本停滯不動。
排查程序:首先通過重啟集群未能奏效(重啟可以解決90%的問題,- -!),繼而檢查集群狀態、資料分片、system日志、express日志、pstack資訊、linux系統日志messages等均未發現任何例外。此時發現故障出現隨機的情況,某些時候同樣的一個任務(小查詢,查詢某個一千多行資料的表)很快就可以出結果,但再次執行又會卡死狀態根本過不去,隨機的情況大概率與網路有關系了,此時挨個排查每臺集群節點的網路狀況發現存在某幾個節點ping值會出現掉包,隨即更換交換機網卡,問題解決。
排查總結:
1.網路問題導致集群處理任務時候網路隨機掉包,任務在某些網路存在問題的節點卡死導致整個任務卡死狀態,單單從集群和單個節點的監測狀態來看很難發現問題。
2.ping的時候需要ping大包,比如網路側的傳輸能力是最大9000,那么使用命令ping -s 9000 ip這樣才能測出是否掉包(不ping大包是發現不了掉包的)。
3.GBASE 8A資料庫提供了集群節點狀態設定功能,在遇到某些節點出現問題但管理節點還在下發任務過去的時候可以通過gcadmin提供的命令將集群節點設定為failure狀態,那么管理節點收到任務請求的時候也不會下發到這個節點上,那么任務也不會在此問題節點上卡死。這個功能適用于發生故障未解決但業務需要及時保障的情況下。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/8736.html
標籤:其他數據庫
