客戶生產環境是用的windows server 2016 hyperv群集,共有7個節點,安裝版本是1607的。
上周一,客戶在白天的生產程序中,突然所有的虛擬機都離線了,我們公司工程師第一時間趕到現場,通過連接到群集管理器發現,磁盤共享卷處于脫機狀態(事件ID:5120和5142),手工將磁盤共享卷聯機,但是提示失敗,最后采用重啟大法,將所有的節點都重新啟動,在啟動程序中,磁盤共享卷有過短暫的聯機,當所有的節點都重啟完成后,共享卷又處于脫機狀態了,通過觀察,發現磁盤共享卷不停的在節點1、2、3、4上來回的切換聯機,但這幾個節點都提示聯機失敗,手工將共享卷切換到節點5、6、7,提示連接成功,但不到幾分鐘,群集又自動將共享卷往節點1、2、3、4上遷移,最后只好把節點1、2、3、4關機,共享卷在節點5上聯機成功,群集才開始正常作業,但當我打開節點1、2、3、4后,群集又無法正常作業,最后只好臨時將節點1、2、3、4的網路禁用,保證客戶白天能正常生產。
晚上維護工程師將節點1、2、3、4重新聯網接入群集,白天的故障又重新出現,但我們把其中一個節點退域后重新加域,系統居然提示網路錯誤,按照網上的資料,查看系統的server、TCP/IP netbios、netlogin幾個服務,發現都被禁用了,重新將這幾個服務設定成自動,并且手工啟動后,加域正常了,節點加入群集后居然也能正常作業了……。
現在我有幾個問題,不知道大家能不能幫我回答下(因為要提供給客戶故障分析報告)
1、server、TCP/IP netbios、netlogin服務理論上都是自動啟動的,為什么會莫名被禁用?客戶機器平時都有病毒防護,而且故障恢復后我們也對機器進行了殺毒掃描,但沒有發現病毒。
2、為什么會出現其中部分節點被禁用,而其他節點正常?server 2016是否有相關的BUG,微軟有沒有發布相關的補丁,補丁號是多少?(server 2012群集好像有相關的BUG,微軟發布過相關補丁,但2016的我沒有找到相關資料)
uj5u.com熱心網友回復:
沒掃出病毒,那真的是系統bug了,不找微軟支持下?uj5u.com熱心網友回復:
估計是聽了網上的建議關閉了不必要的服務就這樣了。之前的勒索病毒出來,不就有人提出禁用445埠的防毒方法嗎?server服務禁用了445埠就關閉了
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/12185.html
